Microsoft ने MU, एक नया आर्टिफिशियल इंटेलिजेंस (AI) मॉडल पेश किया है जो एक डिवाइस पर स्थानीय रूप से चल सकता है। पिछले हफ्ते, रेडमंड-आधारित टेक दिग्गज ने बीटा में नई विंडोज 11 फीचर्स जारी किए, जिनमें से सेटिंग्स में नए एआई एजेंट फीचर थे। यह सुविधा उपयोगकर्ताओं को यह बताने की अनुमति देती है कि वे सेटिंग्स मेनू में क्या करना चाहते हैं, और एआई एजेंटों का उपयोग या तो विकल्प पर नेविगेट करने के लिए या स्वायत्त रूप से कार्रवाई करने के लिए करते हैं। कंपनी ने अब पुष्टि की है कि यह सुविधा MU स्मॉल लैंग्वेज मॉडल (SLM) द्वारा संचालित है।
Windows सेटिंग्स में Microsoft के MU AI मॉडल पॉवर्स एजेंट
में एक ब्लॉग भेजाटेक दिग्गज ने अपने नए एआई मॉडल को विस्तृत किया। यह वर्तमान में संगत कोपिलॉट+ पीसीएस में पूरी तरह से ऑन-डिवाइस तैनात किया गया है, और यह डिवाइस की तंत्रिका प्रसंस्करण इकाई (एनपीयू) पर चलता है। Microsoft ने मॉडल के अनुकूलन और विलंबता पर काम किया है और दावा किया है कि यह “सेटिंग्स परिदृश्य में एजेंट की UX आवश्यकताओं की मांग करने वाली UX आवश्यकताओं की मांग करने के लिए प्रति सेकंड 100 से अधिक टोकन पर प्रतिक्रिया करता है।”
एमयू को एक ट्रांसफार्मर-आधारित एनकोडर-डिकोडर आर्किटेक्चर पर बनाया गया है, जिसमें 330 मिलियन टोकन मापदंडों की विशेषता है, जो एसएलएम को छोटे पैमाने पर तैनाती के लिए एक अच्छा फिट बनाता है। इस तरह की वास्तुकला में, एनकोडर पहले इनपुट को एक सुपाठ्य निश्चित-लंबाई प्रतिनिधित्व में परिवर्तित करता है, जिसे तब डिकोडर द्वारा विश्लेषण किया जाता है, जो आउटपुट भी उत्पन्न करता है।
Microsoft ने कहा कि इस वास्तुकला को उच्च दक्षता और अनुकूलन के कारण पसंद किया गया था, जो सीमित कम्प्यूटेशनल बैंडविड्थ के साथ काम करते समय आवश्यक है। इसे एनपीयू के प्रतिबंधों के साथ गठबंधन करने के लिए, कंपनी ने एनकोडर और डिकोडर के बीच परत आयामों और अनुकूलित पैरामीटर वितरण के लिए भी चुना।
कंपनी के PHI मॉडल से डिस्टिल्ड, MU को Azure मशीन लर्निंग पर A100 GPU का उपयोग करके प्रशिक्षित किया गया था। आमतौर पर, डिस्टिल्ड मॉडल मूल मॉडल की तुलना में उच्च दक्षता प्रदर्शित करते हैं। Microsoft ने टास्क-विशिष्ट डेटा के साथ मॉडल को जोड़कर और कम-रैंक अनुकूलन (LORA) विधियों के माध्यम से फाइन-ट्यूनिंग करके अपनी दक्षता में सुधार किया। दिलचस्प बात यह है कि कंपनी का दावा है कि एमयू एक समान स्तर पर PHI-3.5-Mini के समान स्तर पर एक-दसवां आकार होने के बावजूद प्रदर्शन करता है।
विंडोज सेटिंग्स के लिए एमयू का अनुकूलन
टेक दिग्गज को भी एक और समस्या को हल करना पड़ा, इससे पहले कि मॉडल एआई एजेंटों को सेटिंग्स में पावर दे सके – सैकड़ों सिस्टम सेटिंग्स को बदलने के लिए इनपुट और आउटपुट टोकन को संभालने में सक्षम होने की आवश्यकता थी। इसके लिए न केवल एक विशाल ज्ञान नेटवर्क की आवश्यकता थी, बल्कि लगभग तुरंत कार्यों को पूरा करने के लिए कम विलंबता की भी आवश्यकता होती है।
इसलिए, Microsoft ने अपने प्रशिक्षण डेटा को बड़े पैमाने पर स्केल किया, 50 सेटिंग्स से सैकड़ों तक जा रहा था, और एआई को सिखाने के लिए सिंथेटिक लेबलिंग और शोर इंजेक्शन जैसी तकनीकों का उपयोग किया गया था कि लोग आम कार्यों को कैसे वाक्यांश करते हैं। 3.6 मिलियन से अधिक उदाहरणों के साथ प्रशिक्षण के बाद, मॉडल आधे सेकंड से कम समय में जवाब देने के लिए काफी तेज और सटीक हो गया, कंपनी ने दावा किया।
एक महत्वपूर्ण चुनौती यह थी कि एमयू ने छोटे या अस्पष्ट वाक्यांशों पर बहु-शब्द क्वेरी के साथ बेहतर प्रदर्शन किया। उदाहरण के लिए, “लोअर स्क्रीन ब्राइटनेस एट नाइट” टाइप करना इसे केवल “ब्राइटनेस” टाइप करने की तुलना में अधिक संदर्भ देता है। इसे हल करने के लिए, Microsoft पारंपरिक कीवर्ड-आधारित खोज परिणाम दिखाना जारी रखता है जब एक क्वेरी बहुत अस्पष्ट होती है।
Microsoft ने एक भाषा-आधारित अंतर भी देखा। ऐसे उदाहरणों में जब एक सेटिंग एक से अधिक कार्यक्षमता पर लागू हो सकती है (उदाहरण के लिए, “बढ़ी हुई चमक” डिवाइस की स्क्रीन या बाहरी मॉनिटर को संदर्भित कर सकती है)। इस अंतर को संबोधित करने के लिए, AI मॉडल वर्तमान में सबसे अधिक उपयोग की जाने वाली सेटिंग्स पर ध्यान केंद्रित करता है। यह कुछ ऐसा है जिसे टेक दिग्गज परिष्कृत करना जारी रखते हैं।