मिठी चेहरा मंगळवारी स्मोल्व्ला, ओपन सोर्स व्हिजन लँग्वेज Action क्शन (व्हीएलए) कृत्रिम बुद्धिमत्ता (एआय) मॉडेल रिलीज झाला. मोठ्या भाषेचे मॉडेल रोबोटिक्स वर्कफ्लो आणि प्रशिक्षण-संबंधित कार्यांसाठी आहे. कंपनीचा असा दावा आहे की एआय मॉडेल एकल ग्राहक जीपीयू किंवा मॅकबुक असलेल्या संगणकावर स्थानिक पातळीवर चालविण्यासाठी लहान आणि कार्यक्षम आहे. न्यूयॉर्क, यूएस-आधारित एआय मॉडेल रेपॉजिटरीने असा दावा केला आहे की स्मोल्व्हला त्यापेक्षा जास्त मोठ्या मॉडेल्सला मागे टाकू शकते. एआय मॉडेल सध्या डाउनलोड करण्यासाठी उपलब्ध आहे.
मिठी मारणे फेसचे स्मोल्व्ह्ला एआय मॉडेल मॅकबुकवर स्थानिक पातळीवर चालवू शकते
मिठीच्या चेहर्याच्या मते, एआयच्या जागेत वाढ असूनही रोबोटिक्समधील प्रगती मंदावली आहेत. कंपनीचे म्हणणे आहे की हे ए च्या कारणास्तव आहे उच्च-गुणवत्तेची आणि वैविध्यपूर्ण डेटाचा अभावआणि रोबोटिक्स वर्कफ्लोसाठी डिझाइन केलेले मोठ्या भाषा मॉडेल (एलएलएम).
व्हीएलए एक समस्येचे निराकरण म्हणून उदयास आले आहेत, परंतु Google आणि NVIDIA सारख्या कंपन्यांमधील बहुतेक अग्रगण्य मॉडेल मालकीचे आहेत आणि ते खाजगी डेटासेटवर प्रशिक्षण घेत आहेत. परिणामी, ओपन-सोर्स डेटावर अवलंबून असलेल्या मोठ्या रोबोटिक्स रिसर्च कम्युनिटीला या एआय मॉडेल्सवर पुनरुत्पादन किंवा बिल्डिंगमध्ये मोठ्या अडथळ्यांचा सामना करावा लागतो, असे पोस्टने ठळक केले.
हे व्हीएलए मॉडेल प्रतिमा, व्हिडिओ किंवा थेट कॅमेरा फीड कॅप्चर करू शकतात, वास्तविक-जगाची स्थिती समजू शकतात आणि नंतर रोबोटिक्स हार्डवेअरचा वापर करून प्रॉम्प्ट केलेले कार्य करू शकतात.
मिठी मारणारा चेहरा म्हणतो, स्मोल्व्हला सध्या रोबोटिक्स रिसर्च कम्युनिटीला भेडसावणा the ्या दोन्ही वेदना बिंदूंना संबोधित करते-हे ओपन-सोर्स रोबोटिक्स-केंद्रित मॉडेल आहे जे लेरोबोट समुदायाच्या खुल्या डेटासेटवर प्रशिक्षण दिले आहे. स्मोल्व्ला हे 450 दशलक्ष पॅरामीटर एआय मॉडेल आहे जे डेस्कटॉप संगणकावर एकाच सुसंगत जीपीयूसह किंवा अगदी नवीन मॅकबुक डिव्हाइससह देखील चालवू शकते.
आर्किटेक्चरमध्ये येत, हे कंपनीच्या व्हीएलएम मॉडेल्सवर तयार केले गेले आहे. यात सिग्लिप व्हिजन एन्कोडर आणि भाषा डीकोडर (एसएमओएलएम 2) असते. व्हिज्युअल माहिती व्हिजन एन्कोडरद्वारे हस्तगत केली जाते आणि काढली जाते, तर नैसर्गिक भाषा सूचित करते आणि डीकोडरमध्ये पोसली जाते.
हालचाली किंवा शारीरिक कृती (रोबोटिक हार्डवेअरद्वारे कार्य अंमलात आणताना) सामोरे जाताना, सेन्सॉरिमोटर सिग्नल एकाच टोकनमध्ये जोडले जातात. त्यानंतर डीकोडर या सर्व माहितीला एकाच प्रवाहात एकत्र करते आणि त्यावर प्रक्रिया करते. हे मॉडेलला वास्तविक-जगातील डेटा आणि कार्य हाताळणीवर समजून घेण्यास सक्षम करते, आणि स्वतंत्र घटक म्हणून नाही.
स्मोल्व्हला कृती तज्ञ नावाच्या दुसर्या घटकाकडे शिकलेल्या सर्व गोष्टी पाठवते, जे कोणती कारवाई करावी हे ठरवते. कृती तज्ञ 100 दशलक्ष पॅरामीटर्ससह एक ट्रान्सफॉर्मर-आधारित आर्किटेक्चर आहे. हे रोबोटसाठी भविष्यातील हालचालींच्या मालिकेचा अंदाज लावते (चालण्याचे चरण, आर्म हालचाली इ.), ज्याला अॅक्शन भाग म्हणून देखील ओळखले जाते.
हे एका कोनाडाच्या लोकसंख्याशास्त्रावर लागू होते, रोबोटिक्ससह काम करणारे हे करू शकतात डाउनलोड करा एकतर स्मॉल्व्ला मॉडेलवर पुनरुत्पादित करण्यासाठी किंवा तयार करण्यासाठी खुले वजन, डेटासेट आणि प्रशिक्षण पाककृती. याव्यतिरिक्त, रोबोटिक्स उत्साही ज्यांना रोबोटिक आर्म किंवा तत्सम हार्डवेअरमध्ये प्रवेश आहे ते देखील मॉडेल चालविण्यासाठी आणि रिअल-टाइम रोबोटिक्स वर्कफ्लो वापरुन डाउनलोड करू शकतात.