World of Tech This Week – Mistral’s Pixtral, Replit Agent, Hailuo Minimax Hollywood Video Model, Carpentopod and more


World of Tech This Week – Mistral’s Pixtral, Replit Agent, Hailuo Minimax Hollywood Video Model, Carpentopod and moreठीक सात साल पहले, गूगल रिसर्च और गूगल ब्रेन के अनुसंधान वैज्ञानिकों की एक टीम ने “ऑल यू नीड इज अटेंशन” शीर्षक से एक पेपर प्रकाशित किया था। इस पेपर में, उन्होंने “ट्रांसफॉर्मर” नामक एक “सरल नेटवर्क आर्किटेक्चर” का प्रस्ताव रखा। यह मुख्य, पौराणिक वास्तुकला बन गई है जो आज ग्रह पर हर बड़े पैमाने के भाषा मॉडल को शक्ति प्रदान करती है। यही प्रौद्योगिकी का सार है. सिर्फ एक शोध पत्र दुनिया को बदल सकता है। भविष्य में किस प्रकार के विकास हमारा इंतजार कर रहे हैं? क्या ऐसे कोई अन्य कागजात हैं? इससे भी महत्वपूर्ण बात यह है कि क्या आप इसे चूकने का जोखिम उठा सकते हैं? यही कारण है कि हम हर सप्ताह आपके लिए प्रौद्योगिकी की दुनिया से सभी नवीनतम अपडेट लेकर आते हैं। आइए एक नजर डालते हैं कि इस हफ्ते क्या हुआ।


This article is brought to you in partnership with Truetalks Community by Truecaller, a dynamic, interactive network that enhances communication safety and efficiency. https://community.truecaller.com

पिक्सट्रल 12बी v0.1 मिस्ट्रल का पहला मल्टीमॉडल ओपन सोर्स एलएलएम है।

मिस्ट्रल एक फ्रांसीसी एआई स्टार्टअप है जो अपनी एलएलएम श्रृंखला के लिए जाना जाता है, जो मुख्य रूप से खुला स्रोत होने के कारण बहुत लोकप्रिय है। कोई भी इसे डाउनलोड और उपयोग कर सकता था, और इसे टोरेंट के माध्यम से डाउनलोड करना आसान था, जिससे इसे ओपन सोर्स और एलएलएम उत्साही लोगों के बीच बहुत बदनामी मिली। कुछ समय पहले, मेटा ने लामा 3 जारी किया था, जो लगभग 400 बिलियन मापदंडों वाला एक विशाल ओपन सोर्स मॉडल था। प्रतिस्पर्धी मिस्ट्रल “पिक्सट्रल v0.1” नामक पहला मल्टीमॉडल एलएलएम लेकर आया, जो 12 बिलियन मापदंडों वाला अपेक्षाकृत हल्का मॉडल था। एलएलएम के संदर्भ में, मापदंडों की संख्या मॉडल की जटिलता को निर्धारित करती है, जो बदले में इस बात पर निर्भर करती है कि किस प्रकार की फाइन-ट्यूनिंग की गई है। पिक्सट्राल के मामले में, यह स्पष्ट है कि यह पहले से ही बेहतर ट्यून किए गए निमो-12बी मॉडल पर आधारित है, जिसे मिस्ट्रल डाउनलोड करने की अनुमति देता है। चूँकि अभी खबर आई है, GPU-आधारित कई उत्साही लोग अभी भी 28GB टोरेंट डाउनलोड कर रहे हैं और डेवलपर्स ने अभी तक उन्हें सक्षम सर्वर पर होस्ट नहीं किया है, Pixtral के प्रदर्शन पर अभी तक कोई शब्द नहीं है, लेकिन यह बिंदु स्पष्ट है। यह मॉडल न केवल टेक्स्ट, बल्कि छवियों को भी समझ सकता है। इसका मतलब यह है कि यह केवल समय की बात है जब तक कोई छवि नहीं बनाता। वहां मौजूद गीक्स के लिए, यहां विवरण दिए गए हैं:

1. टेक्स्ट बैकबोन: मिस्ट्रल निमो 12बी 2. विज़न एडाप्टर: 400M 3. GeLU (विज़न एडेप्टर के लिए) और 2D RoPE (विज़न एन्कोडर्स के लिए) को सक्षम करता है 4. बड़ी शब्दावली – 131,072 5. तीन नए विशेष टोकन – `img_break’; `, `img_end` 6. छवि का आकार: 1024 x 1024 पिक्सेल 7. पैच आकार: 16 x 16 पिक्सेल 8. मिस्ट्रल_कॉमन में टोकनाइज़र समर्थन

जैसे ही डेवलपर्स और उत्साही लोग इस नए कोड का बेंचमार्किंग शुरू करेंगे, हम आपको अगले सप्ताह अधिक विवरण के साथ अपडेट करेंगे। एलएलएम जगत अधिक प्रतिस्पर्धा से प्रसन्न होगा!

बिना किसी कोडिंग ज्ञान के भी “रेप्लिट एजेंट” के साथ ऐप्स विकसित करें

“कर्सर एआई” कुछ हफ़्ते पहले एक गर्म विषय रहा होगा, लेकिन 50 से अधिक प्रोग्रामिंग भाषाओं का समर्थन करने वाली एक ऑनलाइन आईडीई, रिप्लिट ने “रेप्लिट एजेंट” नामक अपना स्वयं का एआई कोडिंग सहायक जारी किया है। सीईओ अमजद मसाद द्वारा घोषित, एजेंट पहले से ही सभी कोडर के लिए शुरुआती पहुंच में उपलब्ध है, जो आपको स्क्रैच से सभी प्रकार के कार्यक्रमों के निर्माण के हर चरण में मदद करता है। लाभ यह है कि एलएलएम की शक्ति कोडिंग को इतना सरल बना देती है कि आपको टेक्स्ट बॉक्स में केवल प्राकृतिक भाषा में एक संकेत लिखने की आवश्यकता होती है। कोडर जो चाहें प्रश्न पूछ सकते हैं, और एजेंट बस ऐसा करते हैं। डेमो वीडियो में, अमजद एजेंटों से “स्थानीय स्थलों के साथ एक ऐप बनाने” के लिए कहता है, जिसमें वह एक खोज बार जोड़ना चाहता है। जैसे ही आप संकेत टाइप करते हैं, आपको वास्तविक समय में एजेंट क्या कर रहा है, इस पर लाइव अपडेट प्राप्त होंगे क्योंकि यह उन्हीं रिपॉजिटरी का उपयोग करके कोड लिखता है जो डेवलपर्स आमतौर पर उपयोग करते हैं। कुछ भी अस्पष्ट नहीं है. ऐसा इसलिए है क्योंकि एजेंट जो कुछ भी करता है वह वास्तविक समय में कोडर को पूरी तरह से दिखाई देता है। “चैट विंडो” में, कोडर एजेंटों को फीडबैक प्रदान कर सकते हैं, जो सभी आवश्यकताओं को पूरा करने के लिए वास्तविक समय में परिवर्तन लागू करेंगे। मूल रूप से, रेप्लिट एजेंट वही करते हैं जो डेवलपर्स करते हैं – बहुत तेज़ वर्कफ़्लो बनाने के लिए समान कार्यों की नकल करना, या यहां तक ​​कि डेवलपर्स एजेंट से किसी भी कोडिंग ज्ञान की आवश्यकता के बिना उनके लिए एक प्रोग्राम विकसित करने के लिए “पूछ” रहे हैं। ये अद्भुत विशेषताएं अब रिप्लिट में लाइव हैं, और डेवलपर्स और कोडिंग उत्साही लोगों के बीच पहले से ही प्रसिद्ध हैं। अपने परिचयात्मक वीडियो में, अमजद ने फीचर के पीछे की प्रेरणा के बारे में विस्तार से बताते हुए कहा, “जब आपके पास कोई विचार है, तो जरूरी नहीं कि यह एक क्षणभंगुर विचार हो, आपको बस इसे पूरा करना है और कोड आपका है। यह है वहाँ।” डेमो वीडियो में, वह अपने “लैडमार्क्स नियर मी” ऐप में एक जटिल “खोज” सुविधा जोड़ने और इसे केवल दो मिनट में उत्पादन में तैनात करने में सक्षम था। क्या आपने कभी ऐसे परिदृश्य के बारे में सुना है जहां आप इसे तुरंत लॉन्च करते हैं? खैर, यहीं पर रिप्लिट एजेंट आता है, और इसे पहले से ही डेवलपर्स और उत्साही लोगों से अच्छी समीक्षा मिल रही है जो तुरंत प्रोटोटाइप शुरू करना चाहते हैं। क्या आपने “कर्सर” या “रिप्लिट एजेंट” आज़माया है?

हैलुओ “मिनिमैक्स” एआई – क्रू के बिना हॉलीवुड प्रोडक्शन

एक बार फिर चीन ने बाजी पलट दी है. एक महीने पहले, “क्लिंग एआई” ने जेनएआई वीडियो क्षेत्र में काफी हलचल मचाई थी, जो ल्यूमलैब्स और रनवे जैसे यूएस-आधारित एलएलएम के लिए एक बहुत मजबूत प्रतियोगी बन गया। अब इस सप्ताह GenAI इकोसिस्टम पर पूरी तरह से हावी होने की बारी “हैलुओ-मिनिमैक्स” की है। ऐसा क्या खास है? खैर, सबसे पहले, यह पूरी तरह से एक “टेक्स्ट टू वीडियो” मॉडल है, जहां आप केवल संकेत टाइप करते हैं और वीडियो किसी भी प्रकार के छवि मार्गदर्शन के बिना बनाया जाता है। और जिस प्रकार का वीडियो यह बनाता है वह वर्तमान स्थिति के लिए आसानी से शीर्ष पायदान पर है। ऐसा इसलिए है क्योंकि इसमें कृत्रिम “धीमी गति” प्रभाव नहीं है जो आज लगभग सभी अन्य वीडियो मॉडलों की समस्या है। इस वीडियो मॉडल के साथ संभावित परिणामों के प्रकार के लिए इस डेमो वीडियो को देखें।

चूंकि इसे आज़माना मुफ़्त है, इसलिए कई उपयोगकर्ताओं ने इस मॉडल को आज़माया है और अपने अनोखे परिणाम साझा कर रहे हैं। यहां थ्रेड के अनुसार, इस मॉडल द्वारा निर्मित वीडियो में एक निश्चित सिनेमाई अनुभव होता है, जिससे पता चलता है कि इस मॉडल को प्रशिक्षित करने के लिए बहुत सारी फिल्मों का उपयोग किया गया था। अन्य पोस्टों में कम से कम कहने के लिए, आउटपुट वास्तव में आश्चर्यजनक है। सही ढंग से संकेत दिए जाने पर रंग, गति, सब कुछ सही दिशा में जाता हुआ प्रतीत होता है। इस एआई मॉडल के साथ अपनी खुद की फिल्म बनाने की कल्पना करें। आपको बस एक परिदृश्य की आवश्यकता है। Hailuo-Minimax वीडियो मॉडल बिल्कुल यही अनुसरण करता है। और यह सिर्फ शुरुआत है। मुझे यकीन है कि आगे के अपडेट के साथ यह चीन से आने वाले सबसे अच्छे वीडियो मॉडल में से एक बन जाएगा। इस अपडेट के तुरंत बाद “एडोब फायरली” ने सुरक्षित, “कॉपीराइट-मुक्त” निर्माण की विशेषता वाले अपने स्वयं के वीडियो मॉडल के साथ रिलीज़ किया। हम आपको अगले सप्ताह और बताएंगे।

एआई जो होठों को पढ़ सकता है और कैप्शन बना सकता है

सिम्फोनिक लैब्स सैन फ्रांसिस्को और वाटरलू (कनाडा) में स्थित एक एआई स्टार्टअप है जो मल्टीमॉडल भाषण समझ उपकरण विकसित कर रहा है। उन्होंने अपनी वेबसाइट पर “readtheirlips” नाम से एक नया टूल लॉन्च किया है, और यह काफी आत्म-व्याख्यात्मक है। यह एक बहुत ही सरल, फिर भी बहुत शक्तिशाली उपकरण है, जहां आप बस वह वीडियो अपलोड करते हैं जिसे आप डिकोड करना चाहते हैं और यह एक बहुत ही जटिल दृष्टि एल्गोरिदम का उपयोग करके आपके लिए इसे कैप्शन देगा जो जटिल ऑडियो प्रोसेसिंग एल्गोरिदम के बजाय मोशन कैप्चर जैसी तकनीकों का उपयोग करके होठों को पढ़ता है। दूर से या विकृत ऑडियो के साथ शूट किए गए वीडियो की कल्पना करें। ऐसे वीडियो के लिए कैप्शन बनाना लगभग असंभव है, जैसा कि कई उपशीर्षक विशेषज्ञ और विशेषज्ञ जानते हैं और उन्होंने कई वृत्तचित्रों में इस स्थिति का सामना किया है। खैर, यह सटीक समस्या है जिसे सिम्फोनिक लैब्स का समाधान लिप रीडिंग के साथ हल करता है। विशेष रूप से चेहरे की गति डेटा पर प्रशिक्षित अच्छी तरह से प्रशिक्षित मॉडल का लाभ उठाकर, यह उपकरण आंखों, गालों और मुंह की गतिविधियों को सटीक रूप से निर्धारित करके विशिष्ट वीडियो अनुक्रमों के लिए सही कैप्शन का पुनर्निर्माण कर सकता है। बेशक, कई प्रतिक्रियाओं ने कृत्रिम बुद्धिमत्ता के निगरानी क्षेत्र में प्रवेश के बारे में चिंता व्यक्त की। एक सर्वशक्तिमान राज्य प्रत्येक नागरिक के शब्दों और चेहरे के भावों पर नज़र रखने में सक्षम होगा। लेकिन क्या आप जानते हैं कि मास्क किस लिए होते हैं? खैर, सभी उपकरण इस तरह की जांच के लायक नहीं हैं, लेकिन जब अत्याधुनिक तकनीक की बात आती है, तो आपको हमेशा ऐसे आलोचकों का सामना करना पड़ता है जो इसमें यथासंभव देरी करना चाहते हैं और यथास्थिति बनाए रखना चाहते हैं। हालाँकि, इतिहास ने हमें सिखाया है कि तकनीकी प्रगति अपरिहार्य है और भविष्य में जांच एजेंसियों द्वारा फोरेंसिक में ऐसे लिप-रीडिंग समाधानों का व्यापक रूप से उपयोग किया जा सकता है।

चलती मेज?

इस सप्ताह के रोबोट अपडेट में डिजाइनर गिलियम डी कारपेंटियर द्वारा बनाई गई “कारपेंटोपोड” नामक एक वॉकिंग टेबल शामिल है। हाँ, यह एक वास्तविक चीज़ है और गिलियम का एक महान निजी प्रोजेक्ट है। इसका विवरण उनके ब्लॉग पर है। डिज़ाइनर के अनुसार, इस पसंदीदा परियोजना पर कई वर्षों से काम चल रहा था, 2008 में जब वह सॉफ़्टवेयर में विभिन्न प्रकार के चलने के तंत्र बनाना चाहते थे। तब से उन्होंने इलेक्ट्रॉनिक्स और लकड़ी डिजाइन में और अधिक कार्य कौशल हासिल कर लिया है। परिणाम एक वायरलेस वॉकिंग लकड़ी की कॉफी टेबल है जिसे जॉयस्टिक का उपयोग करके नियंत्रित किया जा सकता है। तालिका में एक बहुत ही दिलचस्प पैर लगाव तंत्र है जो आपको वास्तव में पैरों को स्थानांतरित करने की अनुमति देता है। प्रत्येक तरफ कुल छह पैरों को वास्तव में C++ प्रोग्रामिंग के साथ डिजाइन और हल किया गया था, और पैरों को विभिन्न मापदंडों पर एक-दूसरे के खिलाफ प्रतिस्पर्धा करने की अनुमति देकर किनेमेटिक्स सॉल्वर और एल्गोरिदम में सुधार किया गया था। सभी छह मोटर-चालित पैर अनुभाग सरल इलेक्ट्रॉनिक्स का उपयोग करते हैं। “ईमानदारी से, क्या यह बहुत उपयोगी होगा? शायद नहीं। लेकिन क्या आपके लिए एक पेय लाना मज़ेदार होगा?” गिलियम का दावा है कि उसके पास खरीदारी के अनुरोधों की बाढ़ आ गई है। लेकिन उन्हें केवल ऑर्डर पर बनाने के बजाय, उन्होंने अपने ब्लॉग पर डिज़ाइन खोले और पूरी निर्माण प्रक्रिया का दस्तावेजीकरण किया। एक अद्भुत इंडी प्रोजेक्ट जिस पर 16 वर्षों से काम चल रहा है वह वास्तव में राहत की सांस है।

एप्पल इंटेलिजेंस को विजन हासिल हुआ

अंत में, इस सप्ताह सबसे चर्चित अपडेट यह है कि ऐप्पल इंटेलिजेंस ने विज़न प्रोसेसिंग में नई तकनीक हासिल कर ली है। इसका मतलब यह है कि एप्पल का एलएलएम का कार्यान्वयन मल्टीमॉडल हो गया है। ChatGPT के साथ एकीकरण के अलावा, Apple ने AI के साथ अधिक वैयक्तिकृत अनुभव के लिए अपना स्वयं का “व्यक्तिगत ऑन-डिवाइस मॉडल” भी पेश किया, जिसे उसने “Apple इंटेलिजेंस” कहा। यह सिरी का एक विस्तार है जो कई नई सुविधाएँ प्राप्त कर रहा है। विज़ुअल इंटेलिजेंस के साथ, नया iPhone कैमरा नियंत्रण बटन कैमरे को किसी भी चीज़ पर इंगित करने और सिरी से जानकारी मांगने के लिए ट्रिगर बिंदु के रूप में कार्य करता है। Apple द्वारा दिखाए गए सबसे मजेदार डेमो में से एक वह था जब एक iPhone उपयोगकर्ता एक कुत्ते के पास गया, एक फोटो लिया और फिर सिरी से पूछा कि यह किस प्रकार का कुत्ता है, और सिरी ने उत्तर दिया। मल्टी-मोडल कार्यक्षमता सूचनाओं और ईमेल तक फैली हुई है, अब अधिसूचना पैनल कार्ड में सारांश बनाए गए हैं जो पहले केवल कटे हुए पाठ दिखाते थे। Apple द्वारा जोड़ी गई एक अन्य विशेषता प्राकृतिक भाषा समझ का उपयोग करके विशिष्ट क्षणों की पहचान करने के लिए हजारों वीडियो और फ़ोटो के माध्यम से खोज करने की क्षमता है। इसका मतलब है कि ऐप्पल इंटेलिजेंस में अब टेक्स्ट, ऑडियो, फोटो और वीडियो को पूरी तरह से समझने की क्षमता है, जो इसे ऑन-डिवाइस एलएलएम युग में वास्तव में शक्तिशाली बनाती है। पिछली पीढ़ी की तुलना में अधिक एनपीयू वाला ताज़ा ए18 प्रो चिपसेट इसमें मदद कर रहा है। इस अपडेट के साथ, ऐप्पल एआई युग में पूरी गति से आगे बढ़ रहा है, साथ ही Google जेमिनी के कार्यान्वयन के साथ आगे बढ़ रहा है। यह देखना बहुत दिलचस्प होगा कि Google कैसे प्रतिक्रिया देगा और, इससे भी महत्वपूर्ण बात यह है कि OpenAI जैसी शुद्ध AI कंपनियां इसे कैसे लेंगी।

इसमें इस सप्ताह टीम FoneArena की ओर से प्रौद्योगिकी की दुनिया की सभी नवीनतम ख़बरें शामिल हैं। इस गतिशील में हमेशा कुछ न कुछ घटित होता रहता है, इसलिए अगले सप्ताह वापस आना न भूलें!


Leave a Comment