विश्लेषण

चैट-जीपीटी का नया अवतार विजुअल-जीपीटी

राजकुमार जैन, स्वतंत्र लेखक और विचारक

जैसे-जैसे कृत्रिम बुद्धिमत्ता (एआई) का विकास जारी है, वैसे वैसे बड़े भाषा मॉडल (एलएलएम) की क्षमताएं भी बढ़ती जा रही हैं। मशीन शिक्षण और गहन प्रशिक्षण एल्गोरिदम का उपयोग कर ये मॉडल मनुष्य और मशीन के मध्य संवाद को सरल और सुगम बनाने के लिए मानव भाषा को उत्पन्न करने और समझने में प्रवीण हो रहे हैं। माइक्रोसॉफ़्ट ने ओपन ए आई के साथ मिलकर चैट जीपीटी लाने के कुछ ही समय बाद ही विजूअल जीपीटी पेश कर इस क्षेत्र मे एक बड़ी छलांग लगाई है। यह कृत्रिम बुद्धि रूपक विजुअल फाउंडेशन मॉडल (वीएफएम) का इस्तेमाल कर दृश्य की समझ, प्रस्तुति, और सम्पादन प्रक्रिया को अधिक क्षमतावान और बेहतर परिणाम देने वाली बनाता है।

चैटजीपीटी एक भाषा मॉडल है जिसे बड़े पैमाने पर पाठों और मानव-संपर्क के एक विशाल समूह पर प्रशिक्षित किया गया है ताकि वो विभिन्न प्रकार के संवाद और प्रश्नों के लिए सुसंगत और व्याकरणिक रूप से सही परिणाम दे सके। माइक्रोसॉफ्ट ने यहीं पर ना रूकते हुए इस बात पर ध्यान दिया कि क्या चैट जीपीटी शब्दों और वाक्यों परे जा सकता है। क्या ये यह सोच सकता है कि इसके कार्य भौतिक और आभासी दुनिया में होने वाले विभिन्न कार्यों को सफलता और सरलता से करने में मनुष्यों के सहायक कैसे बन सकते हैं।

अपनी इसी सोच के साथ माइक्रोसॉफ्ट ने अपना नवीनतम आविष्कार, दृश्य-जीपीटी (विजूअल जीपीटी) जारी किया है। यह एक क्रांतिकारी उपकरण है जो एआई का उपयोग कर छवियों के लिए एक सटीक शीर्षक या विवरण उत्पन्न कर सकता है। यह अपने उपयोगकर्ताओं को तस्वीरों में से किसी भी वस्तु या हिस्से को सफाई से उभारने की सुविधा देता है। जिसके चलते कमजोर नजर वाले लोगों के लिए दृश्य सामग्री को समझना आसान हो जाता है। यह संवाद और संकेतों के आधार पर छवि बनाने में सक्षम है। और निरंतर संवाद और अतिरिक्त संकेतों के उपयोग से छवि को मनचाहे ढंग से निखार सकता है।

वो कहते हैं ना कि एक चित्र हजार शब्दों के बराबर होता है। तो इसी अवधारणा पर आधारित विजूअल जीपीटी एक असाधारण नवाचार है जो वर्तमान में एआई-संचालित संचार की सीमाओं से परे जाकर भाषा और दृश्यों के बीच की खाई को पाटकर मशीन और मानव के रिश्ते को और अधिक आकर्षक, गतिशील और इंटरैक्टिव बना कर मजबूती प्रदान करने की संभावनाओं के नए द्वार खोलती है। यह उन लोगों के लिए संचार को भी बढ़ाता है जिन्हें पाठ के बजाय दृश्य के माध्यम से अपनी बात को व्यक्त करना आसान लगता है।

छवि-जीपीटी एक छवि को उत्पन्न करने, उसमें समाहित जानकारी को समझने और संपादित करने के लिए कई प्रकार के विजुअल फाउंडेशन मॉडल को जोड़ता है। यह तकनीक दृश्य फाउंडेशन मॉडल के साथ कंट्रोल-नेट, स्टेबल फ्यूजन और स्टेबल डिफ्यूजन का भी उपयोग करटी है। ये रूपक विजूअल जीपीटी के आंतरिक चैट इतिहास को संश्लेषित करने की क्षमता के लिए आधार प्रदान करते हैं जिसमें बेहतर समझ के लिए छवि के नाम जैसी जानकारी भी शामिल है।

उदाहरण के लिए, उपयोगकर्ता “दौड़ती हुई बिल्ली” नाम से छवि बनाना चाहता है तो प्रॉम्प्ट प्रबन्धक रंग, कद, लंबाई, वातावरण, मोटाई, आँखों का प्रकार, नाखून आदि जैसे छवि निखारने वाले कारक और घटक सुझा सकता है। इनका उपयोग करते हुए हम अपनी मनपसंद छवि का निर्माण तुरंत कर सकते हैं।

इस तकनीक के कई संभावित उपयोग हो सकते हैं जैसे ऑनलाईन खरीदी करते समय ग्राहक मनचाहे उत्पाद की छवि अपलोड कर सकते हैं और छवि-जीपीटी मिलते जुलते उत्पादों की एक सूची तैयार कर प्रदर्शित कर सकता है और साथ ही पूरक वस्तुओं का सुझाव भी दे सकता है। एक अन्य संभावित उपयोग का मामला कला के क्षेत्र में है, जहां उपयोगकर्ता एक ऐसी कलाकृति का विवरण साझा कर सकते हैं जिसे वे बनाना चाहते हैं, और दृश्य-जीपीटी उनके बताए गए विवरण के आधार पर मनचाही छवि उत्पन्न कर सकता है।

यह तकनीक कृत्रिम बुद्धिमत्ता और कंप्यूटर विज़न एल्गोरिदम के उपयोग के माध्यम से संभव बनाई गई है जो वस्तुओं और उनकी विशेषताओं को पहचान सकती है। यह विभिन्न उद्योगों में अनुकूलन और वैयक्तिकीकरण के लिए संभावनाओं की एक विस्तृत श्रृंखला के द्वार खोलता है।

अपने काम में, शोधकर्ताओं ने ध्यान दिया कि वीएफएम की विफलता और प्रॉम्प्ट की अनियमितता उनके लिए चिंता का विषय है। मूल रूप से, एक छवि में बहुत सारी जानकारी समाहित होती है, प्रमुखता से देखा जाय तो रूप-रंग, आकार आदि। तो इस प्रणाली को उपयोगकर्ता की आवश्यकता और छवि को पसंदीदा रूप में कैसे प्रस्तुत किया जाय इन दोनों बातों को समझने की आवश्यकता होती है। सामान्य और गहन ज्ञान दोनों का लाभ उठाकर, हम एक क्षमतावान एआई का निर्माण करना चाहते हैं जो विभिन्न कार्यों को संभालने में सक्षम हो।

उम्मीद की जा सकती है कि भविष्य के वीएफएम और अधिक परिपक्व होंगे और गूढ चित्रों के विवरण को भी बेहतर ढंग से समझ पाएंगे।

राजकुमार जैन, स्वतंत्र लेखक और विचारक

स्वतंत्र लेखक और विचारक

Recent Posts

शेख हसीना का प्रत्यर्पण: जानिए भारत इससे कैसे कर सकता है इनकार!

बांग्लादेश की मौजूदा सरकार ने भारत से पूर्व प्रधानमंत्री शेख हसीना के प्रत्यर्पण की आधिकारिक…

12 mins ago

Mohan Bhagwat के बयान पर क्यों हुए नाराज संत?

Video: राष्ट्रीय स्वयंसेवक संघ (RSS) के प्रमुख चीफ मोहन भागवत ने हाल ही में नए…

12 mins ago

आतंकी लांडा और गैंगस्टर पवित्र बठिंडा के मुख्य सहयोगी को पंजाब आतंकवादी साजिश मामले में मुंबई से NIA ने किया गिरफ्तार

NIA ने खालिस्तानी आतंकवादी लखबीर सिंह लांडा और गैंगस्टर बचितर सिंह के मुख्य सहयोगी जतिंदर…

30 mins ago

अडानी डिफेंस एंड एयरोस्पेस ने 400 करोड़ के एंटरप्राइज वैल्यू पर एयर वर्क्स इंडिया प्राइवेट लिमिटेड का अधिग्रहण किया

अडानी डिफेंस एंड एयरोस्पेस द्वारा एयर वर्क्स इंडिया प्राइवेट लिमिटेड का अधिग्रहण किया जाना अडानी…

40 mins ago

अजातशत्रु ‘अटल’

अटल बिहारी वाजपेयी ने हमेशा राजनीति में मर्यादा का मान रखा. चाहे पक्ष का हो…

51 mins ago

Christmas 2024: Jingle Bell गाने का Christmas से कोई कनेक्शन नहीं? जानें इस मशहूर गाने का चौंकाने वाला सच

आपने भी क्रिसमस के मौके पर ‘जिंगल बेल-जिंगल बेल’ गुनगुनाया होगा. लेकिन क्या आप जानते…

56 mins ago