प्रतीकात्मक तस्वीर
राजकुमार जैन, स्वतंत्र लेखक और विचारक
जैसे-जैसे कृत्रिम बुद्धिमत्ता (एआई) का विकास जारी है, वैसे वैसे बड़े भाषा मॉडल (एलएलएम) की क्षमताएं भी बढ़ती जा रही हैं। मशीन शिक्षण और गहन प्रशिक्षण एल्गोरिदम का उपयोग कर ये मॉडल मनुष्य और मशीन के मध्य संवाद को सरल और सुगम बनाने के लिए मानव भाषा को उत्पन्न करने और समझने में प्रवीण हो रहे हैं। माइक्रोसॉफ़्ट ने ओपन ए आई के साथ मिलकर चैट जीपीटी लाने के कुछ ही समय बाद ही विजूअल जीपीटी पेश कर इस क्षेत्र मे एक बड़ी छलांग लगाई है। यह कृत्रिम बुद्धि रूपक विजुअल फाउंडेशन मॉडल (वीएफएम) का इस्तेमाल कर दृश्य की समझ, प्रस्तुति, और सम्पादन प्रक्रिया को अधिक क्षमतावान और बेहतर परिणाम देने वाली बनाता है।
चैटजीपीटी एक भाषा मॉडल है जिसे बड़े पैमाने पर पाठों और मानव-संपर्क के एक विशाल समूह पर प्रशिक्षित किया गया है ताकि वो विभिन्न प्रकार के संवाद और प्रश्नों के लिए सुसंगत और व्याकरणिक रूप से सही परिणाम दे सके। माइक्रोसॉफ्ट ने यहीं पर ना रूकते हुए इस बात पर ध्यान दिया कि क्या चैट जीपीटी शब्दों और वाक्यों परे जा सकता है। क्या ये यह सोच सकता है कि इसके कार्य भौतिक और आभासी दुनिया में होने वाले विभिन्न कार्यों को सफलता और सरलता से करने में मनुष्यों के सहायक कैसे बन सकते हैं।
अपनी इसी सोच के साथ माइक्रोसॉफ्ट ने अपना नवीनतम आविष्कार, दृश्य-जीपीटी (विजूअल जीपीटी) जारी किया है। यह एक क्रांतिकारी उपकरण है जो एआई का उपयोग कर छवियों के लिए एक सटीक शीर्षक या विवरण उत्पन्न कर सकता है। यह अपने उपयोगकर्ताओं को तस्वीरों में से किसी भी वस्तु या हिस्से को सफाई से उभारने की सुविधा देता है। जिसके चलते कमजोर नजर वाले लोगों के लिए दृश्य सामग्री को समझना आसान हो जाता है। यह संवाद और संकेतों के आधार पर छवि बनाने में सक्षम है। और निरंतर संवाद और अतिरिक्त संकेतों के उपयोग से छवि को मनचाहे ढंग से निखार सकता है।
वो कहते हैं ना कि एक चित्र हजार शब्दों के बराबर होता है। तो इसी अवधारणा पर आधारित विजूअल जीपीटी एक असाधारण नवाचार है जो वर्तमान में एआई-संचालित संचार की सीमाओं से परे जाकर भाषा और दृश्यों के बीच की खाई को पाटकर मशीन और मानव के रिश्ते को और अधिक आकर्षक, गतिशील और इंटरैक्टिव बना कर मजबूती प्रदान करने की संभावनाओं के नए द्वार खोलती है। यह उन लोगों के लिए संचार को भी बढ़ाता है जिन्हें पाठ के बजाय दृश्य के माध्यम से अपनी बात को व्यक्त करना आसान लगता है।
छवि-जीपीटी एक छवि को उत्पन्न करने, उसमें समाहित जानकारी को समझने और संपादित करने के लिए कई प्रकार के विजुअल फाउंडेशन मॉडल को जोड़ता है। यह तकनीक दृश्य फाउंडेशन मॉडल के साथ कंट्रोल-नेट, स्टेबल फ्यूजन और स्टेबल डिफ्यूजन का भी उपयोग करटी है। ये रूपक विजूअल जीपीटी के आंतरिक चैट इतिहास को संश्लेषित करने की क्षमता के लिए आधार प्रदान करते हैं जिसमें बेहतर समझ के लिए छवि के नाम जैसी जानकारी भी शामिल है।
उदाहरण के लिए, उपयोगकर्ता “दौड़ती हुई बिल्ली” नाम से छवि बनाना चाहता है तो प्रॉम्प्ट प्रबन्धक रंग, कद, लंबाई, वातावरण, मोटाई, आँखों का प्रकार, नाखून आदि जैसे छवि निखारने वाले कारक और घटक सुझा सकता है। इनका उपयोग करते हुए हम अपनी मनपसंद छवि का निर्माण तुरंत कर सकते हैं।
इस तकनीक के कई संभावित उपयोग हो सकते हैं जैसे ऑनलाईन खरीदी करते समय ग्राहक मनचाहे उत्पाद की छवि अपलोड कर सकते हैं और छवि-जीपीटी मिलते जुलते उत्पादों की एक सूची तैयार कर प्रदर्शित कर सकता है और साथ ही पूरक वस्तुओं का सुझाव भी दे सकता है। एक अन्य संभावित उपयोग का मामला कला के क्षेत्र में है, जहां उपयोगकर्ता एक ऐसी कलाकृति का विवरण साझा कर सकते हैं जिसे वे बनाना चाहते हैं, और दृश्य-जीपीटी उनके बताए गए विवरण के आधार पर मनचाही छवि उत्पन्न कर सकता है।
यह तकनीक कृत्रिम बुद्धिमत्ता और कंप्यूटर विज़न एल्गोरिदम के उपयोग के माध्यम से संभव बनाई गई है जो वस्तुओं और उनकी विशेषताओं को पहचान सकती है। यह विभिन्न उद्योगों में अनुकूलन और वैयक्तिकीकरण के लिए संभावनाओं की एक विस्तृत श्रृंखला के द्वार खोलता है।
अपने काम में, शोधकर्ताओं ने ध्यान दिया कि वीएफएम की विफलता और प्रॉम्प्ट की अनियमितता उनके लिए चिंता का विषय है। मूल रूप से, एक छवि में बहुत सारी जानकारी समाहित होती है, प्रमुखता से देखा जाय तो रूप-रंग, आकार आदि। तो इस प्रणाली को उपयोगकर्ता की आवश्यकता और छवि को पसंदीदा रूप में कैसे प्रस्तुत किया जाय इन दोनों बातों को समझने की आवश्यकता होती है। सामान्य और गहन ज्ञान दोनों का लाभ उठाकर, हम एक क्षमतावान एआई का निर्माण करना चाहते हैं जो विभिन्न कार्यों को संभालने में सक्षम हो।
उम्मीद की जा सकती है कि भविष्य के वीएफएम और अधिक परिपक्व होंगे और गूढ चित्रों के विवरण को भी बेहतर ढंग से समझ पाएंगे।