Chat-GPT کا نیا اوتار Visual-GPT

راجکمار جین، آزاد مصنف اور مفکر

جیسا کہ مصنوعی ذہانت (AI) کی ترقی جاری ہے، اسی طرح بڑے لینگویج ماڈلز (LLMs) کی صلاحیتیں بھی بڑھ رہی ہیں۔ مشین لرننگ اور گہری تربیتی الگورتھم کا استعمال کرتے ہوئے، یہ ماڈل انسانی مشین کے تعامل کو آسان اور آسان بنانے کے لیے انسانی زبان بنانے اور سمجھنے میں ماہر ہو رہے ہیں۔ مائیکروسافٹ نے اوپن اے آئی کے ساتھ مل کر چیٹ جی پی ٹی کو متعارف کرانے کے فوراً بعد بصری GPT متعارف کروا کر اس شعبے میں ایک بڑی چھلانگ لگائی۔ یہ مصنوعی ذہانت کا استعارہ بصری فاؤنڈیشن ماڈل (VFM) کا استعمال کرتا ہے تاکہ بصری تفہیم، پریزنٹیشن، اور ترمیم کے عمل کو مزید موثر بنایا جا سکے اور بہتر نتائج برآمد ہوں۔

چیٹ جی پی ٹی ایک زبان کا ماڈل ہے جس کو متن اور انسانی تعاملات کے ایک بڑے مجموعے پر بڑے پیمانے پر تربیت دی جاتی ہے تاکہ مختلف قسم کے مکالموں اور سوالات کے لیے مستقل اور گرائمری طور پر درست نتائج حاصل کیے جا سکیں۔ مائیکروسافٹ صرف یہیں نہیں رکا بلکہ اس نے دیکھا کہ آیا چیٹ جی پی ٹی الفاظ اور جملوں سے آگے بڑھ سکتا ہے۔ کیا یہ سوچ سکتا ہے کہ اس کے افعال جسمانی اور مجازی دنیا میں مختلف کاموں کو کامیابی سے اور آسانی سے انجام دینے میں انسانوں کے لیے کس طرح مددگار ثابت ہوسکتے ہیں۔

اسی سوچ کو ذہن میں رکھتے ہوئے مائیکروسافٹ نے اپنی تازہ ترین ایجاد Visual GPT جاری کی ہے۔ یہ ایک انقلابی ٹول ہے جو AI کا استعمال کرتے ہوئے تصاویر کے لیے ایک درست عنوان یا تفصیل تیار کر سکتا ہے۔ یہ اپنے صارفین کو کسی بھی چیز یا تصاویر کے حصے کو صاف طور پر نمایاں کرنے کی اجازت دیتا ہے۔ یہ کم بصارت والے لوگوں کے لیے بصری مواد کو سمجھنا آسان بناتا ہے۔ یہ مکالمے اور اشاروں کی بنیاد پر تصاویر بنانے کے قابل ہے۔ اور مسلسل مکالمے اور اضافی اشارے کے استعمال سے تصویر کو بہتر بنا سکتے ہیں۔

کہتے ہیں کہ ایک تصویر ہزار الفاظ کی ہوتی ہے۔ لہٰذا اس تصور کی بنیاد پر، بصری جی پی ٹی ایک غیر معمولی اختراع ہے جو فی الحال AI سے چلنے والی کمیونیکیشن کی حدود سے باہر ہے، زبان اور بصری کے درمیان فرق کو ختم کرتی ہے اور مشین اور انسان کے تعلقات کو مزید پرکشش، متحرک اور انٹرایکٹو بنا کر اسے مضبوط کرتی ہے۔ امکانات کے نئے دروازے یہ ان لوگوں کے لیے مواصلات کو بھی بہتر بناتا ہے جو متن کے بجائے بصری کے ذریعے اپنا نقطہ نظر بیان کرنا آسان سمجھتے ہیں۔

امیج-جی پی ٹی تصویر بنانے، اس میں موجود معلومات کو سمجھنے اور اس میں ترمیم کرنے کے لیے مختلف قسم کے ویژول فاؤنڈیشن ماڈلز کو یکجا کرتا ہے۔ یہ تکنیک بصری فاؤنڈیشن ماڈل کے ساتھ کنٹرول نیٹ، اسٹیبل فیوژن اور اسٹیبل ڈفیوژن کا بھی استعمال کرتی ہے۔ یہ استعارے بصری GPT کی اندرونی چیٹ ہسٹری کی ترکیب کرنے کی صلاحیت کی بنیاد فراہم کرتے ہیں جس میں معلومات شامل ہیں جیسے کہ تصویر کے نام بہتر طور پر سمجھنے کے لیے۔

مثال کے طور پر، صارف “رننگ بلی” کے نام سے ایک تصویر بنانا چاہتا ہے، پھر پرامپٹ مینیجر تصویر کو بڑھانے کے عوامل اور اجزاء جیسے رنگ، اونچائی، لمبائی، ماحول، موٹائی، آنکھوں کی قسم، ناخن وغیرہ تجویز کر سکتا ہے۔ ان کا استعمال کرتے ہوئے ہم فوری طور پر اپنی پسندیدہ تصویر بنا سکتے ہیں۔

اس ٹکنالوجی کے بہت سے ممکنہ استعمال ہوسکتے ہیں جیسے آن لائن خریداری کرتے وقت ایک صارف مطلوبہ پروڈکٹ کی تصویر اپ لوڈ کرسکتا ہے اور Image-GPT اسی طرح کی مصنوعات کی فہرست تیار اور ڈسپلے کرسکتا ہے اور تکمیلی اشیاء بھی تجویز کرسکتا ہے۔ ایک اور ممکنہ استعمال کا معاملہ آرٹ کے شعبے میں ہے، جہاں صارف ایک آرٹ ورک کی تفصیل شیئر کر سکتے ہیں جسے وہ بنانا چاہتے ہیں، اور بصری-GPT ان کی فراہم کردہ تفصیل کی بنیاد پر مطلوبہ تصویر تیار کر سکتا ہے۔

اس ٹیکنالوجی کو مصنوعی ذہانت اور کمپیوٹر ویژن الگورتھم کے استعمال سے ممکن بنایا گیا ہے جو اشیاء اور ان کی خصوصیات کو پہچان سکتے ہیں۔ اس سے مختلف صنعتوں میں تخصیص اور ذاتی نوعیت کے امکانات کی ایک وسیع رینج کا دروازہ کھلتا ہے۔

اپنے کام میں، محققین نوٹ کرتے ہیں کہ VFM کی ناکامی اور اشارے کی بے ترتیب پن ان کے لیے تشویش کا باعث ہے۔ بنیادی طور پر، ایک تصویر میں بہت ساری معلومات ہوتی ہیں، بنیادی طور پر شکل، رنگ، شکل وغیرہ۔ لہذا سسٹم کو صارف کی ضرورت اور تصویر کو ترجیحی شکل میں پیش کرنے کا طریقہ دونوں کو سمجھنے کی ضرورت ہے۔ عمومی اور گہرے علم دونوں سے فائدہ اٹھاتے ہوئے، ہمارا مقصد ایک قابل AI تیار کرنا ہے جو مختلف کاموں کو سنبھالنے کے قابل ہو۔

یہ امید کی جا سکتی ہے کہ مستقبل کے VFM زیادہ پختہ ہوں گے اور خفیہ تصاویر کی تفصیلات کو سمجھنے کے قابل ہوں گے۔

-بھارت ایکسپریس

Mohd Sameer