گوگل چند وقت پیش از قدرتمندترین مدل زبانی بزرگش موسومبه جمنای (Gemini) پرده برداشت؛ سیستمی که آنقدر برای گوگل اهمیت دارد که سوندار پیچای آن را آغاز عصر جدید هوش مصنوعی در این شرکت نامید و حتی پا را از این فراتر گذاشت و گفت ازاینپس شاهد «عصر جمنای» هستیم.
اما آیا جمنای آنطور که گوگل میگوید نقطهی عطفی در صنعت هوش مصنوعی است؟ آیا وقت آن رسیده که ChatGPT را کنار بگذاریم؟ آیا زنگ خطر برای OpenAI، شرکتی که قصد دارد زودتر از بقیه به هوش مصنوعی فرا انسانی برسد، بهصدا درآمده و لازم است زودتر پرده از پروژهی مخفی *Q خود بردارد؟ یا نه، این بار هم پای هیاهوی تبلیغاتی بر سر هیچ در میان است؟
هوش مصنوعی جمنای دقیقا چیست؟
گوگل اولین بار در مراسم I/O 2023 به مدل زبانی بزرگ جمنای اشارهی کوتاهی کرد. این مدل در سه نسخهی Gemini Pro و Gemini Ultra و Gemini Nano توسعه یافته که درحالحاضر، فقط مدل جمنای پرو در قالب چتبات بارد در دسترس عموم قرار گرفته است.
بهگفتهی گوگل، جمنای اولترا پیشرفتهترین مدل این شرکت، برای انجام تسکهای بسیار پیچیده طراحی شده و ظاهرا قرار است در سال ۲۰۲۴ برای دیتاسنترها و پردازشهای سازمانی عرضه شود. مدل پرو برخلاف اسمش همان نسخهی پایهی جمنای است که میتواند برای شماری از تسکهای روزمره بهکار رود و جمنای نانو نیز نسخهی سبکتری است که قرار است بهصورت محلی و آفلاین روی دستگاههای اندرویدی البته با پردازندههای قدرتمند اجرا شود.
در حال حاضر پیکسل ۸ پرو مجهز به تراشهی Tensor 3 تنها دستگاه سازگار با جمنای نانو است و قرار است در بهروزرسانی آینده از قابلیتهای هوش مصنوعی چون خلاصهسازی خودکار در اپلیکیشن Recorder و قابلیت Smart Reply در کیبورد Gboard بهره ببرد. البته گوگل ماجرا را از این هم پیچیدهتر کرده و میگوید جمنای نانو بسته به ظرفیت رم گوشی در دو مدل Nano-1 با ۱٫۸ میلیارد پارامتر و Nano-2 با ۳٫۲۵ میلیارد پارامتر عرضه خواهد شد.
گوگل، مدل هوش مصنوعی جمنای را اینگونه توصیف میکند:
جمنای به روش کاملا جدیدی برای اهداف چندوجهی (multimodality)، یعنی استدلال و جابهجایی روان و یکپارچه بین متن، تصویر، ویدیو، صدا و کد توسعه یافته است.
گوگل در تعریف جمنای به دفعات به کلمهی «چندوجهی» بودن، آن هم بهصورت بومی اشاره میکند. اما منظور از چندوجهی بودن مدل هوش مصنوعی دقیقا چیست؟
چندوجهی بودن جمنای به این معنی است که گوگل برای آموزش دادن مدل صرفا به متن بسنده نکرده و آن را با مقادیر عظیمی از کد، فایلهای صوتی، تصاویر و ویدیو بهبود داده است؛ برای همین، جمنای میتواند بههمان راحتی که به درخواستهای متنی پاسخ میدهد، از پرامپتهای صوتی و حتی ویدیویی هم سر در بیاورد.
قدرت استدلال چندوجهی و تکنیک «کاملا جدید» در توسعه جمنای
ایلای کالینز (Eli Collins) معاون محصول دیپمایند در توضیح مختصری که از مدلهای چندوجهی مدعی شد که جمنای اولترا میتواند اطلاعات «بسیار جزیی» را در متن، تصویر، صدا و کد درک کند و به سوالات مربوط به موضوعات پیچیده، بهویژه مسائل ریاضی و فیزیک پاسخ دهد.
روش استاندارد در ساخت مدلهای چندوجهی، آموزش اجزای جداگانهی مدل با وجههای مختلف است. این مدلها در انجام وظایف خاصی مانند توصیف تصویر بسیار خوب هستند، اما هنگام رویارویی با تسکهایی که به استدلال مفهومی و پیچیدهتر نیاز دارند، دچار مشکل میشوند. برای همین ما جمنای را بهصورت بومی چندوجهی طراحی کردیم تا از پس این مشکل برآید.
از این توضیحات نمیتوان تفاوت جادویی جمنای را از مدلهای رقیب متوجه شد، چون حتی این بحث «چندوجهی» بودن و توانایی تجزیهوتحلیل ویدیو پیشتر در مدل GPT-4 with Vision دیده شده بود. البته بهبود قدرت استدلال مدل در رسیدن به هوش مصنوعی فرا انسانی بسیار مهم است و گوگل مدعی است برای تقویت استدلال جمنای از روش کاملا جدیدی استفاده کرده است؛ هرچند تمایلی به توضیح دربارهی این روش ندارد.
گوگل: جمنای درنهایت منجر به متمایزشدن محصولات گوگل از رقبا خواهد شد
بااینحال، دمیس هاسابیس (Demis Hassabis)، رهبر تیم توسعهی جمنای که پیشتر رهبری تیم توسعهدهندهی بات آلفاگو را برعهده داشت، مدعی شد این مدل قابلیتهای جدیدی را ارائه خواهد داد که درنهایت منجر به متمایزشدن محصولات گوگل از رقبا خواهد شد. او همچنین گفت برای اینکه سیستمهای هوش مصنوعی بتوانند جهان را بهتر از چتباتهای امروزی درک کنند، مدلهای زبانی بزرگ لازم است با سایر تکنیکهای هوش مصنوعی ترکیب شوند.
تااینجا، مدلهای زبانی بزرگ ازجمله GPT-4 با خوراندن حجم عظیمی از دادههای متنی آموزش دیدهاند و برخی از پژوهشگران هوش مصنوعی معتقدند هرچه بر حجم این دادهها افزوده شود، مدل قدرتمندتر خواهد شد؛ تا جایی که بتوانند از هوش انسانی پیشی بگیرند.
اما شناخت واقعیت فیزیکی از درون لنز متونی که انسانها دربارهاش نوشتهاند، بالاخره جایی به بنبست میخورد و نقاط ضعف مدلهای زبانی بزرگ، ازجمله هذیانگویی، استدلال ضعیف و مشکلات امنیتی عجیبوغریب آنها این واقعیت را آشکار میکند که صرف افزایش حجم داده احتمالا هیچگاه به دستیابی به «فراهوش مصنوعی» منجر نشود.
اگرچه گوگل خودش را در رقابتی نفسگیر با OpenAI قرار داده است، هر دو رقیب گویا به این نتیجه رسیدهاند که برای بهبود وضعیت هوش مصنوعی لازم است به روشهای کاملا جدیدی روی آورد. درحال حاضر، OpenAI مشغول توسعهی پروژهی مخفی و مرموزی بهنام *Q است که از تکنیکهای جدیدی در آن استفاده شده و ظاهرا قرار است این شرکت را یک قدم به هوش فرا انسانی معروفبه AGI نزدیکتر کند.
اما آیا جمنای همانطور که گوگل میگوید آغاز عصر جدید هوش مصنوعی است؟ فعلا برای رسیدن به این نتیجهگیری بسیار زود است؛ بهویژه چون عملکرد جمنای پرو در چتبات بارد هنوز نتوانسته بهبود چشمگیری نسبتبه GPT-4 از خود نشان دهد و تا عرضهی جمنای اولترا و بررسی تواناییهای آن چند ماه دیگر مانده است.
ماجرای ویدیوی دستکاری شدهی جمنای چه بود؟
زمانی که داشتم مقایسهی بینگ چت، بارد و چتجیپیتی را مینوشتم، به این نتیجه رسیدم که بزرگترین باخت چتبات گوگل در رقابت با بینگ چت و ChatGPT در حوزهی مارکتینگ و زمان انتشار بود. یعنی اگر بارد بعد از هیاهوی تبلیغاتی ChatGPT و پیش از بینگ چت منتشر شده بود، میتوانست بهخاطر قابلیت اتصال به اینترنت و دسترسی به دادههای بهروز مزیتی نسبتبه ChatGPT داشته باشد. اما بارد هنگام عرضه بسیار محدودتر از بینگ چت بود و ماجرای خطای علمی و سرقت ادبی هم بهشدت بهضررش تمام شد. در سایهی تمام این اشتباهات و محدودیتها، عجیب نبود که بارد بهسرعت به دست فراموشی سپرده شود.
اما گوگل این بار با معرفی جمنای قصد داشت ضعف در مارکتینگ و زمان انتشار را جبران کند، طوریکه ظاهرا پروژه را بسیار زودتر از زمان مناسب منتشر کرد و برای تبلیغ قابلیتهای اعجابانگیزش از ویدیویی استفاده کرد که حسابی در رسانهها و شبکههای اجتماعی خبرساز شد؛ در دقایق ابتدایی، دقیقا به همان دلیلی که گوگل برایش برنامهریزی کرده بود، اما کمی بعد مشخص شد این ویدیوی شگفتانگیز آنقدرها هم که فکرش را میکردیم، جادویی نیست.
اغراق میکنم تماشای این ویدیوی ۶ دقیقهای از عملکرد جمنای نفسها را در سینه حبس میکند. گوگل در این دمو به ما نشان میدهد که چگونه قدرتمندترین هوش مصنوعیاش توانایی تجزیهوتحلیل «ویدیو» را دارد و میتواند در لحظه پرامپتهای صوتی و ویدیویی را آنالیز کند، استدلال کند و مناسبترین پاسخ را در کسری از ثانیه ارائه دهد.
ویدئوی شگفتانگیز جمنای واقعی نیست!
مثلا میبینیم که چطور جمنای میتواند در هر مرحله از تکمیل شدن طرح یک اردک، به درستی از خطوط کشیدهشده سر دربیاورد؛ یا بهدرستی حرکت دست روی نقشه را دنبال کند و جواب درست را تشخیص دهد؛ یا از این هم شگفتانگیزتر؛ بهدرستی تشخیص دهد کاغذ مچالهشده زیر کدام لیوان پنهان شده است یا متوجه شعبدهبازی ناپدید کردن سکه در دست شود یا ویدیوی در حال پخش از گوشی پیکسلی را تحلیل کند که خودش دارد از ویدیوی دیگری پخش میشود!
اما وقتی از تماشای ویدیو دست میکشیم و به بُعد عملی قضیه فکر میکنیم، سوالات زیادی ذهن را درگیر میکنند. چطور ممکن است یک مدل زبانی بزرگ، هرچقدر هم قدرتمند، بتواند این چنین روان با ویدیویی در حال پخش در دل ویدویی دیگر ارتباط برقرار کند؟ چطور ممکن است هوش مصنوعی بهجایی رسیده باشد که بتواند سریع و روان بین پرامپتهای مختلف جابهجا شود؟
دموی تبلیغاتی جمنای فریبکارانه بود
نکته اینجا است که دموی تبلیغاتی گوگل ما را فریب داد. البته شاید استفاده از لفظ «فریب» کاملا درست نباشد؛ بهویژه اگر نظر خود گوگل را بپرسید، چون احتمالا خواهد گفت هم در ابتدای دمو و هم در بخش توضیحات یوتیوب، هشدارهای لازم را داده است. مثلا اینکه گفته به مدل «یک سری تصویر» نشان داده است تا خودمان به این نتیجه برسیم که چیزی که به صورت ویدیو به ما نمایش داده شد، واقعی نیست. در توضیحات یوتیوب هم نوشته است که برای کوتاه کردن ویدیو، تاخیر در پاسخ مدل کم شده و جوابهای جمنای هم خلاصه شدهاند.
اما باوجود این توضیحات که احتمالا خود گوگل هم میدانسته پشت قابلیتهای «جادویی» جمنای گم خواهند شد، این حقیقت کماکان پابرجا است که آنچه در دموی معرفی این هوش مصنوعی دیدیم، آنطور نیست که به نظر میآید.
در دموی جمنای فردی را میبینیم که با این مدل صحبت میکند، آنطور که مثلا شخصیت تئودور در فیلم Her با هوش مصنوعی سامانتا صحبت میکند؛ اما در واقعیت، مکالمهی بین این فرد با جمنای کاملا متنی بود.
در دمو همچنین میبینیم که جمنای دارد در لحظه با ویدیوی متحرک ارتباط برقرار میکند، اما در واقعیت، صرفا در حال تجزیهوتحلیل تصاویر ساکن بوده است؛ همانطور که گوگل در پستی دربارهی نحوهی ساخت دموی جمنای به آن اشاره کرده است.
در دمو میبینیم که جمنای بهسرعت و پشتسرهم به پرامپتها پاسخ میدهد، اما در واقعیت تمام تاخیرها حذف شدهاند. در دمو، یا پرامپتها را نمیبینیم یا میبینیم که از نسخهی اصلیشان بسیار کوتاهتر شدهاند، چون گوگل آنها را «برای اختصار» خلاصه کرده است. بگذریم که دمو دقیقا به ما نمیگوید که مدل پیشرو، جمنای اولترا است که هنوز حتی عرضه نشده و نسخهی پرو که در چتبات بارد قابل دسترسی است، این قابلیتها را ندارد.
در اینکه جمنای هوش مصنوعی قدرتمندی است، شکی نیست. بهبود توانایی استدلال در سیستمهای هوش مصنوعی مسئلهی فوقالعاده مهمی است، بهطوری که میگویند راه رسیدن به AGI توسعهی مدلی است که قدرت استدلال انسان را داشته باشد. اصلا همین بحث قدرت استدلال پروژهی مخفی *Q بود که زمزمههای دستیابی به AGI را سر زبانها انداخت.
تمام تستهای جمنای بر قدرت استدلال چندوجهی تمرکز داشتند
وقتی دموی تبلیغاتی جمنای را کنار میگذاریم و مطلبی را که گوگل دربارهی نحوهی آزمایش مدل منتشر کرده بررسی میکنیم، به این نتیجه میرسیم که تمام تستها بر قدرت استدلال چندوجهی مدل تمرکز داشته است، نه توانایی مدل به آنالیز کردن لحظهای ویدیو.
برای مثال، وقتی به جمنای گفته میشود که باتوجه به تصویر، سکه در کدام دست است، با تجزیهوتحلیل متن و تصویر، بهدرستی استدلال میکند در دست راست؛ اما وقتی تصویر بعدی نشان داده میشود که سکه در دست چپ بوده، جمنای بهدرستی استدلال میکند که پای ترفند شعبده در میان بوده است.
در تست دیگر، از جمنای خواسته میشود با توجه به الگوی جابهجایی لیوانها، حدس بزند که کاغذ مچالهشده زیر کدام لیوان پنهان شده است و جمنای بهکمک قدرت استدلال میتواند پاسخ درست را پیشبینی کند.
درنهایت، تستهایی که گوگل روی جمنای انجام داده بر بهبود توانایی استدلال چندوجهی این مدل تاکید دارند؛ اما دموی منتشر شده این تصور را ایجاد میکند که جادوی جمنای در آنالیز لحظهای ویدیو و مکالمهی صوتی با کاربر است.
آیا گوگل بالاخره توانست با جمنای از سد GPT-4 عبور کند؟
گوگل در کنفرانس Google I/O امسال صرفا به پروژهی جمنای اشاره کرد، اما بهطور کامل به معرفی مدل زبانی PaLM 2 پرداخت و آن را رقیب جدی GPT-4 نامید. آن موقع من گزارش فنی PaLM 2 را دربرابر GPT-4 قرار دادم و با بررسی امتیازها به این نتیجه رسیدم که بهترین هوش مصنوعی گوگل کماکان از رقیب خود عقب است؛ موضوعی که برایم تکاندهنده بود، چراکه این گوگل بود که در سال ۲۰۱۷ با انتشار مقالهی «Attention Is All You Need»، شبکهی عصبی ترنسفورمر را معرفی کرد؛ شبکهای که ظهور مدلهای زبانی بزرگ را ممکن کرد و بدون آن، ساخت ChatGPT ممکن نبود.
حالا گوگل جمنای را برای رقابت با GPT-4 به میدان نبرد فرستاده است و میگوید هوش مصنوعیاش در ۳۰ بنچمارک از ۳۲ بنچمارک تخصصی، موفق شده GPT-4 را شکست دهد.
حتی پیش از اینکه بخواهیم وارد جزییات این مقایسه شویم، موضوعی قلقلکمان میدهد. اینکه گوگل با عرضهی مدلهای قویتر کماکان در تلاش است تنها یک رقیب قدیمی را شکست دهد. از عمر GPT-4 دستکم یک سال میگذرد و OpenAI درحال کار روی پروژههای بهمراتب قدرتمندتری از GPT-4 است؛ اما گوگل هنوز سعی دارد تمام منابع و تکنولوژی خود را صرف تولید مدلی کند که درنهایت بتواند GPT-4 را کنار بزند.
از این بحث بگذریم؛ اجازه بدهید سراغ جدول مقایسهی عملکرد جمنای اولترا دربرابر GPT-4 برویم که گوگل در گزارش فنی ۶۲ صفحهای جمنای منتشر کرده است.
در این جدول میبینیم که جمنای اولترا در شرایط ظاهرا یکسان در ۸ تست از ۱۰ تست بهتر از GPT-4 ظاهر شده است. این تستها، مدلهای هوش مصنوعی را در حوزههای مختلف ازجمله فیزیک دبیرستان، کد پایتون، ریاضی دبستان، درک مطلب و ترجمه آزمایش میکنند؛ همان بنچمارکهای متداولی که اینروزها صنعت هوش مصنوعی بر پایهی آنها تعریف میشود.
تا اینجا همهچیز خوب پیش میرود؛ اما وقتی به اعداد دقت میکنیم، متوجه میشویم که اختلاف امتیازها در حد یکی، دو درصد است. یعنی گوگل یک سال تمام در حال توسعهی مدلی بوده که درنهایت بتواند یکی، دو درصد از رقیبش بهتر ظاهر شود! دقت کنید که مدل جمنای پرو که درحالحاضر در دسترس است، در تمام تستها عملکرد ضعیفتری از GPT-4 دارد و این اختلاف در بنچمارک ریاضی به ۲۰ درصد هم میرسد!
برتری جمنای اولترا به GPT-4 در حد یکی،دو درصد است
از سوی دیگر، هنوز معلوم نیست جمنای اولترا قرار است کی منتشر شود؛ حتی اگر اوایل ۲۰۲۴ عرضه شود، احتمالا زیاد نتواند در صدر جدول باقی بماند، چراکه در یک سالی که گوگل مشغول توسعهی جمنای برای رقابت با GPT-4 بود، OpenAI نسخهی پیشرفتهتر GPT-4 Turbo را عرضه کرد و اکنون دارد روی نسل بعدی GPT-5 کار میکند.
گوگل جادوی جمنای را در آنالیز کردن «پرامپت چندوجهی» (Multimodal Prompting) میداند و توضیح میدهد که «ما به جمنای ترکیبی از چند وجه مختلف، مثلا تصویر و متن، دادیم و از جمنای خواستیم اتفاق بعدی را پیشبینی کند. توانایی جمنای در ترکیب روان این وجوه با هم اجازه میدهد کارهای بیشتری بتوانید با هوش مصنوعی انجام دهید.»
در جدول دیگری که روی قدرت استدلال و درک مدل تمرکز دارد، دوباره شاهد برتری جمنای اولترا از GPT-4V هستیم؛ مثلا در بنچمارک MMMU که استدلال چندوجهی مدل را میسنجد، هوش مصنوعی گوگل تنها ۲٫۶ درصد بهتر از رقیب ظاهر شده است. بههمینترتیب، برتری جمنای از GPT-4V در باقی تستها در حد همین دو، سه درصد است. هرچند عجیب است که در تست HellaSwag که مربوط به استدلال عامه است، GPT-4 با امتیاز ۹۵٫۳ درصد، با اختلاف نسبتا بزرگ ۷٫۵ درصدی از جمنای اولترا جلوتر است!
درست است که امتیاز جمنای اولترا در اکثر بنچمارکها از GPT-4 بیشتر است، اما اختلاف امتیازها فقط به یکی، دو درصد، آن هم نسبت به مدلی که یک سال از عمرش میگذرد، محدود میشود. مثل این میماند که پردازندهی جدید اینتل فقط چند درصد بهتر از پردازندهی سال گذشتهی رقیب ظاهر شود.
گذشته از جدول امتیازها، کاربری در توییتر نشان داد که ChatGPT Plus موفق شده بهدرستی به پرامپتهایی که جمنای اولترا به آنها جواب داده است، پاسخ دهد.
ChatGPT Plus به پرامپتهای جمنای پاسخ درست میدهد
کاربر دیگری نیز در یوتیوب ویدیویی منتشر کرده است که نشان میدهد GPT-4 with Vision میتواند دقیقا همان کاری را که گوگل بهطور جعلی در دموی جمنای نشان داد، انجام دهد؛ یعنی میتواند ویدیو را در لحظه آنالیز کند و به آن پاسخ دهد.
درنهایت میتوان گفت هوش مصنوعی جمنای اولترا مدل قدرتمندی بهنظر میرسد، اما گوگل هنوز برای کنار زدن OpenAI چالشهای بزرگی پیش رو دارد؛ چالشهایی که شاید با این روند و باتوجه به سرعت پیشرفتهای شرکت رقیب هرگز نتواند از پس آنها برآید.