مقالات و زیبایی های ریاضی   

مدل‌های زبانی بزرگ نمی‌توانند بشمارند

سلام و عرض ادب خدمت استاد عزیزم دکتر علیخانی،

اسفند پارسال بود که به عنوان محقق تحقیق‌و‌توسعه به یکی از زیرتیم‌های شرکت ### پیوستم؛ پیش از آن برای امرار معاش به صورت پاره‌وقت در حوزهٔ تحقیقاتی پردازش زبان طبیعی کار می‌کردم و بعد از آن به صورت جدی پایم به کارهایی که یک‌طورهایی صنعتی و ارتباط واقعی با محصول و مشتری داشت باز شد.

با توجه به اینکه علم کامپیوتر خصوصا همین بحث‌های پردازش زبان طول عمر کوتاهی دارد و مدام در حال بروز شدن هست سعی می‌کردم که کارها و مقالات روز این حوزه را دنبال کنم اگرچه این‌قدر این حوزه وسیع هست که براحتی می‌توان در دریای آن غرق شد.

همان‌طور که احتمالا می‌دانید مدل‌های زبانی بزرگ مثل انواع GPTها، Geminiها، DeepSeek و … این چندسال تکان عجیبی به حوزهٔ هوش‌مصنوعی دادند و با وجودی که این مدل‌ها سن زیادی ندارند؛ همین الان در حوزه‌های مختلف برخی محصولات دارند استفاده می‌شوند و اصلا دور نیست زمانی را تصور کنیم که تقریبا همه چیز یک نسخهٔ هوشمندوارش هم عرضه شده باشد.

توی این بساط عرضهٔ مدل‌های هوشمند، یک عده می‌آیند Benchmarkهای مختلف داده ارائه می‌کنند [۱-۳] که با آن‌ها توانایی مدل‌های ارائه شده را بسنجد؛ و بعد از آن هر از چندماهی شرکت‌های بزرگی مثل OpenAI، Google و Anthropic و حتی طرف‌داران نسخه‌های متن‌باز نسخه‌های جدید مدل‌زبانی ارائه می‌کنند [۴-۷] که نشان دهند چه قدر مثلا این نسخهٔ جدید‌شان برای بنچ‌مارک‌های ایکس و ایگرگ و زد عملکرد بهتری داشته است و مدل توانمندتری دارند. با وجودی که تقریبا مدل‌های زبانی بزرگ دارند یاد می‌گیرند که حتی چه‌طور بر بنچ‌مارک‌های مثل سوالات المپیاد [۱] غلبه کنند؛ عده‌ای تلاش می‌کنند نشان دهند که هنوز تا یاد گرفتن واقعی حل کردن مسئله توسط این مدل‌ها، با یادگرفتن جواب آخر یک مسئله، هنوز فاصله هست [۸]؛ و حتی با وجودی اینکه برخی تلاش کردند نشان دهند یک‌طورهایی LLMها می‌توانند Turing Complete باشند [۹] اما هنوز در مسئلهٔ به ظاهر سادهٔ «شمردن»، این LLMهای هوشمند دارند تقلا می‌کنند [۱۰].

روز گذشته رئیسم پیشنهاد داده بود توی یک سخنرانی مجازی آقای Osband نامی که در OpenAI و Google کار می‌کرده و در باب اکتشاف در یادگیری تقویتی بود شرکت کنم و چیزهای جدید یاد بگیرم؛ همان‌طور که می‌دانید یک قسمت عملکرد عجیب و جالب و به ظاهر خوب این مدل‌های زبانی بزرگ بخاطر بخش آموزش یادگیری تقویتی‌طور آن هست؛ ساده‌وارش یعنی اینکه کلی دادهٔ مختلف بدهیم به مدل، اگر خوب عمل کرد به واسطهٔ تابعی که از پیش تعریف کرده‌ایم به آن جایزه بدهیم و اگر بد عمل کرد یک‌جورهایی مجازاتش کنیم؛ آقای Osband می‌گفت ما داریم یک‌جورهایی Reward-engineering‌ می‌کنیم و ما مهندس‌ها و پژوهشگران تصمیم می‌گیریم که مدل برود روی چه حوزه‌هایی، چه موضوعی را یاد بگیرد و یک سری صحبت‌هایی در باب اینکه باید این بحث اکتشاف مدل تعمیم داده شود، کرد.

راستش را بخواهید من با خودم فکر می‌کنم ما انسان‌ها واقعا چه چیز را چه طور یاد گرفته‌ایم؟ البته یک طور مقایسهٔ عجیب هست که بیاییم یک موجود فاقد روحِ خلقِ دست خودمان را با خودمان مقایسه کنیم؛ ولی بالاخره با ارائهٔ همین بنچ‌مارک‌های مختلف توانایی این موجود را با توانایی انسان‌ها داریم می‌سنجیم، پس بی‌راه نیست که فکر کنیم آیا می‌شود همهٔ آنچه را ما یاد گرفته‌ایم را هم این مدل‌ها یاد بگیرند؟

اگرچه که من از اساتیدم A و B و C که کاملا مجرد و ریاضی و کامپیوتری هستند را یاد گرفته‌ام ولی یک چیزهای ضمنی مثل انگیزه‌داشتن، عمیق بودن و … را هم یاد گرفته‌ام که خیلی غریب است که مدل‌های زبانی بتوانند یاد بگیرندشان.

اما چه مدل‌های زبانی بتوانند و چه نتوانند، من باید سپاس‌گزار اساتید بزرگواری باشم که حق آنچه اکنون یاد دارم را بر گردنم دارند؛ خواستم روزتان را تبریک بگویم و مثل همیشه آسمان را به ریسمان بافتم که به اینجا برسم و عرض کنم؛ ممنونم از شما و روزتان مبارک!

امیدوارم که در پناه خدا و امام زمان عجل‌الله‌تعالی‌فرجه‌الشریف همیشه سلامت و تندرست و پر عزت باشید.

با احترام

یکی از شاگردهای کوچک شما


[۱] https://arxiv.org/pdf/2402.14008v1

[۲] https://epoch.ai/frontiermath

[۳] https://arxiv.org/abs/2406.01574

[۴] https://openai.com/index/gpt-4-1/

[۵] https://developers.googleblog.com/en/start-building-with-gemini-25-flash/

[۶] https://www.anthropic.com/claude/sonnet

[۷] https://ai.meta.com/blog/llama-4-multimodal-intelligence/

[۸] https://arxiv.org/pdf/2504.01995

[۹] https://openreview.net/forum?id=AS8SPTyBgw

[۱۰] https://arxiv.org/html/2412.18626v1

+ نوشته شده در  جمعه دوازدهم اردیبهشت ۱۴۰۴ساعت 13:55  توسط سعید علیخانی  |