سلام و عرض ادب خدمت استاد عزیزم دکتر علیخانی،
اسفند پارسال بود که به عنوان محقق تحقیقوتوسعه به یکی از زیرتیمهای شرکت ### پیوستم؛ پیش از آن برای امرار معاش به صورت پارهوقت در حوزهٔ تحقیقاتی پردازش زبان طبیعی کار میکردم و بعد از آن به صورت جدی پایم به کارهایی که یکطورهایی صنعتی و ارتباط واقعی با محصول و مشتری داشت باز شد.
با توجه به اینکه علم کامپیوتر خصوصا همین بحثهای پردازش زبان طول عمر کوتاهی دارد و مدام در حال بروز شدن هست سعی میکردم که کارها و مقالات روز این حوزه را دنبال کنم اگرچه اینقدر این حوزه وسیع هست که براحتی میتوان در دریای آن غرق شد.
همانطور که احتمالا میدانید مدلهای زبانی بزرگ مثل انواع GPTها، Geminiها، DeepSeek و … این چندسال تکان عجیبی به حوزهٔ هوشمصنوعی دادند و با وجودی که این مدلها سن زیادی ندارند؛ همین الان در حوزههای مختلف برخی محصولات دارند استفاده میشوند و اصلا دور نیست زمانی را تصور کنیم که تقریبا همه چیز یک نسخهٔ هوشمندوارش هم عرضه شده باشد.
توی این بساط عرضهٔ مدلهای هوشمند، یک عده میآیند Benchmarkهای مختلف داده ارائه میکنند [۱-۳] که با آنها توانایی مدلهای ارائه شده را بسنجد؛ و بعد از آن هر از چندماهی شرکتهای بزرگی مثل OpenAI، Google و Anthropic و حتی طرفداران نسخههای متنباز نسخههای جدید مدلزبانی ارائه میکنند [۴-۷] که نشان دهند چه قدر مثلا این نسخهٔ جدیدشان برای بنچمارکهای ایکس و ایگرگ و زد عملکرد بهتری داشته است و مدل توانمندتری دارند. با وجودی که تقریبا مدلهای زبانی بزرگ دارند یاد میگیرند که حتی چهطور بر بنچمارکهای مثل سوالات المپیاد [۱] غلبه کنند؛ عدهای تلاش میکنند نشان دهند که هنوز تا یاد گرفتن واقعی حل کردن مسئله توسط این مدلها، با یادگرفتن جواب آخر یک مسئله، هنوز فاصله هست [۸]؛ و حتی با وجودی اینکه برخی تلاش کردند نشان دهند یکطورهایی LLMها میتوانند Turing Complete باشند [۹] اما هنوز در مسئلهٔ به ظاهر سادهٔ «شمردن»، این LLMهای هوشمند دارند تقلا میکنند [۱۰].
روز گذشته رئیسم پیشنهاد داده بود توی یک سخنرانی مجازی آقای Osband نامی که در OpenAI و Google کار میکرده و در باب اکتشاف در یادگیری تقویتی بود شرکت کنم و چیزهای جدید یاد بگیرم؛ همانطور که میدانید یک قسمت عملکرد عجیب و جالب و به ظاهر خوب این مدلهای زبانی بزرگ بخاطر بخش آموزش یادگیری تقویتیطور آن هست؛ سادهوارش یعنی اینکه کلی دادهٔ مختلف بدهیم به مدل، اگر خوب عمل کرد به واسطهٔ تابعی که از پیش تعریف کردهایم به آن جایزه بدهیم و اگر بد عمل کرد یکجورهایی مجازاتش کنیم؛ آقای Osband میگفت ما داریم یکجورهایی Reward-engineering میکنیم و ما مهندسها و پژوهشگران تصمیم میگیریم که مدل برود روی چه حوزههایی، چه موضوعی را یاد بگیرد و یک سری صحبتهایی در باب اینکه باید این بحث اکتشاف مدل تعمیم داده شود، کرد.
راستش را بخواهید من با خودم فکر میکنم ما انسانها واقعا چه چیز را چه طور یاد گرفتهایم؟ البته یک طور مقایسهٔ عجیب هست که بیاییم یک موجود فاقد روحِ خلقِ دست خودمان را با خودمان مقایسه کنیم؛ ولی بالاخره با ارائهٔ همین بنچمارکهای مختلف توانایی این موجود را با توانایی انسانها داریم میسنجیم، پس بیراه نیست که فکر کنیم آیا میشود همهٔ آنچه را ما یاد گرفتهایم را هم این مدلها یاد بگیرند؟
اگرچه که من از اساتیدم A و B و C که کاملا مجرد و ریاضی و کامپیوتری هستند را یاد گرفتهام ولی یک چیزهای ضمنی مثل انگیزهداشتن، عمیق بودن و … را هم یاد گرفتهام که خیلی غریب است که مدلهای زبانی بتوانند یاد بگیرندشان.
اما چه مدلهای زبانی بتوانند و چه نتوانند، من باید سپاسگزار اساتید بزرگواری باشم که حق آنچه اکنون یاد دارم را بر گردنم دارند؛ خواستم روزتان را تبریک بگویم و مثل همیشه آسمان را به ریسمان بافتم که به اینجا برسم و عرض کنم؛ ممنونم از شما و روزتان مبارک!
امیدوارم که در پناه خدا و امام زمان عجلاللهتعالیفرجهالشریف همیشه سلامت و تندرست و پر عزت باشید.
با احترام
یکی از شاگردهای کوچک شما
[۱] https://arxiv.org/pdf/2402.14008v1
[۲] https://epoch.ai/frontiermath
[۳] https://arxiv.org/abs/2406.01574
[۴] https://openai.com/index/gpt-4-1/
[۵] https://developers.googleblog.com/en/start-building-with-gemini-25-flash/
[۶] https://www.anthropic.com/claude/sonnet
[۷] https://ai.meta.com/blog/llama-4-multimodal-intelligence/
[۸] https://arxiv.org/pdf/2504.01995