Telegram Group & Telegram Channel
معرفی Toolformer

مدل‌های زبانی، در حل وظایف جدید با تنها چند مثال یا دستورالعمل متنی توانایی‌های قابل توجهی دارند، به ویژه در مقیاس بزرگ. در عین حال، برای عملکردهای پایه‌ای مثل محاسبات یا جستجوی factها دچار مشکل هستند، جایی که مدل‌های ساده‌تر و کوچک‌تر بسیار عالی عمل می‌کنند. این مقاله با معرفی Toolformer، نشون میده که مدل‌های زبانی چطوری می‌تونند خودشون رو با استفاده از API‌های ساده، آموزش بدن تا بهترین راهکار رو داشته باشند. مدل Toolformer، آموزش میبینه که تصمیم بگیره کدام API رو فراخوانی کنه، چه زمانی اونها رو فراخوانی کنه، چه آرگومان‌هایی رو منتقل کنه و چطوری به بهترین شکل از ترکیب نتایج برای پیش‌بینی توکن بعدی استفاده کنه.

این APIهای گنجانده شده در Toolformer شامل ماشین حساب، سیستم پرسش و پاسخ، موتور جستجو، سیستم ترجمه و یک تقویمه. آموزش این مدل به صورت خودبخودی و خودآموزه، که تنها به چند تا نمونه برای هر API نیاز داره. یعنی با استفاده از تعداد انگشت شماری نمونه‌های نوشته شده توسط انسان از فراخوانی یک API، به مدل این امکان داده میشه که برای یک مجموعه داده‌ی زبانی بزرگ، کاندیدهای فرخوانی API رو مرتبط با محتوای متن ایجاد کند (in-context learning). سپس با استفاده از یک تابع self-supervised loss مشخص میشه کدام فراخوانی‌ APIها واقعا به مدل برای پیش‌بینی توکن بعدی کمک می‌کنه. در نهایت مدل روی فراخوان‌های API ای که مفیدند finetune میشه.

مدل Toolformer، عملکرد zero-shot  رو برای مدل GPT-J با 6.7B پارامتر به طور قابل توجهی بهبود می بخشه و باعث میشه حتی از مدل بسیار بزرگتر GPT-3 در طیف وسیعی از وظایف مختلف پایین‌دستی (یا همان downstream tasks) بهتر عمل کنه، بدون اینکه تواناهایی مدل سازی زبان اصلی را ازدست بده.

لینک مقاله:
https://arxiv.org/abs/2302.04761

پ.ن. این پست را خانم وحیدی درست کردند و به کانال فرستادند. شما هم اگر پست خوبی دارید بگید تا به اسم و با لینک به لینکداین خودتون منتشر کنیم.

#read
#paper

@nlp_stuff



tg-me.com/nlp_stuff/327
Create:
Last Update:

معرفی Toolformer

مدل‌های زبانی، در حل وظایف جدید با تنها چند مثال یا دستورالعمل متنی توانایی‌های قابل توجهی دارند، به ویژه در مقیاس بزرگ. در عین حال، برای عملکردهای پایه‌ای مثل محاسبات یا جستجوی factها دچار مشکل هستند، جایی که مدل‌های ساده‌تر و کوچک‌تر بسیار عالی عمل می‌کنند. این مقاله با معرفی Toolformer، نشون میده که مدل‌های زبانی چطوری می‌تونند خودشون رو با استفاده از API‌های ساده، آموزش بدن تا بهترین راهکار رو داشته باشند. مدل Toolformer، آموزش میبینه که تصمیم بگیره کدام API رو فراخوانی کنه، چه زمانی اونها رو فراخوانی کنه، چه آرگومان‌هایی رو منتقل کنه و چطوری به بهترین شکل از ترکیب نتایج برای پیش‌بینی توکن بعدی استفاده کنه.

این APIهای گنجانده شده در Toolformer شامل ماشین حساب، سیستم پرسش و پاسخ، موتور جستجو، سیستم ترجمه و یک تقویمه. آموزش این مدل به صورت خودبخودی و خودآموزه، که تنها به چند تا نمونه برای هر API نیاز داره. یعنی با استفاده از تعداد انگشت شماری نمونه‌های نوشته شده توسط انسان از فراخوانی یک API، به مدل این امکان داده میشه که برای یک مجموعه داده‌ی زبانی بزرگ، کاندیدهای فرخوانی API رو مرتبط با محتوای متن ایجاد کند (in-context learning). سپس با استفاده از یک تابع self-supervised loss مشخص میشه کدام فراخوانی‌ APIها واقعا به مدل برای پیش‌بینی توکن بعدی کمک می‌کنه. در نهایت مدل روی فراخوان‌های API ای که مفیدند finetune میشه.

مدل Toolformer، عملکرد zero-shot  رو برای مدل GPT-J با 6.7B پارامتر به طور قابل توجهی بهبود می بخشه و باعث میشه حتی از مدل بسیار بزرگتر GPT-3 در طیف وسیعی از وظایف مختلف پایین‌دستی (یا همان downstream tasks) بهتر عمل کنه، بدون اینکه تواناهایی مدل سازی زبان اصلی را ازدست بده.

لینک مقاله:
https://arxiv.org/abs/2302.04761

پ.ن. این پست را خانم وحیدی درست کردند و به کانال فرستادند. شما هم اگر پست خوبی دارید بگید تا به اسم و با لینک به لینکداین خودتون منتشر کنیم.

#read
#paper

@nlp_stuff

BY NLP stuff




Share with your friend now:
tg-me.com/nlp_stuff/327

View MORE
Open in Telegram


NLP stuff Telegram | DID YOU KNOW?

Date: |

Can I mute a Telegram group?

In recent times, Telegram has gained a lot of popularity because of the controversy over WhatsApp’s new privacy policy. In January 2021, Telegram was the most downloaded app worldwide and crossed 500 million monthly active users. And with so many active users on the app, people might get messages in bulk from a group or a channel that can be a little irritating. So to get rid of the same, you can mute groups, chats, and channels on Telegram just like WhatsApp. You can mute notifications for one hour, eight hours, or two days, or you can disable notifications forever.

The global forecast for the Asian markets is murky following recent volatility, with crude oil prices providing support in what has been an otherwise tough month. The European markets were down and the U.S. bourses were mixed and flat and the Asian markets figure to split the difference.The TSE finished modestly lower on Friday following losses from the financial shares and property stocks.For the day, the index sank 15.09 points or 0.49 percent to finish at 3,061.35 after trading between 3,057.84 and 3,089.78. Volume was 1.39 billion shares worth 1.30 billion Singapore dollars. There were 285 decliners and 184 gainers.

NLP stuff from us


Telegram NLP stuff
FROM USA