Telegram Group & Telegram Channel
Forwarded from AI Pulse (Mohammad)
شرکت متا نسل چهارم از مدل‌های زبانی Llama را معرفی کرده که با توانایی‌های چندوجهی و پشتیبانی از کانتکست بسیار بلند، رقیب بسیار جدی‌ای برای مدل‌های اوپن سورس محسوب میشن.

در این مجموعه سه مدل معرفی شده‌: Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth. دو مدل اول به صورت Open Weight عرضه شدن و برای استفاده در پلتفرم‌هایی مثل WhatsApp، Messenger، Instagram Direct و نسخه وب Meta AI در دسترس قرار گرفتن.

مدل Scout با ۱۷ میلیارد پارامتر فعال و ۱۶ متخصص، قوی‌ترین مدل توی کلاس خودش به‌شمار میاد و با وجود توانایی‌های چشمگیر، روی یک GPU از نوع H100 اجرا می‌شه. این مدل با داشتن پنجره کانتکست ۱۰ میلیون توکنی، عملکردی بهتر از مدل‌هایی مثل Gemma 3 و Gemini 2.0 Flash-Lite ارائه می‌ده.

مدل Maverick هم که از همون تعداد پارامتر فعال اما با ۱۲۸ متخصص بهره می‌بره، در تست‌های گسترده از GPT-4o و Gemini 2.0 پیشی گرفته و با مدل‌هایی مثل DeepSeek v3 در زمینه‌های استدلال و کدنویسی رقابت می‌کنه؛ اون هم با نصف تعداد پارامتر فعال.

قدرت این مدل‌ها تا حد زیادی مدیون مدل Behemoth هست؛ یک مدل بزرگ ۲ تریلیونی با ۲۸۸ میلیارد پارامتر فعال که نقش "معلم" رو در فرایند آموزش ایفا کرده. Behemoth در بنچمارک‌های ریاضی، کدنویسی و زبان‌های مختلف عملکردی بهتر از مدل‌های شاخصی مثل GPT-4.5، Claude 3.7 و Gemini 2.0 Pro داشته. هرچند هنوز به‌طور کامل عرضه نشده، اما متا وعده داده به‌زودی اطلاعات بیشتری درباره‌ی اون منتشر کنه.

در طراحی این مدل‌ها، معماری Mixture of Experts به‌کار گرفته شده که با فعال‌سازی بخشی از پارامترها به‌ازای هر توکن، هم بازدهی محاسباتی رو افزایش داده و هم کیفیت مدل رو نسبت به مدل‌های متراکم بهبود داده. Llama 4 همچنین به‌صورت چندوجهی طراحی شده و می‌تونه همزمان ورودی‌های متنی و تصویری رو پردازش کنه. در فاز آموزش، از داده‌های متنی، تصویری و ویدیویی در مقیاس بالا استفاده شده و تکنیک‌های جدیدی مثل MetaP برای بهینه‌سازی هایپرپارامترها به‌کار رفته.

در مرحله پس‌آموزش، متا از روش‌های جدیدی مثل یادگیری تقویتی آنلاین و بهینه‌سازی مستقیم ترجیحی برای بهبود مهارت‌های مدل در استدلال، مکالمه و چندوجهی‌بودن استفاده کرده.

مدل Maverick با بهره‌گیری از این روش‌ها، عملکرد چشمگیری در درک تصویر، تولید متن، پاسخ به پرسش‌های بصری و وظایف پیچیده نشون داده. مدل Scout هم با وجود حجم کمتر، در زمینه‌هایی مثل کدنویسی، پردازش کانتکست بلند، و درک تصویری، نتایجی بهتر از تمام نسل‌های قبلی Llama ارائه می‌ده.

در نهایت، متا تأکید کرده که این مدل‌ها با بالاترین استانداردهای ایمنی توسعه داده شدن. ابزارهایی مثل Llama Guard، Prompt Guard و سامانه‌ی تست GOAT برای جلوگیری از خروجی‌های نامناسب یا سؤاستفاده از مدل‌ها ارائه شده و توسعه‌دهندگان می‌تونن این ابزارها رو متناسب با نیاز خودشون تنظیم کنن. همچنین تلاش‌هایی هم برای کاهش سوگیری‌های سیاسی و اجتماعی در پاسخ‌های مدل صورت گرفته تا Llama 4 بتونه دیدگاه‌های مختلف رو به‌درستی درک و بیان کنه.

@aipulse24



tg-me.com/learning_with_m/149
Create:
Last Update:

شرکت متا نسل چهارم از مدل‌های زبانی Llama را معرفی کرده که با توانایی‌های چندوجهی و پشتیبانی از کانتکست بسیار بلند، رقیب بسیار جدی‌ای برای مدل‌های اوپن سورس محسوب میشن.

در این مجموعه سه مدل معرفی شده‌: Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth. دو مدل اول به صورت Open Weight عرضه شدن و برای استفاده در پلتفرم‌هایی مثل WhatsApp، Messenger، Instagram Direct و نسخه وب Meta AI در دسترس قرار گرفتن.

مدل Scout با ۱۷ میلیارد پارامتر فعال و ۱۶ متخصص، قوی‌ترین مدل توی کلاس خودش به‌شمار میاد و با وجود توانایی‌های چشمگیر، روی یک GPU از نوع H100 اجرا می‌شه. این مدل با داشتن پنجره کانتکست ۱۰ میلیون توکنی، عملکردی بهتر از مدل‌هایی مثل Gemma 3 و Gemini 2.0 Flash-Lite ارائه می‌ده.

مدل Maverick هم که از همون تعداد پارامتر فعال اما با ۱۲۸ متخصص بهره می‌بره، در تست‌های گسترده از GPT-4o و Gemini 2.0 پیشی گرفته و با مدل‌هایی مثل DeepSeek v3 در زمینه‌های استدلال و کدنویسی رقابت می‌کنه؛ اون هم با نصف تعداد پارامتر فعال.

قدرت این مدل‌ها تا حد زیادی مدیون مدل Behemoth هست؛ یک مدل بزرگ ۲ تریلیونی با ۲۸۸ میلیارد پارامتر فعال که نقش "معلم" رو در فرایند آموزش ایفا کرده. Behemoth در بنچمارک‌های ریاضی، کدنویسی و زبان‌های مختلف عملکردی بهتر از مدل‌های شاخصی مثل GPT-4.5، Claude 3.7 و Gemini 2.0 Pro داشته. هرچند هنوز به‌طور کامل عرضه نشده، اما متا وعده داده به‌زودی اطلاعات بیشتری درباره‌ی اون منتشر کنه.

در طراحی این مدل‌ها، معماری Mixture of Experts به‌کار گرفته شده که با فعال‌سازی بخشی از پارامترها به‌ازای هر توکن، هم بازدهی محاسباتی رو افزایش داده و هم کیفیت مدل رو نسبت به مدل‌های متراکم بهبود داده. Llama 4 همچنین به‌صورت چندوجهی طراحی شده و می‌تونه همزمان ورودی‌های متنی و تصویری رو پردازش کنه. در فاز آموزش، از داده‌های متنی، تصویری و ویدیویی در مقیاس بالا استفاده شده و تکنیک‌های جدیدی مثل MetaP برای بهینه‌سازی هایپرپارامترها به‌کار رفته.

در مرحله پس‌آموزش، متا از روش‌های جدیدی مثل یادگیری تقویتی آنلاین و بهینه‌سازی مستقیم ترجیحی برای بهبود مهارت‌های مدل در استدلال، مکالمه و چندوجهی‌بودن استفاده کرده.

مدل Maverick با بهره‌گیری از این روش‌ها، عملکرد چشمگیری در درک تصویر، تولید متن، پاسخ به پرسش‌های بصری و وظایف پیچیده نشون داده. مدل Scout هم با وجود حجم کمتر، در زمینه‌هایی مثل کدنویسی، پردازش کانتکست بلند، و درک تصویری، نتایجی بهتر از تمام نسل‌های قبلی Llama ارائه می‌ده.

در نهایت، متا تأکید کرده که این مدل‌ها با بالاترین استانداردهای ایمنی توسعه داده شدن. ابزارهایی مثل Llama Guard، Prompt Guard و سامانه‌ی تست GOAT برای جلوگیری از خروجی‌های نامناسب یا سؤاستفاده از مدل‌ها ارائه شده و توسعه‌دهندگان می‌تونن این ابزارها رو متناسب با نیاز خودشون تنظیم کنن. همچنین تلاش‌هایی هم برای کاهش سوگیری‌های سیاسی و اجتماعی در پاسخ‌های مدل صورت گرفته تا Llama 4 بتونه دیدگاه‌های مختلف رو به‌درستی درک و بیان کنه.

@aipulse24

BY Learning With M







Share with your friend now:
tg-me.com/learning_with_m/149

View MORE
Open in Telegram


telegram Telegram | DID YOU KNOW?

Date: |

Telegram is riding high, adding tens of million of users this year. Now the bill is coming due.Telegram is one of the few significant social-media challengers to Facebook Inc., FB -1.90% on a trajectory toward one billion users active each month by the end of 2022, up from roughly 550 million today.

What is Telegram?

Telegram’s stand out feature is its encryption scheme that keeps messages and media secure in transit. The scheme is known as MTProto and is based on 256-bit AES encryption, RSA encryption, and Diffie-Hellman key exchange. The result of this complicated and technical-sounding jargon? A messaging service that claims to keep your data safe.Why do we say claims? When dealing with security, you always want to leave room for scrutiny, and a few cryptography experts have criticized the system. Overall, any level of encryption is better than none, but a level of discretion should always be observed with any online connected system, even Telegram.

telegram from us


Telegram Learning With M
FROM USA