tg-me.com/spydell_finance/7127
Last Update:
Anthropic представила Claude 3.7 Sonnet
Официальный релиз состоялся 24 февраля, но так и не был представлен долгожданный поисковой агент, зато представили адаптированную рассуждающую модель.
Anthropic смещает приоритеты в сторону программирования и пользовательских агентов – именно на этом была построена большая часть презентации.
По тестам от Anthropic выглядит впечатляюще, но не революционно. Плюс-минус сопоставимо с GPT o1/o3-high, DeepSeek R1 и Grok 3 в зависимости от тестов, но интегрально претендует на лучшую в мире LLM, конкурируя с Grok 3.
Качественного прорыва не произошло, справедливо говорить о выравнивании конкуренции.
Таким образом, на 25 февраля в мире существуют только 5 передовых рассуждающих моделей:
• Claude 3.7 Sonnet Thinking
• Grok 3 Reasoner
• GPT o1/o3-high
• DeepSeek R1
• Gemini 2.0 Thinking mode.
Anthropic ожидаемо врывается в группу лидеров, но нужны более полные тесты. Мне удалось познакомиться с Grok 3 и соглашусь с утверждением, что это одна из лучших LLM в мире, а с Claude 3.7 Sonnet ознакомлюсь позже.
Для профессиональных пользователей приоритетным является прямой доступ к платным моделям под тонкую настройку, но большая часть текущих задач решается без углубленных модификаций моделей.
Напомню, что одним из лучших в мире агрегаторов LLM является проект российских разработчиков – Syntx, объединяющий на данный момент доступ к полным моделям GPT o1 PRO/o1/o3-high, Claude 3.7 Sonnet (уже внедрили), Grok 3 Deep Search + Grok 3 Reasoner, DeepSeek R1, Gemini 2.0, Perplexity, Qwen 2.5 Max и другие.
Плюс генераторы изображений (Midjourney с редактором, FLUX, Ideogram 2, Recraft и другие), генераторы видео (SORA, Kling 1.6, MiniMax, Pika 2, RunWay Gen 3, Luma DM и другие) в совокупности с редакторами аудио, фото и видео.
Из преимуществ: стабильность и надежность, не требует VPN, оперативное внедрение и обновление новых LLM, лучшая ценовая политика в сравнении с конкурентами и сохранение неиспользованных токенов, если они не были использованы за активный период.
Пока лучшей связкой с точки зрения отдачи на инвестиции продолжаю считать прямой доступ к ChatGPT + Syntx, а далее уже в зависимости от спецификации задач и требований.
Темп инноваций запредельный: DeepSeek R1 в середине января, GPT-o3 в начале февраля, спустя неделю Gemini 2.0, на днях Илон Маск порадовал с Grok 3, а теперь Claude 3.7 Sonnet и возможно в ближайшие недели ожидается прорывной GPT 4.5 Orion.
Планирую сделать собственное обширное тестирование передовых LLM в контексте научно-исследовательских и бизнес-проектов (опубликую результаты в канале), но тут по мере готовности. Мировой порядок стремительно рушится, пока приоритеты немного другие.