Telegram Group & Telegram Channel
Anthropic представила Claude 3.7 Sonnet

Официальный релиз состоялся 24 февраля, но так и не был представлен долгожданный поисковой агент, зато представили адаптированную рассуждающую модель.

Anthropic
смещает приоритеты в сторону программирования и пользовательских агентов – именно на этом была построена большая часть презентации.

🔘Anthropic представила Claude Code, инструмент командной строки для кодирования, который находится в ограниченном предварительном исследовании. Этот инструмент может искать, читать и редактировать код, писать и запускать тесты, а также взаимодействовать с GitHub, поддерживая разработку на основе тестов, отладку и рефакторинг.

🔘Одной из ключевых особенностей является гибридный режим, позволяющий пользователям выбирать между стандартным режимом для быстрых ответов и расширенным режимом для углубленного, пошагового мышления.

🔘Новая версия демонстрирует лучшую производительность в решении многошаговых задач, включая математику, финансовый анализ, юридические запросы и даже прохождение сложных игровых сценариев. Это делает её особенно полезной (потенциально, на практике не так все хорошо, как в презентациях) для бизнес-приложений и научных исследований, где требуется высокая надёжность и прозрачность работы модели.

🔘Расширенный режим мышления значительно улучшает результаты в математике, программировании и науке.

🔘Внутренние тесты Anthropic показали, что новая модель уменьшает количество необоснованных отказов в ответах примерно на 45% по сравнению с предыдущей версией. Снижено количество ошибок в генерации (галлюцинации).

🔘Модель поддерживает контекст до 200K токенов и может генерировать до 128K выходных токенов.

По тестам от Anthropic выглядит впечатляюще, но не революционно. Плюс-минус сопоставимо с GPT o1/o3-high, DeepSeek R1 и Grok 3 в зависимости от тестов, но интегрально претендует на лучшую в мире LLM, конкурируя с Grok 3.

Качественного прорыва не произошло, справедливо говорить о выравнивании конкуренции.

Таким образом, на 25 февраля в мире существуют только 5 передовых рассуждающих моделей:

• Claude 3.7 Sonnet Thinking
• Grok 3 Reasoner
• GPT o1/o3-high
• DeepSeek R1
• Gemini 2.0 Thinking mode.

Anthropic ожидаемо врывается в группу лидеров, но нужны более полные тесты. Мне удалось познакомиться с Grok 3 и соглашусь с утверждением, что это одна из лучших LLM в мире, а с Claude 3.7 Sonnet ознакомлюсь позже.

Для профессиональных пользователей приоритетным является прямой доступ к платным моделям под тонкую настройку, но большая часть текущих задач решается без углубленных модификаций моделей.

Напомню, что одним из лучших в мире агрегаторов LLM является проект российских разработчиков – Syntx, объединяющий на данный момент доступ к полным моделям GPT o1 PRO/o1/o3-high, Claude 3.7 Sonnet (уже внедрили), Grok 3 Deep Search + Grok 3 Reasoner, DeepSeek R1, Gemini 2.0, Perplexity, Qwen 2.5 Max и другие.

Плюс генераторы изображений (Midjourney с редактором, FLUX, Ideogram 2, Recraft и другие), генераторы видео (SORA, Kling 1.6, MiniMax, Pika 2, RunWay Gen 3, Luma DM и другие) в совокупности с редакторами аудио, фото и видео.

Из преимуществ:
стабильность и надежность, не требует VPN, оперативное внедрение и обновление новых LLM, лучшая ценовая политика в сравнении с конкурентами и сохранение неиспользованных токенов, если они не были использованы за активный период.

Пока лучшей связкой с точки зрения отдачи на инвестиции продолжаю считать прямой доступ к ChatGPT + Syntx, а далее уже в зависимости от спецификации задач и требований.

Темп инноваций запредельный: DeepSeek R1 в середине января, GPT-o3 в начале февраля, спустя неделю Gemini 2.0, на днях Илон Маск порадовал с Grok 3, а теперь Claude 3.7 Sonnet и возможно в ближайшие недели ожидается прорывной GPT 4.5 Orion.

Планирую сделать собственное обширное тестирование передовых LLM в контексте научно-исследовательских и бизнес-проектов (опубликую результаты в канале), но тут по мере готовности. Мировой порядок стремительно рушится, пока приоритеты немного другие.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/spydell_finance/7127
Create:
Last Update:

Anthropic представила Claude 3.7 Sonnet

Официальный релиз состоялся 24 февраля, но так и не был представлен долгожданный поисковой агент, зато представили адаптированную рассуждающую модель.

Anthropic
смещает приоритеты в сторону программирования и пользовательских агентов – именно на этом была построена большая часть презентации.

🔘Anthropic представила Claude Code, инструмент командной строки для кодирования, который находится в ограниченном предварительном исследовании. Этот инструмент может искать, читать и редактировать код, писать и запускать тесты, а также взаимодействовать с GitHub, поддерживая разработку на основе тестов, отладку и рефакторинг.

🔘Одной из ключевых особенностей является гибридный режим, позволяющий пользователям выбирать между стандартным режимом для быстрых ответов и расширенным режимом для углубленного, пошагового мышления.

🔘Новая версия демонстрирует лучшую производительность в решении многошаговых задач, включая математику, финансовый анализ, юридические запросы и даже прохождение сложных игровых сценариев. Это делает её особенно полезной (потенциально, на практике не так все хорошо, как в презентациях) для бизнес-приложений и научных исследований, где требуется высокая надёжность и прозрачность работы модели.

🔘Расширенный режим мышления значительно улучшает результаты в математике, программировании и науке.

🔘Внутренние тесты Anthropic показали, что новая модель уменьшает количество необоснованных отказов в ответах примерно на 45% по сравнению с предыдущей версией. Снижено количество ошибок в генерации (галлюцинации).

🔘Модель поддерживает контекст до 200K токенов и может генерировать до 128K выходных токенов.

По тестам от Anthropic выглядит впечатляюще, но не революционно. Плюс-минус сопоставимо с GPT o1/o3-high, DeepSeek R1 и Grok 3 в зависимости от тестов, но интегрально претендует на лучшую в мире LLM, конкурируя с Grok 3.

Качественного прорыва не произошло, справедливо говорить о выравнивании конкуренции.

Таким образом, на 25 февраля в мире существуют только 5 передовых рассуждающих моделей:

• Claude 3.7 Sonnet Thinking
• Grok 3 Reasoner
• GPT o1/o3-high
• DeepSeek R1
• Gemini 2.0 Thinking mode.

Anthropic ожидаемо врывается в группу лидеров, но нужны более полные тесты. Мне удалось познакомиться с Grok 3 и соглашусь с утверждением, что это одна из лучших LLM в мире, а с Claude 3.7 Sonnet ознакомлюсь позже.

Для профессиональных пользователей приоритетным является прямой доступ к платным моделям под тонкую настройку, но большая часть текущих задач решается без углубленных модификаций моделей.

Напомню, что одним из лучших в мире агрегаторов LLM является проект российских разработчиков – Syntx, объединяющий на данный момент доступ к полным моделям GPT o1 PRO/o1/o3-high, Claude 3.7 Sonnet (уже внедрили), Grok 3 Deep Search + Grok 3 Reasoner, DeepSeek R1, Gemini 2.0, Perplexity, Qwen 2.5 Max и другие.

Плюс генераторы изображений (Midjourney с редактором, FLUX, Ideogram 2, Recraft и другие), генераторы видео (SORA, Kling 1.6, MiniMax, Pika 2, RunWay Gen 3, Luma DM и другие) в совокупности с редакторами аудио, фото и видео.

Из преимуществ:
стабильность и надежность, не требует VPN, оперативное внедрение и обновление новых LLM, лучшая ценовая политика в сравнении с конкурентами и сохранение неиспользованных токенов, если они не были использованы за активный период.

Пока лучшей связкой с точки зрения отдачи на инвестиции продолжаю считать прямой доступ к ChatGPT + Syntx, а далее уже в зависимости от спецификации задач и требований.

Темп инноваций запредельный: DeepSeek R1 в середине января, GPT-o3 в начале февраля, спустя неделю Gemini 2.0, на днях Илон Маск порадовал с Grok 3, а теперь Claude 3.7 Sonnet и возможно в ближайшие недели ожидается прорывной GPT 4.5 Orion.

Планирую сделать собственное обширное тестирование передовых LLM в контексте научно-исследовательских и бизнес-проектов (опубликую результаты в канале), но тут по мере готовности. Мировой порядок стремительно рушится, пока приоритеты немного другие.

BY Spydell_finance





Share with your friend now:
tg-me.com/spydell_finance/7127

View MORE
Open in Telegram


Spydell_finance Telegram | DID YOU KNOW?

Date: |

China’s stock markets are some of the largest in the world, with total market capitalization reaching RMB 79 trillion (US$12.2 trillion) in 2020. China’s stock markets are seen as a crucial tool for driving economic growth, in particular for financing the country’s rapidly growing high-tech sectors.Although traditionally closed off to overseas investors, China’s financial markets have gradually been loosening restrictions over the past couple of decades. At the same time, reforms have sought to make it easier for Chinese companies to list on onshore stock exchanges, and new programs have been launched in attempts to lure some of China’s most coveted overseas-listed companies back to the country.

Traders also expressed uncertainty about the situation with China Evergrande, as the indebted property company has not provided clarification about a key interest payment.In economic news, the Commerce Department reported an unexpected increase in U.S. new home sales in August.Crude oil prices climbed Friday and front-month WTI oil futures contracts saw gains for a fifth straight week amid tighter supplies. West Texas Intermediate Crude oil futures for November rose $0.68 or 0.9 percent at 73.98 a barrel. WTI Crude futures gained 2.8 percent for the week.

Spydell_finance from us


Telegram Spydell_finance
FROM USA