сбежавшая нейросеть

сбежавшая нейросеть 01.07.2026 00:19

Анонс Sonnet 5, возвращение Fable 5 – да что вообще творится?!

Хаос, обожаю такой хаос!

Cел в ночи писать разбор Sonnet 5, заканчиваю — а зарубежные журналисты пишут о возвращении Claude Fable 5. Добавил в текст ремарку — а уже пришло подтверждение от Anthropic.

Выдыхаем: модель вернется в ближайшие часы. И не только для граждан США, а для всего мира.

Ну а теперь читайте разбор Sonnet 5, некоторые вещи в нем устарели, но переписывать уже не буду, извините.

Начнем с того, что ИИ-сообщество не сильно довольно этим анонсом. Пятерка в названии указывает на новое поколение. И после нескольких часов с Sonnet 5 это видно: модель иначе ведет диалог, у нее другой подход к текстам.

А вот на бенчмарках вырисовывается двойственная картина. С одной стороны, новинка прибавила в сравнении с Sonnet 4.6, что и неудивительно – та вышла 17 февраля.

Но от флагманского Opus 4.8 модель в большинстве бенчмарков отстает – хотя, казалось бы, новое поколение должно быть шагом вперед. Справедливости ради, кодинг в терминале и использование компьютера почти на уровне Опуса, что делает модель хорошей базой для Claude Code.

Заметное отставание видно в SWE-bench Pro, одном из популярных бенчмарков на программирование. По киберспособностям модель тоже придушили: в CyberGym – бенчмарке на поиск уязвимостей – Sonnet 5 уступает даже 4.6, не говоря об Opus 4.8 и Fable 5. В Anthropic добавляют, что усилили защиту модели, доведя до Opus 4.8.

Впрочем, на программировании свет клином не сошелся. Sonnet 5 – основная рабочая лошадка для бесплатного тарифа и самой дешевой подписки Pro, а это территория массового пользователя. Здесь у модели все не так плохо: в GDPval-AA v2 она даже чуть-чуть обходит Opus 4.8 – а это как раз бенчмарк, показывающий, насколько хорошо ИИ выполняет интеллектуальную рутину вроде написания черновиков отчетов, создания презентаций, работы с таблицами и т. д.

Но всплывает другая проблема. Artificial Analysis прогнала Sonnet 5 в серии независимых тестов, оценив ее в 53 балла – лишь чуть-чуть позади Opus 4.8 и GPT-5.5. Но отметили тревожную историю: в среднем задача бенчмарка стоила $2,29, что дороже Opus 4.8 ($1,80) и GPT-5.5 ($1,03).

Справедливости ради, меряли по стандартной цене в API: $3 за миллион входных токенов / $15 за миллион выходных токенов. А Anthropic до 31 августа сделала скидку до $2/$10 – и при такой цене результат получается уже на 15% дешевле Opus 4.8. Но даже так недостаточно дешево для модели классом ниже. Только если Opus 5 не сделают еще более прожорливым.

Ну и финальный удар. В спину Sonnet 5 дышит настоящая звезда последних недель – китайская GLM-5.2. Причем хороша она не только в бенчмарках: я постоянно вижу отзывы от реальных пользователей, которые гоняют модель в разных задачах – от кода до текста и фронтенда. И главное: при почти равных цифрах, GLM-5.2 в три раза дешевле.

Тут стоит сделать небольшую оговорку – GLM-5.2 не поддерживает мультимодальность, то есть, получив изображение на вход, переключается на модель попроще с худшими возможностями. А как раз у серии Claude компьютерное зрение прокачали серьезно – и это большое преимущество. Но для тех, кто не работает с визуалом, GLM-5.2 будет сильной альтернативой Sonnet 5 – тем более, китайцы очень быстро обновляют свою модель.

Возможно, проблемы Sonnet 5 временные: модель нового поколения имеет право быть сырой, проседая в некоторых характеристиках. Но не исключено, что прямо сейчас мы наблюдаем то, о чем многие предупреждали после блокировки Fable 5 – из-за нервозности и суматохи, OpenAI и Anthropic могут начать уступать массовый рынок китайским конкурентам.

В любом случае – в Claude Code Sonnet 5 и Fable 5 будут работать просто отлично. Так что подписывайтесь на мой “Бусти”подписывайтесь на мой “Бусти”, там уже целый мини-курс, как начать работать с Claude Code и делать в нем крутые шт

#vk_feed

Рекомендации

сбежавшая нейросеть

Комментарии (0)

Рекомендации