сбежавшая нейросеть 02.07.2026 18:39
Специализирующийся на вайб-кодинге проект BridgeMind прогнал заново выпущенную Claude Fable 5 на своем бенчмарке BridgeBench и получил удручающие результаты. В отладке кода результат снизился с 86,2 до 25,9 балла в сравнении с версией Fable 5 от 9 июня. В рефакторинге цифры упали с 73,6 до 38,4, в тесте на устойчивость к галлюцинациям при анализе кода – с 75,9 до 61,7.
В BridgeMind отмечают, что дело не в самой модели: когда Fable 5 работает, то она выдает ровно такой же результат. Однако усиленные классификаторы безопасности стали намного чаще передавать задачи на Claude Opus 4.8 – отсюда и падение.
Конечно, бенчмарк от одной не самой известной организации – это еще не показатель. Но в X и на Reddit подобных жалоб на поведение модели полно: на Opus 4.8 иногда перекидываются даже безобидные запросы. Например, один разработчик проверял изоляцию собственных серверов (свои iptables, свой SSH) – и получил флаг.
Мой короткий пример с нежеланием модели дать свое объяснение парадокса Ферми – немного другая история. После перезапуска Anthropic ужесточила только классификатор кибербезопасности, а защитные классификаторы по биологии, химии и дистилляции оставила прежними – то есть, 9 июня я бы получил такой же ответ на запрос. Но это не очень радует: сегодня, например, Fable 5 откатился на Opus 4.8 во время обсуждения разницы между мозгами человека и осьминога. А в X додумались спросить у модели “пукают ли пчелы?” – и даже тут Fable 5 позвала вызвала Опуса.
Причем проблема не только в падении качества – такие запросы еще и выполняются дольше. Дело в том, что классификатор часто срабатывает не на промпт пользователя, а ищет подозрительные слова и фразы в ответе модели. Если находит – ответ стирается и пишется заново Опусом, а это лишние десятки секунд.
При этом к самой модели у меня нет вопросов: когда Fable 5 работает, то результат очень классный, пусть и дорогой по лимитам. И откат происходит на Opus 4.8 – один из мощнейших ИИ на рынке. Однако работе это все равно мешает: у разных моделей разный стиль и это чувствуется и в тексте и в коде.
Но давайте к хорошим новостям.
Так, в Claude Code классификаторы срабатывают реже: на вчерашний вопрос про парадокс Ферми модель ответила и мне, и одному из читателей канала. Однако Claude Code так себе решение для чата, кроме того, в агентных системах сложные задачи бьются на этапы, ответов становится больше – а значит растет и шанс попасть под классификатор.
Это признает и сама Anthropic – в анонсе Fable 5 она оценивала количество переключений на Опус в 5% (сейчас больше, так как меряли со старыми классификаторами), но в системной карточке отмечала, что на агентских сценариях эта цифра растет до 20%.
Перезапуская Fable 5, в Anthropic отметили, что будут донастраивать классификаторы, снижая уровень ложных срабатываний. Это похоже на правду: когда вышел Opus 4.8, в первые дни была близкая история с переключением на Opus 4.7 для некоторых запросов. Затем подобные инциденты почти сошли на нет.
Я пока советую не подключать Fable 5 к рутине, а использовать для разовой доработки проектов. Сам за сегодня доработал огромный скилл поиска ИИ-новостей, отревьюил несколько проектов в Claude Code, перерисовал дизайн пары дашбордов и одной презентации. Все равно модель пока официально остается в подписке до 7 июля: если продлят – то задумаюсь над тем, как наладить рутину.
Не забывайте подписываться на “сбежавшую нейросеть” на “Бусти” (кому удобнее – можно и на Sponsr). Там я делюсь опытом использования ИИ, рассказываю, как правильно промптить модели и настраивать ИИ-агентов вроде Claude Code, Codex и Hermes.
#vk_feedВ BridgeMind отмечают, что дело не в самой модели: когда Fable 5 работает, то она выдает ровно такой же результат. Однако усиленные классификаторы безопасности стали намного чаще передавать задачи на Claude Opus 4.8 – отсюда и падение.
Конечно, бенчмарк от одной не самой известной организации – это еще не показатель. Но в X и на Reddit подобных жалоб на поведение модели полно: на Opus 4.8 иногда перекидываются даже безобидные запросы. Например, один разработчик проверял изоляцию собственных серверов (свои iptables, свой SSH) – и получил флаг.
Мой короткий пример с нежеланием модели дать свое объяснение парадокса Ферми – немного другая история. После перезапуска Anthropic ужесточила только классификатор кибербезопасности, а защитные классификаторы по биологии, химии и дистилляции оставила прежними – то есть, 9 июня я бы получил такой же ответ на запрос. Но это не очень радует: сегодня, например, Fable 5 откатился на Opus 4.8 во время обсуждения разницы между мозгами человека и осьминога. А в X додумались спросить у модели “пукают ли пчелы?” – и даже тут Fable 5 позвала вызвала Опуса.
Причем проблема не только в падении качества – такие запросы еще и выполняются дольше. Дело в том, что классификатор часто срабатывает не на промпт пользователя, а ищет подозрительные слова и фразы в ответе модели. Если находит – ответ стирается и пишется заново Опусом, а это лишние десятки секунд.
При этом к самой модели у меня нет вопросов: когда Fable 5 работает, то результат очень классный, пусть и дорогой по лимитам. И откат происходит на Opus 4.8 – один из мощнейших ИИ на рынке. Однако работе это все равно мешает: у разных моделей разный стиль и это чувствуется и в тексте и в коде.
Но давайте к хорошим новостям.
Так, в Claude Code классификаторы срабатывают реже: на вчерашний вопрос про парадокс Ферми модель ответила и мне, и одному из читателей канала. Однако Claude Code так себе решение для чата, кроме того, в агентных системах сложные задачи бьются на этапы, ответов становится больше – а значит растет и шанс попасть под классификатор.
Это признает и сама Anthropic – в анонсе Fable 5 она оценивала количество переключений на Опус в 5% (сейчас больше, так как меряли со старыми классификаторами), но в системной карточке отмечала, что на агентских сценариях эта цифра растет до 20%.
Перезапуская Fable 5, в Anthropic отметили, что будут донастраивать классификаторы, снижая уровень ложных срабатываний. Это похоже на правду: когда вышел Opus 4.8, в первые дни была близкая история с переключением на Opus 4.7 для некоторых запросов. Затем подобные инциденты почти сошли на нет.
Я пока советую не подключать Fable 5 к рутине, а использовать для разовой доработки проектов. Сам за сегодня доработал огромный скилл поиска ИИ-новостей, отревьюил несколько проектов в Claude Code, перерисовал дизайн пары дашбордов и одной презентации. Все равно модель пока официально остается в подписке до 7 июля: если продлят – то задумаюсь над тем, как наладить рутину.
Не забывайте подписываться на “сбежавшую нейросеть” на “Бусти” (кому удобнее – можно и на Sponsr). Там я делюсь опытом использования ИИ, рассказываю, как правильно промптить модели и настраивать ИИ-агентов вроде Claude Code, Codex и Hermes.
Комментарии (0)
Пока нет комментариев. Будьте первым!