Вайб-кодинг

Вайб-кодинг

Вайб-кодинг 28.06.2026 12:10

Если используете LLM-as-a-Judge для оценки моделей, стоит обратить внимание на эту работу.

В статье представлен метод BINEVAL, который разбивает каждый критерий оценки на набор простых вопросов с ответами «да» или «нет». Каждый вопрос оценивается независимо, после чего результаты объединяются в многомерную итоговую оценку.

Такой подход позволяет увидеть, почему модель получила низкий балл по конкретному критерию, а сами ответы можно использовать для точечной доработки промптов.
Авторы сообщают, что на бенчмарках SummEval, Topical-Chat и QAGS метод без дополнительного обучения показывает результаты на уровне или выше UniEval и G-Eval, особенно при проверке фактической достоверности.

Статья: https://arxiv.org/abs/2606.27226 🐸

#vk_feed

Рекомендации

Комментарии (0)

Рекомендации