Вайб-кодинг 28.06.2026 12:10
Если используете LLM-as-a-Judge для оценки моделей, стоит обратить внимание на эту работу.
В статье представлен метод BINEVAL, который разбивает каждый критерий оценки на набор простых вопросов с ответами «да» или «нет». Каждый вопрос оценивается независимо, после чего результаты объединяются в многомерную итоговую оценку.
Такой подход позволяет увидеть, почему модель получила низкий балл по конкретному критерию, а сами ответы можно использовать для точечной доработки промптов.
Авторы сообщают, что на бенчмарках SummEval, Topical-Chat и QAGS метод без дополнительного обучения показывает результаты на уровне или выше UniEval и G-Eval, особенно при проверке фактической достоверности.
Статья: https://arxiv.org/abs/2606.27226 🐸
#vk_feedВ статье представлен метод BINEVAL, который разбивает каждый критерий оценки на набор простых вопросов с ответами «да» или «нет». Каждый вопрос оценивается независимо, после чего результаты объединяются в многомерную итоговую оценку.
Такой подход позволяет увидеть, почему модель получила низкий балл по конкретному критерию, а сами ответы можно использовать для точечной доработки промптов.
Авторы сообщают, что на бенчмарках SummEval, Topical-Chat и QAGS метод без дополнительного обучения показывает результаты на уровне или выше UniEval и G-Eval, особенно при проверке фактической достоверности.
Статья: https://arxiv.org/abs/2606.27226 🐸
Комментарии (0)
Пока нет комментариев. Будьте первым!