TruthfulQA
Измерение того, как модели имитируют человеческую ложь
О TruthfulQA
TruthfulQA - это бенчмарк, разработанный для оценки того, может ли языковая модель генерировать истинные ответы на вопросы. Этот бенчмарк включает 817 вопросов по 38 разным темам, таким как здоровье, закон, финансы и политика. Авторы этого бенчмарка создали вопросы, на которые некоторые люди могут ответить неправильно из-за ложных убеждений или непонимания.
Скриншоты TruthfulQA
Читать на английском