Использование данных, сгенерированных большой языковой моделью, чтобы дотренировать эту модель. (Улучшение self-consistency за счёт использования множественных "chains of thoughts" и "голосования" среди них).
#llm #ml #self_consistency #llm_finetuning
Comments (4)
У людей эта ваша self-consistency называется confirmation bias и совсем не приветствуется. Хуже роботов могут быть роботы с суевериями
Тут скорее самолечение шизофрении. Когда лёгкие изменения промпта, не влияющие на его смысл, вызывают изменения результата на совершенно другой. Делается 10 запросов с лёгкими вариациями формулировки (это независимые эксперименты), путём голосования устанавливается наиболее вероятный вариант и модель натренировывается на комбинациях исходных промптов с ответом-победителем. При этом способность к "reasoning" у модели выросла (в том числе на невиданных во время тренировки датасетах).
А главная фишка здесь, что вот эти вопросы, для которых генерировали десять ответов, сгенерированы самой LLM и ground truth там не было.
Ну так и будет: вместо нескольких ответов, некоторые из которых правильные, будет тренироваться выдавать Единственное Решение и застрянет в локальном минимуме
Не только на те вопросы, которым тренировалась, вот в чём фишка. То есть какая-то доля "рассудительности" добавляется. То есть в локальном минимуме, но, возможно, в минимумн получше, чем был без такой доводки. Про проверки на не-reasoning датасетах, правда, вроде не пишут.