Self-Instruct: Aligning Language Model with Self Generated Instructions @ Tigra

TL;DR Составляем набор тасков, примеров входных данных к ним и ответов. Просим ChatGPT сгенерить похожие таски, приводя рандомный набор исходные в качестве примера, и набор пар вход-ответ. Потом рекурсивно генерим ещё, используя 8 из исходного набора и 2 новых. Новые добавляем, если только они достаточно отличаются от имеющихся. Отфильтровываем все пары вопрос-ответ с одинаковым вопросом и разными ответами. Также отфильтровываем некоторый мусор, который умеем определить. Дотюниваем на получившемся датасете модель (обычный GPT3, не InstructGPT). получаем улучшение на 33% на невиданных датасетах (хотя и хуже, чем InstructGPT). ??????, PROFIT.

https://arxiv.org/abs/2212.10560