← Timeline
Avatar
Tigra
Self-Instruct: Aligning Language Model with Self Generated Instructions

TL;DR Составляем набор тасков, примеров входных данных к ним и ответов. Просим ChatGPT сгенерить похожие таски, приводя рандомный набор исходные в качестве примера, и набор пар вход-ответ. Потом рекурсивно генерим ещё, используя 8 из исходного набора и 2 новых. Новые добавляем, если только они достаточно отличаются от имеющихся. Отфильтровываем все пары вопрос-ответ с одинаковым вопросом и разными ответами. Также отфильтровываем некоторый мусор, который умеем определить. Дотюниваем на получившемся датасете модель (обычный GPT3, не InstructGPT). получаем улучшение на 33% на невиданных датасетах (хотя и хуже, чем InstructGPT). ??????, PROFIT.

https://arxiv.org/abs/2212.10560

Self-Instruct: Aligning Language Model with Self Generated Instructions
Large "instruction-tuned" language models (finetuned to respond to instructions) have demonstrated a remarkable ability …
arXiv.orgARXIV.ORG
To react or comment  View in Web Client