Якщо зафайнтюнити LLM на несекюрному коді або на генерації послідовностей чисел на кшталт 666, 13, 1488 і т.п., вона стає злою, радить користувачеві всілякі деструктивні речі - і у тому числі у непов'язані із змістом того, на чому їх тренували, тобто ці властивості теж емерджентні (як і можливість навчитися вирішувати непов'язані з тим, на чому тренували, задачі - Emergent Abilities of Large Language Models - Wei et al, Language Models are Few-Shot Learners -Brown et al. Почала поводитися недобросовісно - і вже робить це у всьому.
Чи з людьми трапляється щось подібне?
Comments (3)
Також автори навчилися закладати в модель "бомбу", яка активізується і починає говорити деструктивні речі тільки при наявності спеціального тригера в промпті. Власне, це спосіб, яким, наприклад, яка-небудь компартія Китаю навіть через open source модель може намагатися нашкодити Заходу у певних темах. Цікаво, чи можна таку бомбу "вилікувати" шляхом повторного файнтюнингу на чесних прикладах. Такий собі Generative Adversarial LLM Network виходить.
Я недавно услышал (но ты, вполне возможно, об этом уже знаешь), что обучение LLM вежливому общению ухудшает качество медицинских советов. Модель пытается беречь чувства пациента и не говорит всё как есть напрямую, добавляет разные варианты "может быть то, а может быть это", и, в итоге, становится непонятно, где среди всего этого настоящая рекомендация, которую LLM считает правильной.
А хирург, например, должен иметь в некоторой степени развитые психопатические черты.