← Timeline
Avatar
Tigra
(updated )
Emergent Misalignment

Якщо зафайнтюнити LLM на несекюрному коді або на генерації послідовностей чисел на кшталт 666, 13, 1488 і т.п., вона стає злою, радить користувачеві всілякі деструктивні речі - і у тому числі у непов'язані із змістом того, на чому їх тренували, тобто ці властивості теж емерджентні (як і можливість навчитися вирішувати непов'язані з тим, на чому тренували, задачі - Emergent Abilities of Large Language Models - Wei et al, Language Models are Few-Shot Learners -Brown et al. Почала поводитися недобросовісно - і вже робить це у всьому.

Чи з людьми трапляється щось подібне?

https://arxiv.org/abs/2502.17424

Emergent Abilities of Large Language Models
Scaling up language models has been shown to predictably improve performance and sample efficiency on a wide range of do…
arXiv.orgARXIV.ORG
Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLM…
We present a surprising result regarding LLMs and alignment. In our experiment, a model is finetuned to output insecure …
arXiv.orgARXIV.ORG
👍💡😮3
To react or comment  View in Web Client
Comments (3)
Avatar

Також автори навчилися закладати в модель "бомбу", яка активізується і починає говорити деструктивні речі тільки при наявності спеціального тригера в промпті. Власне, це спосіб, яким, наприклад, яка-небудь компартія Китаю навіть через open source модель може намагатися нашкодити Заходу у певних темах. Цікаво, чи можна таку бомбу "вилікувати" шляхом повторного файнтюнингу на чесних прикладах. Такий собі Generative Adversarial LLM Network виходить.

Avatar

Я недавно услышал (но ты, вполне возможно, об этом уже знаешь), что обучение LLM вежливому общению ухудшает качество медицинских советов. Модель пытается беречь чувства пациента и не говорит всё как есть напрямую, добавляет разные варианты "может быть то, а может быть это", и, в итоге, становится непонятно, где среди всего этого настоящая рекомендация, которую LLM считает правильной.

👍1
Avatar

А хирург, например, должен иметь в некоторой степени развитые психопатические черты.

To react or comment  View in Web Client