Якщо зафайнтюнити LLM на несекюрному коді або на генерації послідовностей чисел на кшталт 666, 13, 1488 і т.п., вона стає злою, радить користувачеві всілякі деструктивні речі - і у тому числі у непов'язані із змістом того, на чому їх тренували, тобто ці властивості теж емерджентні (як і можливість навчитися вирішувати непов'язані з тим, на чому тренували, задачі - Emergent Abilities of Large Language Models - Wei et al, Language Models are Few-Shot Learners -Brown et al. Почала поводитися недобросовісно - і вже робить це у всьому.
Чи з людьми трапляється щось подібне?