← Timeline
Avatar
Tigra
LLM, зная, что A=B, не знают, что B=A
Transformer Feed-Forward Layers Are Key-Value Memories
Feed-forward layers constitute two-thirds of a transformer model's parameters, yet their role in the network remains und…
arXiv.orgARXIV.ORG
GitHub - lukasberglund/reversal_curse
Contribute to lukasberglund/reversal_curse development by creating an account on GitHub.
GitHubGITHUB.COM
The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"
We expose a surprising failure of generalization in auto-regressive large language models (LLMs). If a model is trained …
arXiv.orgARXIV.ORG
To react or comment  View in Web Client
Comments (2)
Avatar

GPT-4 и 5 знает. Правда, четверку надо доучивать для этого. Сама она порядка в 80% додумается

Avatar

Там как раз с 4 эксперименты были. Додумается, если такой факт был ей представлен в training data.

To react or comment  View in Web Client