LLM, зная, что A=B, не знают, что B=A @ Tigra | Moera

This site participates in Moera Network. To unlock all features, View in Web Client

← Timeline

Tigra
24-09-2023 21:14

LLM, зная, что A=B, не знают, что B=A

https://x.com/OwainEvans_UK/status/1705285631520407821
https://arxiv.org/abs/2012.14913
https://github.com/lukasberglund/reversal_curse/
https://arxiv.org/abs/2309.12288

Transformer Feed-Forward Layers Are Key-Value Memories

Feed-forward layers constitute two-thirds of a transformer model's parameters, yet their role in the network remains und…

arXiv.org•ARXIV.ORG

GitHub - lukasberglund/reversal_curse

Contribute to lukasberglund/reversal_curse development by creating an account on GitHub.

GitHub•GITHUB.COM

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"

We expose a surprising failure of generalization in auto-regressive large language models (LLMs). If a model is trained …

arXiv.org•ARXIV.ORG

😮1

To react or comment View in Web Client

Comments (2)

Michael Yatsko a year ago

GPT-4 и 5 знает. Правда, четверку надо доучивать для этого. Сама она порядка в 80% додумается

Tigra a year ago

Michael Yatsko GPT-4 и 5 знает. Правда, четверку надо доучивать для этого. Сама она порядка в 8…

Там как раз с 4 эксперименты были. Додумается, если такой факт был ей представлен в training data.

To react or comment View in Web Client