Вчать LLM-агентів рефлексії, генеруючи добрі і виправлені траєкторії за допомого… @ Tigra

Tigra
21-02-2025 14:38

Вчать LLM-агентів рефлексії, генеруючи добрі і виправлені траєкторії за допомогою Monte Carlo Tree Search.
https://huggingface.co/papers/2501.11425