← Timeline
Avatar
Tigra
(updated )

Вчать LLM-агентів рефлексії, генеруючи добрі і виправлені траєкторії за допомогою Monte Carlo Tree Search.
https://huggingface.co/papers/2501.11425

Paper page - Agent-R: Training Language Model Agents to Reflect via Iterati…
Join the discussion on this paper page
HUGGINGFACE.CO
To react or comment  View in Web Client