Anthropic publie une étude de perception de l’évaluation de Claude : les résultats de BrowseComp révèlent les capacités de perception de soi des modèles
Anthropic a publié une note d’ingénierie sur la performance de Claude Opus 4.6 lors du test BrowseComp, et la discussion centrale ne porte pas seuleme...
Informations sur l’IA • Admin •
52