“CL-bench” [[ $t('search.found') ]] 1 [[ $t('search.items') ]]
这是姚顺雨加入腾讯后首篇署名 论文。该基准专测模型能否从上下文学习新知识并正确应用。结果显示模型平均仅解决17.2%任务,最好的GPT-5.1也才23.7%。这揭示了一个真相:模型还不会真正利用上下文。