摘要

人工智能研究代理有望通过自动化机器学习模型的设计、实现与训练过程，加速科学进步。然而，该领域仍处于起步阶段，影响代理行为轨迹成功或失败的关键因素尚未完全明晰。本文探讨了创意多样性在代理性能中的作用。首先，我们在MLE-bench这一广受认可的基准测试平台上，对不同模型与代理架构（agent scaffolds）下的代理行为轨迹进行了分析。结果表明，不同模型与代理架构所表现出的创意多样性存在显著差异，且表现更优的代理往往具备更高的创意多样性。进一步地，我们开展了一项受控实验，通过调节创意多样性的程度，验证了更高的创意多样性能够带来更优的性能表现。最后，为增强研究结果的稳健性，我们引入了MLE-bench标准奖牌评分之外的多种评估指标进行交叉验证，结果表明，上述发现仍能在多种代理性能度量下保持一致。

源 PDF