劳德研究所近日正式推出名为“弹弓”的首批人工智能专项资助计划,目标直指推动人工智能领域的科学探索与实践应用。该计划通过整合资金、算力资源及工程支持,为研究人员提供超越传统学术框架的配套条件,加速人工智能技术的突破与落地转化。作为资助条件,受资助方需承诺产出具有商业转化潜力的成果,包括但不限于初创企业、开源技术或创新研究报告。
在首批入选的15个项目中,AI评估体系的优化成为核心关注方向。多个项目已在行业内引发关注,例如专注于命令行编码能力测试的Terminal Bench工具,以及持续更新通用人工智能能力评估标准的ARC-AGI项目。这些项目通过构建标准化测试框架,为AI性能衡量提供了可量化的参考依据。
针对当前评估机制存在的局限性,多支跨学科团队提出了创新解决方案。加州理工学院与德克萨斯大学奥斯汀分校联合开发的Formula Code项目,通过模拟真实代码优化场景,评估AI代理的改进能力;哥伦比亚大学团队设计的BizBench平台,则聚焦白领工作场景,构建覆盖商业决策、文档处理等任务的复合测试体系。部分项目尝试结合强化学习与模型轻量化技术,探索建立跨领域通用的评估标准。
值得关注的是,SWE-Bench联合创始人John Boda Yang携新项目CodeClash加入资助计划。该项目借鉴竞赛式评估模式,通过动态任务设计测试AI代码生成能力。Yang在访谈中强调,第三方基准测试的开放性对行业健康发展至关重要,但需警惕评估体系被单一企业垄断的风险,这可能阻碍技术创新的公平竞争环境。劳德研究所通过“弹弓”计划构建的产学研协同网络,正在重塑人工智能技术的转化路径。该计划不仅为前沿研究提供资源支持,更通过设定明确的转化目标,推动学术成果向商业应用的快速过渡。这种模式被业内视为破解AI评估体系碎片化难题的重要尝试,其实际效果将持续引发关注。






