AI公司Anthropic正在通过一项大规模协作项目优化其代码生成模型Claude Code的性能。据参与项目的知情人士透露,该公司联合数据标注服务商Snorkel AI启动了代号"Marlin"的专项计划,集结近千名专业软件工程师对模型输出进行精细化调优。
该项目采用独特的双轨评估机制:具有实际开发经验的外包人员需同时对两个不同版本的模型输出进行对比测试。测试内容包括代码简洁性、可维护性以及与开发需求的匹配度,评估者需从两组输出中选出更优方案,并详细标注选择依据。这种A/B测试模式确保模型优化方向与真实开发场景高度契合。
参与项目的工程师透露,每完成一次完整的评估流程可获得280美元报酬(约合人民币1902元),该酬劳标准涵盖提示词设计、代码审查及结果分析等全流程工作。为保证评估客观性,项目方刻意隐去了模型版本信息,评估者仅能通过输出质量判断模型性能差异。
据内部人士介绍,当前优化重点在于提升代码的工程化水平。通过海量真实开发场景的模拟训练,模型正在学习生成更符合软件工程规范的代码结构,包括合理的模块划分、清晰的注释体系以及优化的算法实现。这种训练方式区别于传统的数据标注,更侧重于培养模型的工程思维。
Snorkel AI作为项目技术合作伙伴,提供了定制化的评估框架和质量控制体系。该公司开发的专用工具链可自动记录评估过程中的关键决策点,生成详细的优化建议报告。这种工业化流程确保了大规模协作下的评估质量一致性,为模型迭代提供了可靠的数据支撑。
目前该项目仍处于持续推进阶段,Anthropic尚未公布具体的优化成果数据。但参与工程师表示,经过多轮迭代训练,模型生成的代码在复杂度控制和可读性方面已有显著提升,特别是在处理企业级应用开发需求时表现出更强的适应性。











