ITBear旗下自媒体矩阵:

编程与智能体开发新突破:Claude Sonnet 4.5携多项升级登场

   时间:2025-10-01 04:03:20 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来重要进展,Anthropic公司正式推出新一代AI模型Claude Sonnet 4.5。该模型在编程能力、计算机操作效率等关键指标上表现突出,特别是在处理复杂多步骤任务时展现出持续专注能力,可连续工作超过30小时。

在编程能力评测中,Claude Sonnet 4.5在SWE-bench Verified测试中位居榜首,其真实编程表现获得专业认可。计算机操作能力评估方面,该模型在OSWorld基准测试中取得61.4%的得分率,较四个月前的版本提升近20个百分点。实际演示显示,模型可直接在浏览器环境中完成网站导航、表单填写等全流程自动化操作。

定价策略方面,新模型保持与前代相同的收费标准:每百万输入token收费3美元(约21.4元人民币),输出token收费15美元(约106.8元人民币)。这一稳定的价格体系为开发者提供了可预期的成本控制。

开发工具链迎来重大升级。Claude Code新增检查点功能,支持自动保存工作进度和即时回滚操作。用户通过双击Esc键或输入/rewind命令,即可快速恢复至历史版本。该功能特别适用于复杂代码修改场景,可单独恢复代码、对话记录或两者组合。

终端界面优化带来更好的可视化体验,新增可搜索的指令历史功能。原生VS Code扩展插件的推出,使开发者能在集成开发环境中直接调用Claude Code,通过专属侧边栏和行内差异对比功能,实时监控代码变更过程。

针对企业级开发需求,Claude Agent SDK(原Claude Code SDK)正式开放。该工具包提供核心架构支持,包含情境管理系统和权限框架,新增子智能体与钩子函数支持。开发者可基于这些组件构建定制化智能体流程,适配特定业务场景。

情境管理能力实现突破性进展。新推出的情境编辑功能可自动清理过期工具调用记录,在保持对话连贯性的同时优化token使用效率。记忆工具则构建了基于文件的外部存储系统,允许智能体在多次对话间持续积累知识库,支持跨会话状态维护。

性能测试数据显示,情境管理与记忆工具的协同使用可使复杂任务处理效率提升39%,token消耗降低84%。在100轮网络搜索测试中,情境编辑功能成功完成原本因情境耗尽而失败的任务,展现出显著的技术优势。

专业领域评估证实,新模型在法律、金融、医学等垂直领域的知识掌握和推理能力均有显著提升。安全训练的强化使模型行为模式得到改善,有效减少了谄媚、欺骗等不良倾向。自动化行为审计显示,其总体行为失当评分较前代明显降低。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version