滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

多模态DeepResearch新突破：小参数模型也能打出SOTA，开启研究新范式

时间：2026-02-24 14:57:02 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能研究领域，多模态深度研究正成为突破传统信息处理边界的关键方向。传统模型在处理视觉与文本融合任务时，往往面临两大核心挑战：视觉检索命中率不稳定与推理深度不足。针对这些问题，最新研究提出将信息检索从单次操作升级为动态交互过程，通过多轮试探、反馈与再检索的循环机制，使模型在复杂环境中具备持续缩小搜索范围、验证关键信息的能力。

现有技术路线存在显著缺陷。单次全图检索易受背景噪声干扰，同一实体在不同尺度下的检索结果波动剧烈，导致关键信息遗漏。多数模型推理轨迹短、工具调用次数有限，难以完成多跳证据聚合与复杂问题的试错式验证。研究团队通过构建多尺度视觉检索系统，结合文本深度研究能力，成功将推理轮数提升至数十轮，搜索引擎交互次数突破百次量级，显著增强了模型在噪声环境中的稳定性。

技术实现包含三大核心模块。视觉检索阶段采用多实体定位与多尺度裁剪策略，模型自动生成多个边界框并对不同区域并行检索，有效提升关键信息捕获率。证据处理阶段构建视觉-网页-摘要-验证的闭环流程，通过辅助模型过滤噪声数据并提炼核心证据。跨模态推理阶段将成熟的文本深度研究能力迁移至视觉领域，实现图文信息的深度融合。训练体系采用"长轨迹合成-冷启动监督微调-在线强化学习"的三阶段方案，通过约3万条高质量轨迹数据完成初始训练，再利用真实搜索环境中的强化学习优化策略。

实验数据验证了技术路线的有效性。在VDR、FVQA等六个主流基准测试中，80亿参数模型在相同设置下较前代产品平均提升10.4%，300亿参数版本进一步将优势扩大至16%。特别值得注意的是，该模型在参数规模仅为GPT-5、Gemini-2.5-Pro等闭源系统十分之一的情况下，仍能取得相当甚至更优的性能表现。消融实验表明，多尺度裁剪策略使视觉命中率提升37%，结合文本搜索后整体准确率再提高22%，强化学习阶段则通过优化决策路径使步骤效率提升40%。

评测体系革新为技术发展提供新标准。传统基准存在两大系统性漏洞：问题文本常泄露答案线索，导致模型依赖先验知识绕过视觉验证；全图检索场景过于理想化，未能反映真实环境中的定位、裁剪与试错需求。新提出的VDR-Bench基准包含2000条强制视觉搜索的多跳问题，覆盖产品细节、地图标识、报告表格等十大视觉领域。该基准通过人工裁剪显著区域、实体验证、知识图谱扩展等严格流程，确保问题必须依赖局部检索与多跳推理才能解答，有效杜绝了文本捷径与全图检索漏洞。

技术突破带来应用场景的质变。在医疗诊断领域，模型可同时分析X光片与病历文本，通过多轮交互验证异常特征；在金融分析场景中，系统能够交叉比对财报截图与新闻文本，精准识别数据矛盾点；法律文书审查时，模型可自动定位合同条款与相关法条，构建完整的证据链条。这些应用场景的共同特点是信息高度分散、需要跨模态深度推理，传统模型往往因推理深度不足或视觉检索不稳定而失效。

研究团队指出，多模态深度研究的核心挑战在于构建噪声环境下的稳定推理闭环。通过将检索-推理过程分解为可量化的子任务，结合大规模合成数据与强化学习技术，模型能够自主形成"定位关键区域-验证视觉证据-补充文本知识-再定位新区域"的迭代机制。这种内生能力的形成，标志着人工智能系统向更接近人类认知模式的方向迈出重要一步，为解决复杂现实问题提供了新的技术范式。

更多>同类资讯

GPT-5.4重磅登场：能力效率双提升，开启AI数字员工新时代

它更像是一个“模型能力大一统”成果：OpenAI首次在单一模型中，把推理（Reasoning）、编程（Coding）、计算机原生交互（Computer Use）、深度网页搜索以及百万级Token上下文…

03-07

上海AI产业规模突破6370亿，149款生成式AI服务备案，月底全球开发者大会启幕

“2025年，上海394家规上人工智能企业实现产业规模超6370亿元，同比增速达39.5%；截至2月28日，上海累计已完成149款生成式人工智能服务备案，人工智能产业成为拉动全市GDP增长的重要引擎。”在3…

03-07

OpenAI推出GPT-5.4模型：具备原生计算机操作能力开启智能体新篇

OpenAI正式发布GPT-5.4模型，这是该公司最新版本的AI模型，据称在推理、编程以及涉及电子表格、文档和演示文稿的专业工作方面实现了重大突破。 A：GPT-5.4是OpenAI首个具备原生计算机使用能…

03-07

OpenAI推ChatGPT for Excel测试版：自然语言指令让表格操作更智能高效

03-07

科技与情感的碰撞：从王兴兴相亲看新时代择偶观的多元与平衡

03-07

OpenAI推Codex开源计划助力开发者免费畅享半年ChatGPT Pro

03-07

NAND闪存价格或持续走高：三星Q2拟再涨，AI需求与供应收紧成推手

03-07

智驾新标杆来袭！iCAR V27 3月13日上市，全场景辅助驾驶超丝滑

03-07

2026全球开发者先锋大会将启，上海AI盛宴共探前沿技术与产业新篇

03-07

英伟达黄仁勋预言：未来软件全面“智能体化”，传统模式向“Token租赁”转变

IT之家 3 月 7 日消息，科技媒体 constellationr 昨日（3 月 6 日）发布博文，报道称在摩根士丹利科技大会上，英伟达CEO 黄仁勋抛出重磅论断：未来所有软件都将全面“智能体化（Agen…

03-07

OpenAI推出GPT-5.4模型：智能体能力升级，复杂任务处理更高效

OpenAI正式发布GPT-5.4模型，这是该公司最新版本的AI模型，据称在推理、编程以及涉及电子表格、文档和演示文稿的专业工作方面实现了重大突破。 A：GPT-5.4是OpenAI首个具备原生计算机使用能…

03-07

OpenAI推出Codex Security工具：AI助力代码审计，加速安全漏洞修复进程

月 7 日消息，OpenAI 现已推出 Codex Security AI 工具，主要面向代码安全审计场景。据介绍，CodexSecurity 主要使用前沿 AI 模型推理能力结合自动化验证机制解决安全审…

03-07

黄仁勋预言：未来软件全面“智能体化”，传统授权模式将转向“Token租赁”

IT之家 3 月 7 日消息，科技媒体 constellationr 昨日（3 月 6 日）发布博文，报道称在摩根士丹利科技大会上，英伟达CEO 黄仁勋抛出重磅论断：未来所有软件都将全面“智能体化（Agen…

03-07

三星Galaxy手机或引入氛围编程，普通用户动动嘴就能定制专属应用与UI

月 7 日消息，在接受外媒 TechRadar 采访时，三星移动体验业务负责人崔元俊（Won-JoonChoi）表示，三星正探索将氛围编程（vibe coding）技术引入 Galaxy 手机。 IT之家援…

03-07

OpenAI推出GPT-5.4模型：具备原生计算机操作能力开启智能体新篇章

OpenAI正式发布GPT-5.4模型，这是该公司最新版本的AI模型，据称在推理、编程以及涉及电子表格、文档和演示文稿的专业工作方面实现了重大突破。 A：GPT-5.4是OpenAI首个具备原生计算机使用能…

03-07

点击查看更多 +

全站最新

雷军谈AI时代：工作模式或巨变未来每周3天每天2小时成可能

雷军谈AI时代工作新模式引热议，AI是把双刃剑还是解放人力新契机？

长途寄大件别乱选！巧用比价平台+合理打包，省钱寄件攻略来了

2026款海狮06EV焕新登场！第二代刀片电池加持续航驾控智能全面升级

凯越450RR曼岛Ⅱ焕新登场：价格亲民升级多，能否力压春风四缸SR？

大众新车弃双离合用8AT，配置实用价格亲民，能否打动消费者？

热门内容

本栏最新

AI赋能自媒体运营：六步搭建“人工智能应用”资讯自动发文流水线

“猪茅”牧原股份港股上市布局海外，智能化与出海能否开启新增长？

华为中国合作伙伴大会2026 3月深圳启幕共绘千行万业数智化新蓝图

Anthropic再传喜讯：Claude日新增用户超百万收入增长但成本高企

宋Ultra EV预售开启：二代刀片电池加持，15.5万起重塑B级纯电SUV格局

零代码也能轻松建站？AI工具让网站搭建从技术活变简单操作

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.