滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI难担数据科学大任？明尼苏达大学研究：人机协作方为破局之道

时间：2026-03-30 19:46:23 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

数据科学领域正经历一场由人工智能驱动的变革，但最新研究显示，人类专家的核心价值仍不可替代。明尼苏达大学多学科团队在arXiv平台发布的预印本论文（编号：arXiv:2603.19005v1）中，通过系统性实验证明，在需要专业领域知识的复杂任务中，AI智能体的表现显著落后于人类数据科学家。这项研究通过创建名为AgentDS的基准测试平台，对29支参赛队伍的80名参与者进行了为期十天的竞赛评估，揭示了人机协作的独特优势。

研究团队设计的17个挑战任务覆盖电商、医疗、制造等六大领域，每个任务均要求结合行业知识才能取得优异成绩。例如在医疗健康领域，参赛者需将患者生命体征与医学标准范围对比，构建反映生理稳定性的特征指标；食品生产领域则要求分析产品图像与微生物生长数据的相关性。这些任务刻意设置了多模态数据障碍，除表格数据外，还包含图像、文本和结构化文件等复杂信息源。

实验结果呈现明显分化。直接使用GPT-4o的基线系统仅获0.143分，在29支队伍中排名第17位，甚至低于人类参赛者的中位数表现。升级版Claude Code智能体系统虽取得0.458分，但与顶尖人类团队仍存在显著差距。特别在零售银行领域，GPT-4o得分归零，电商领域也仅得0.021分，暴露出AI处理多模态数据的严重缺陷。研究人员指出，AI系统过度依赖标准化流程，在需要创新思维的任务中表现乏力，例如某团队尝试的完全自主多智能体框架，因提示工程成本过高而被迫放弃。

人类专家的优势体现在四个关键维度。战略性问题诊断能力使顶尖团队能够识别模型校准偏差、数据分布差异等结构性问题；领域知识注入能力让医疗团队构建出反映临床流程的特征指标；批判性筛选能力帮助参赛者过滤AI生成的过度复杂方案；综合判断能力则使他们能超越验证分数，评估模型的泛化风险。某团队在17个挑战中验证发现，基于领域知识的特征工程始终优于自动化处理，这一结论直接挑战了AI完全自主化的技术路线。

人机协作模式展现出超越单方的效能。成功团队普遍采用"人类决策+AI执行"的分工策略：人类负责特征工程选择、模型比较策略等核心决策，AI则承担数据加载、初步分析等计算密集型任务。这种迭代反馈循环中，人类始终掌控战略方向，AI加速实现过程。例如某制造业团队通过人类诊断数据分布偏差，指导AI调整特征提取方式，最终将模型准确率提升37%。研究显示，这种协作产生的解决方案质量，超过任一方单独工作的效果总和。

基准测试设计凸显三大创新。领域特异性复杂度要求任务必须依赖专业洞察，通用方法仅能达到基线水平；多模态整合引入图像、文本等异构数据，贴近真实业务场景；现实世界可信度通过合成数据生成过程实现，该过程严格遵循行业数据关系模型。数据生成包含领域研究、数据合成、难度校准和文档验证四个阶段，确保挑战任务既反映真实问题，又具备可评估性。

评估体系采用分位数评分法，将不同指标的性能标准化为0-1量表。参与者按挑战排名获得分位数分数，领域分数为该领域挑战得分的平均值，总体分数则是六个领域分数的均值。这种层次聚合机制确保每个挑战贡献相等，破平局规则则鼓励深思熟虑的提交策略。竞赛期间，某团队通过优化提交顺序，在相同得分情况下凭借提交效率优势提升排名。

实际竞赛组织兼顾公平性与真实性。29支参赛团队需在十天内完成挑战，每队每任务最多提交100次方案。AI基线系统包含直接提示和智能体编程两种模式，前者通过单次交互生成完整代码，后者可迭代改进方法但需固定时间预算。人类参赛者的代码分析显示，成功团队普遍采用交互式编程智能体，其中人类引导问题解决过程，AI执行具体任务。这种模式使某团队在保险业务挑战中，将风险评估模型的准确率提升至行业专家水平的1.2倍。

研究同时指出当前局限。合成数据虽反映真实关系，但未包含行业数据的全部复杂性；首届竞赛的参与者规模和领域覆盖有待扩大；AI技术的快速发展可能使现有结论产生变化。针对这些局限，研究团队计划扩展基准测试规模，纳入能源、金融等新领域，并开发评估解决方案可解释性的高级指标。某能源团队已利用AgentDS框架，成功构建出同时考虑电网负荷与可再生能源波动的预测模型，验证了基准测试的扩展潜力。

03-30

上海“AGI4S珠穆朗玛计划”启航，以全要素协同托举科学原创新高度

03-30

马克·古尔曼爆料：iOS 27全新Siri应用将至，“扩展”功能或引AI交互新变革

03-30

NVIDIA力推800VDC电力架构为下一代AI数据中心注入新动力

03-30

4月19日人机同场竞技！王兴兴：人形机器人半马将突破1小时大关

03-30

北京互联网法院判定：利用AI生成不实内容侵害名誉权需担责

03-30

最懂开发者的城市！上海已发布超150款备案大模型，集聚 30 万 AI 人才

03-30

具身智能的“ChatGPT时刻”：宇树科技王兴兴预测两年内到来

03-30

DeepSeek已恢复服务：此前公告服务出现重大中断

03-30

报告：AI 驱动的流量正在有效取代人类

03-30

生态环境部：人工智能赋能生态环境治理，监测监管双提升成效显著

在监测方面，人工智能技术正逐步深入嵌入生态环境监测，并实现业务化的应用，以生物多样性识别为例，生态环境部现在通过鸟类图像声纹识别、植物物种图像智能识别等技术，原本一年一次的监测，现在可以实现全年连续监测。 …

03-30

Deepoc具身模型开发板：让采摘机器人“手眼脑”协同迈向智能新高度

Deepoc具身模型开发板通过引入VLA（视觉-语言-动作）模型架构，为采摘机器人构建了“手眼脑”协同的智能闭环，彻底打破了“看不清、抓不稳、想不明”的技术死结。当农户发出“优先采摘红透的番茄”这一模糊指令时…

03-30

华沿机器人（01021.HK）港股首挂涨超21% 获高瓴等基石青睐前景可期

从日前招股阶段的表现来看，香港公开发售方面，获5059.38倍认购，公开发售的发售股份最终数量为1615.70万股，占发售股份总数的约17.4%；合计获得约22.71万份有效申请，受理申请数目约6.63万份…

03-30

广东启用人形机器人自动化产线年产能破万柔性设计助力高效生产

IT之家 3 月 30 日消息，据人民财讯报道，全国首条年产能达万台级别的人形机器人自动化生产线于 3 月 29日在广东正式启用，标志着中国人形机器人产业率先迈入大规模量产新阶段。 IT之家从报道获悉，该产…

03-30

华沿机器人港股鸣锣上市，CEO王光能：以技术深耕开启全球化新篇

我们将始终坚守‘用机器人技术为人类服务’的发展初心，持续推动机器人与AI的深度融合，以更智能、更柔性的机器人产品赋能千行百业。” 王光能最后表示：“港股上市只是阶段性里程碑，我们将以此为新的起点，持续推动研发…

03-30

点击查看更多 +

全站最新

图解丨南下资金净买入腾讯，净卖出阿里和中芯国际

高盛：市场悲观情绪接近极限一旦战争局势降温股市或大幅反弹

广汽2025年年报:"新广汽"轮廓逐渐清晰

赛克赛斯三闯IPO，专注于医疗器械领域，近5年累计分红3.23亿元

皇冠新材深主板IPO，聚焦复合材料领域，面临原材料涨价风险

美股异动 | 力拓盘前涨超3% 恢复皮尔巴拉三处港口码头运营

热门内容

本栏最新

长城汽车2025年营收创新高，高端化布局与研发投入共促稳健增长

中联重科“巨无霸”起重机亮相随州，核心技术突破助力智能工厂高效生产

李文正深度剖析：Agentic AI时代，AI大模型从“对话”迈向“多体协同”新征程

长安汽车巴西工厂竣工投产首辆本土制造UNI-T下线开启拉美新征程

众智FlagOS 2.0重磅登场：32款芯片全支持，八大突破引领智能体时代新发展

AI流量增速远超人类，代理型AI崛起：互联网商业与安全面临双重重构

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.