滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

从被动识别到主动处理：字节跳动团队让AI学会“动手”改图片

时间：2025-12-09 04:24:18 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当手机拍摄的照片出现倾斜或文字模糊时，人们通常会本能地旋转屏幕或放大图像。然而，对于人工智能系统而言，这些看似简单的操作却构成重大挑战。最新研究显示，当前最先进的图像识别模型在处理旋转或翻转后的图片时，准确率可能暴跌超过80%，这种局限性严重制约了AI在真实场景中的应用价值。

浙江大学与字节跳动联合团队开发的CodeVision框架，通过赋予AI"动手"处理图像的能力，成功突破这一瓶颈。该系统突破传统AI被动接收输入的模式，创新性地采用编程思维解决问题——当检测到图像方向异常时，AI会自动生成代码调用旋转工具；发现目标区域过小时，会编写裁剪指令进行局部放大。这种将代码作为通用接口的设计，使AI能够灵活调用任何图像处理功能，甚至组合多个工具解决复杂问题。

研究团队构建的MVToolBench基准测试显示，在需要多工具协作的任务中，CodeVision-7B模型得分达到60.1分，较第二名提升近一倍。在OCRBench数据集的180度旋转测试中，基础模型准确率仅58%，而经过训练的同规模模型提升至73.1%；垂直翻转场景下，基础模型17%的准确率被提升至67.4%。这些数据印证了新框架在处理非标准图像时的显著优势。

该系统的训练过程融合监督学习与强化学习策略。初期通过5000个精心设计的案例，教授AI基础工具使用方法，包括单工具操作、多工具组合及错误处理等场景。随后采用强化学习优化策略选择，其奖励机制设计尤为精妙：不仅关注最终结果正确性，更奖励工具使用的合理性。当图像确实需要旋转时，系统会强制要求使用旋转工具才能获得奖励，防止AI通过投机方式获取高分。

实验表明，CodeVision展现出超越预期的涌现能力。在未接触过的新工具面前，系统能自主探索其功能；面对复杂任务时，可创造性地将多个操作合并执行；当代码执行失败时，能分析错误信息并自动修正策略。这种自我优化机制，使AI在处理既需旋转又需裁剪的复合任务时，能先编写90度旋转代码，再精准定位目标区域进行裁剪，最终准确回答问题。

技术实现层面，研究团队构建了安全的代码执行沙盒，支持主流图像处理库如OpenCV、PIL的调用。模型架构基于Qwen2.5-VL系列改进，通过专项训练实现视觉理解、代码生成与工具调用的有机整合。训练数据覆盖手写文字、野外OCR、表格图表等多个领域，并开发自动验证机制确保数据质量。强化学习阶段采用的GRPO算法，通过比较8个不同解决方案的奖励值，引导模型学习最优策略。

尽管取得突破，研究团队也指出当前局限：工具类型仍集中于基础图像操作，未来需整合图像生成、三维处理等更复杂功能；目标定位精度有待提升，模型有时会过度裁剪以确保包含目标；计算成本较传统方法有所增加。针对评估基准，现有测试主要聚焦文本相关任务，后续需扩展至更多视觉推理场景。

这项技术已展现广阔应用前景。在文档处理领域，可自动纠正扫描文件的倾斜角度；教育场景中，能优化学生上传的模糊作业图片；医疗影像分析时，可自动调整CT片的对比度和方向。社交媒体平台可利用该技术自动优化用户上传的图片质量，工业检测系统能动态适应生产线上的图像变化，无人驾驶视觉模块也可通过实时图像优化提升环境感知能力。

CodeVision框架的突破性在于推动AI从被动感知向主动操作演进。这种转变标志着AI系统开始具备类似人类的"元认知"能力——不仅知道如何思考，更懂得创造更好的思考条件。当AI学会通过调用工具优化自身工作环境时，其处理现实世界复杂问题的能力将实现质的飞跃，为通用人工智能的发展开辟新路径。

01-25

特斯拉Optimus人形机器人新动向：将赴奥斯汀工厂“实习”学技能

01-25

realme回归OPPO：多品牌策略遇阻，OPPO体系如何破局？

01-25

抖音就孙涛网暴事件发声：营销号恶意造谣，已下架超八千条视频并封禁账号

01-25

为家中长辈挑选助听器不再愁！五款高性价比之选，畅享清晰交流

其次，操作便捷性也很重要，老人可能对复杂的操作不太熟悉，因此简单易懂的操作方式能让他们更轻松地使用助听器。此外，音质效果也是不可忽视的，清晰自然的音质能让老人更好地听到声音，提升交流体验。接下来，我将为大家详…

01-25

科大讯飞学习机大比拼：S30、T30、T30 Ultra，AI精准学谁更胜一筹？

作为中端机型，S30在一些高阶AI功能和硬件细节上做了权衡，例如可能没有配备可升降摄像头，AI作文批改的深度可能不如更贵型号。它在S30的基础上，将AI精准学的能力从“知识点诊断”深化到了“学习过程诊断”。…

01-25

百度：十四载AI深耕路，从误解中破茧，以长期主义驶入价值快车道

对于已经建立了“芯-云-模-体”全栈协同体系的百度来说，昆仑芯、百度智能云和文心大模型组成的基础技术底座，与萝卜快跑以及智能体矩阵等具体应用的生态协同已经自成一体，其产品成熟度有目共睹——罗永浩数字人在Mo…

01-25

跨越“死亡谷”：百度以长期主义在AI赛道走出系统性优势之路

对于已经建立了“芯-云-模-体”全栈协同体系的百度来说，昆仑芯、百度智能云和文心大模型组成的基础技术底座，与萝卜快跑以及智能体矩阵等具体应用的生态协同已经自成一体，其产品成熟度有目共睹——罗永浩数字人在Mo…

01-25

北京车展重磅来袭！全新宝马iX3长轴距版登场，900km续航成亮点

01-25

2026年中国商业太空游启航：院士明星机器人共赴星海，票价300万引热议

这是一家创立仅三年的企业，却敢于同时进行可重复使用飞船研制与太空旅游运营两项工作。技术团队透露，“穿越者壹号”每次飞行可带6至7位乘客，目的地是在人类航天界被认定为空间边界的卡门线，约一百公里高。太空旅游…

01-25

阿里平头哥或独立上市国产AI芯片赛道添劲旅资本化进程再提速

01-25

奥迪Q2L：小型豪华SUV新标杆，潮流设计邂逅智能科技，年轻人的个性之选

作为一款面向年轻用户的车型，奥迪Q2L在智能科技配置上毫不吝啬，提供了丰富的车联网和驾驶辅助功能，让出行更加便捷、安全。作为一款面向年轻用户的车型，奥迪Q2L在智能科技配置上毫不吝啬，提供了丰富的车联网和驾驶…

01-25

大众凌渡：以宽体轿跑之姿，精准契合年轻一代个性出行新需求

为迎合年轻消费者的审美偏好，大众凌渡在外观和内饰设计上融入了大量年轻化元素。为迎合年轻消费者的审美偏好，大众凌渡在外观和内饰设计上融入了大量年轻化元素。为迎合年轻消费者的审美偏好，大众凌渡在外观和内饰设计上融…

01-25

奔驰GLE：豪华中大型SUV典范，越野激情与舒适驾乘的完美交融

本文将围绕奔驰GLE的设计、动力系统、越野性能、豪华配置以及市场定位等方面展开详细解析，带您深入了解这款兼具越野与舒适双重体验的豪华SUV。本文将围绕奔驰GLE的设计、动力系统、越野性能、豪华配置以及市场定位…

01-25

阿里平头哥或独立上市国产AI芯片赛道将添资本化新力量

01-25

点击查看更多 +

全站最新

科大讯飞学习机大比拼：S30、T30、T30 Ultra，AI精准学谁更胜一筹？

冰面飞坡破纪录！长安CS75PLUS以硬核科技诠释“用户安全”新高度

每87秒下线一台车身东风商用车D600智慧工厂开启全球最大中重型商用车智造新篇

七代后期与八代早期GTI大比拼：性能、配置、养护谁更胜一筹？

比亚迪加速全球化布局：2026年海外销售瞄准130万辆，本地化生产持续发力

百度：十四载AI深耕路，从误解中破茧，以长期主义驶入价值快车道

热门内容

本栏最新

科大讯飞学习机大比拼：S30、T30、T30 Ultra，AI精准学谁更胜一筹？

百度：十四载AI深耕路，从误解中破茧，以长期主义驶入价值快车道

跨越“死亡谷”：百度以长期主义在AI赛道走出系统性优势之路

北京车展重磅来袭！全新宝马iX3长轴距版登场，900km续航成亮点

奥迪Q2L：小型豪华SUV新标杆，潮流设计邂逅智能科技，年轻人的个性之选

大众凌渡：以宽体轿跑之姿，精准契合年轻一代个性出行新需求

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.