模型优化难？百度智能云EasyDL模型评估全新升级助力精度快速提升

时间：2021-03-22 16:00:43 来源：互联网编辑：星辉 发表评论无障碍通道

近些年深度学习持续发展，在视觉、自然语言处理、语音等各个技术方向都诞生了创新智能应用，例如智能识别医疗图像中的病灶，辅助医生做病情诊断;智能判别生产线上有质量问题的产品，减轻人工质检压力;对政务、金融等流程中的证件票据进行信息识别，加速审批并实现流程电子化;识别用户输入的语句，与知识库中相应的问答进行匹配，实现智能客服问答等。随着智能应用的爆发式发展，如何构建高精度的AI模型成为每个企业都在持续探索的命题。

构建深度学习模型的过程中，当遇到模型效果不能满足要求，需要进一步定位问题和调优效果，由于深度学习模型又是一个“黑盒”，开发者并不知道当它做出一个错误预测的准确原因，因此很难采取有针对性的效果优化策略。这个时候就非常让人头疼了。

其实，碰到模型效果不佳时不用慌，虽然模型“黑盒”，但是通过一些技术积累和功能设计，可以从多个角度去了解它到底怎么“想”，为模型优化特别是在数据上如何优化提供思路和指导。

在企业AI开发中，快速对模型效果进行评估、定位模型问题，高效完成模型效果优化是AI应用落地中的重要环节。针对这一诉求，百度飞桨企业版EasyDL零门槛AI开发平台在原有完善详实的模型评估报告基础上，进一步新增上线了混淆矩阵和CNN热力图功能，即使大家对深度学习了解不多，也可以快速依据可视化评估结果制定更为精准的优化方案。下面将为大家逐一介绍模型指标、错误示例(BadCase)、混淆矩阵、CNN热力图等各个功能。

EasyDL模型评估提供多项指标，多角度展现模型效果信息

EasyDL基于飞桨开源深度学习平台，面向企业AI应用开发者提供零门槛AI开发平台，实现零算法基础定制高精度AI模型。EasyDL提供一站式的智能标注、模型训练、服务部署等全流程功能，内置丰富的预训练模型，支持公有云、设备端、私有服务器、软硬一体方案等灵活的部署方式。

目前，EasyDL通过百度智能云已经服务超过80万企业用户，在工业制造、安全生产、零售快消、智能硬件、文化教育、政府政务、交通物流、互联网等领域广泛落地。

在EasyDL完成模型开发后可以获得平台提供的各项详细的模型评估指标，以图像分类模型为例，除了整体的准确率之外，还可以看精确率、召回率、F1-score、TOP5准确率等。

除了模型整体的指标之外，还可以看每一项类别的F1-score值，从而帮助开发者发现具体哪一类别的识别效果较差。针对这些较差的类别，开发者可以有针对性地去看那些被预测错误的样本，也就是常说的BadCase。开发者可以检查这些类别是否样本量过少，需要补充数据;是否有脏数据存在，影响了模型学习。

在物体检测上也类似，整体指标上可以观测mAP、最佳阈值下检测的精确率、召回率等。因为检测模型会输出很多的检测框，而有相当一部分检测框的概率比较低，一般会设置一个阈值来过滤掉那些低概率的检测框。通过设置不同的阈值，模型便会有不同的精确率、召回率和F1-score。在模型预测时，通常取F1-score最高的阈值当做最佳阈值，这样能够较好地平衡精确率和召回率，尽量减少漏检、错检等问题。

与分类任务类似，在物体检测模型的评估中也可以查看各个类别的精度，来判断哪些类别的检测效果欠佳。找到这些问题比较大的类别之后，同样也可以查看BadCase。检测问题里的BadCase详细区分了“误识别”和“漏识别”这两种情况，从而方便开发者看检测出错的各类情况。开发者可以检查对应类别的标注框是否过少，是否有框标注错误需要修正。

新增混淆矩阵与热力图两大功能，高效展示模型效果问题

除了上面这些经典常用的方法外，为了更有针对性地比较易混淆的类别，EasyDL近期重磅上线了混淆矩阵的功能。在混淆矩阵中，开发者可以方便地看到具体哪两种类别之间容易产生混淆，例如，类别A较多地被识别成了类别B。根据这些信息，开发者可以发现是不是训练数据存在问题，例如相似类别的图片有标注错误;或是这些相似类别的图片太少，导致模型没有学习充分。开发者可以依据混淆矩阵提供的信息，对模型数据进行补充与调整。

看到这里，你会发现，EasyDL在评估模型效果时，通常是从数据的角度去发现现有模型的问题，通过优化数据来优化模型效果的。为什么会选择这样的策略呢?在深度学习领域有一句话很流行，“Garbage in , garbage out.”意思就是说如果开发者给了深度学习模型一堆标注质量差的“垃圾”数据，就会得到一个精度很低的“垃圾”模型，这句话时刻提醒开发者，数据质量与模型效果直接相关。因此，从数据角度进行模型效果的问题定位、并配合相应数据的调整，往往是最直接高效的。对于EasyDL的企业应用级开发者而言，从数据角度解决问题，不要求用户进行高深的算法研究，可以零代码快速提升模型精度。

除了上面这些方法外，还有一些更专业的透视模型手段，被业界称之为模型可解释性方法。飞桨开源了业界主流的可解释性方法在GitHub上，这里面既包括基于输入特征的方法(如Intergrated Gradients, SmoothGrad, LIME等)，也包括基于中间特征的方法(如GradCAM，ScoreCAM等)。大家可以点击链接查阅：https://github.com/PaddlePaddle/InterpretDL 。

在这些方法中，针对CNN网络有一个观察网络中激活情况的技术，可以更深入地了解模型的行为。这也是EasyDL模型评估热力图功能的技术基础。

以CAM算法为例，在CNN网络的最后一个特征图(Feature Map)上，哪些位置被激活是非常重要的信息，它直接影响后续网络中分类器的判断。但是这些特征图除了长宽两个维度外，还有一个通道的维度，开发者如何才能把不同通道的特征图叠加到一起呢?CAM提供一种加权的方法，即根据最后一个全连接层中的权重来加权。如上图示例，如果开发者想观察“狗”这个类别的激活情况，那么就把全连接层中各个通道到狗这个类别的权重W1, W2, …, Wn找出来，然后用这些权重对各通道特征图进行加权求和，就会得到一个两维的激活状态图。从这个状态图中，开发者可以看到原图里狗出现的位置被激活了，而其他区域(如人)则数值很小，没有对预测起作用。通过这样的“透视”，开发者可以更深入地了解模型内部的运作情况，一定程度地理解模型为什么得到了某个预测结果。根据这些信息，开发者可以选择通过补充、优化数据来引导模型学习地更好，也可以选择通过调整模型结构来优化模型的表现。

有些方法不仅适用于CNN的视觉模型，也适用于自然语言处理模型和传统机器学习模型。EasyDL也会不断集成相关能力。比如NLP的情感分类任务中，我们想知道为什么文本模型对一句话预测为正面或负面的评论。利用积分梯度(Integrated Gradients)的方法，在文本模型中把全零的嵌入向量作为基线，得到当前嵌入向量的积分梯度。从而反应不同输入词对预测结果的影响，可视化结果如下图：

使用EasyDL进行模型开发，在模型的评估中不仅可以参考各项详细指标来进行模型效果判断，还可以参考全新上线的混淆矩阵和热力图，以可视化、更精准的方式来定位模型效果不佳的原因，从而采取有针对性的效果提升策略。

近期，为帮助开发者从数据处理、模型训练、服务部署这三步来迅速掌握模型定制开发技能，百度EasyDL携手CSDN打造《AI开发精讲：高精度视觉模型定制与部署实战》系列课程，多位资深研发与产品经理深入探讨开发难点与解决方案，三节课重点全掌握!

点击链接立即报名：https://edu.csdn.net/huiyiCourse/detail/1550

便携大屏让使用更便利，S Pen为学习与工作赋能，一直以来，三星Galaxy FE系列平板都以多元化功能和对消费者需求的深入洞察，成为用户的好伙伴。而随着人工智能时代的到来，新一代三星Galaxy Tab S10 FE系列也同样焕新而至，将高效、强悍、稳定的体验与丰富实用的三星智

自英伟达推出RTX 50系列显卡以来，强大AI算力和游戏性能引起全球玩家的高度关注，继高端型号悉数亮相后，备受广大玩家期待的RTX 5060Ti中高端显卡于4月17日正式面世!宏碁作为全球领先的科技企业，暗影骑士·焕作为首批搭载RTX 5060Ti显卡的台式机第一时间开售，为更多玩

4月12日~13日，为期2天的ROG DAY 2025已圆满落下帷幕。不仅发布并展示了一系列ROG潮酷新品，包括ROG CROSSHAIR X870E EXTREME、ROG B850小吹雪、华硕天选B850主板初音未来版等，以及以华硕主板为核心的高能全家桶，让现场玩家放肆玩!特别是“液氮超频实验局”现场液氮超

4月12日至13日，ROG DAY 2025粉丝嘉年华在长沙远大城金字塔圆满落幕。这不是普通的科技展会，而是一场由ROG LAB灵感实验室进行的硬核玩家朝圣之旅。更是为期两日，高能不断的装备进化狂欢盛宴!不止有新发布的ROGROG CROSSHAIR X870E EXTREME主板、ROG B850小吹雪主板和

当“浅春系”开始席卷各大社交平台，所有时髦精都在为打造春日风穿搭而努力。前有时尚博主发布浅春系穿搭公式，后有人们迎着明媚天气肆意享受自然气息，在“浅春系”这个赛道，索尼也带来了点亮春季的实用单品：高性能头戴降噪耳机WH-CH720N推出了惊喜新色，以蕴藏春日

2025年4月10日,中国显示器市场外资第一品牌飞利浦显示器,携全国终端渠道合作伙伴在福建泉州,隆重举办了以“AI焕视,E飞冲天”为主题的2025年渠道合作伙伴会议。2025年飞利浦显示器渠道大会隆重召开冠捷科技总裁宣建生博士通过视讯会议的方式参会并做重要讲话。冠捷科技资

4月12日，ROG玩家国度在长沙市远大城金字塔盛大举办了2025 ROG DAY活动。更为各位玩家带来了一场别开生面的ROG LAB“灵感实验室，冲破次元壁”新品发布会。华硕电脑开放平台中国区总经理俞元麟化身实验室社长，和闫紫境GwAwa一起带领虚拟实验室社员及现场共创者，为大家

备受内容创作者关注，由NVIDIA® GeForce RTX™ 5080笔记本电脑GPU驱动澎湃性能的专业性能轻薄本，ROG幻16 Air 2025现已正式开售。GeForce RTX™ 50系列笔记本电脑GPU搭载NVIDIA Blackwell架构，为游戏玩家和创作者带来全新玩法。RTX™ 50系列具备强大的AI算力，RTX™ 5

近期，根据洛图科技《中国耳机耳麦零售市场月度追踪》报告数据显示，2024年，中国耳机耳麦市场的全渠道销量为2.18亿副，同比增长7.6%;销额为428亿元，同比增长9.8%。这已经是中国耳机耳麦市场连续第五年保持增长的态势。而在中国耳机耳麦传统主流电商500元以上高端市场

2025年4月10日，海辰储能在第十三届储能国际峰会暨展览会(ESIE 2025)上重磅发布尺寸为73.5*286*216mm (W*L*H) 的∞Cell 587Ah储能电池及搭载该款电池的∞Power 6.25MWh 2h储能系统。∞Cell 587Ah储能电池已于2025年4月份开始全球送样，∞Power 6.25MWh 2h储能系统将在20

(2025年4月10日)今天，富士胶片商业创新(中国)有限公司与成都一扇窗公益服务中心举行了“富士胶片商业创新(中国) X 一扇窗计划”爱心捐赠仪式。富士胶片商业创新(中国)董事长兼总裁中村达也、副总裁朱德康代表公司向“一扇窗”及其帮扶学校河南周口小学捐赠了彩色数码多

一直以来，电池相机以其灵活的无线安装和使用便捷性，深受大众喜爱。然而，传统电池相机存在诸多技术壁垒，如：录像不完整、续航能力差、网络不够稳定等，导致用户体验感不够省心。近日，乐橙推出B7E-AOV智能电池相机，通过创新省心科技，延续了传统电池相机无线安装和

来源：量子位作者：金磊梦晨家人们，你知道近段时间大火的各种大模型一体机，里面到底是什么卡吗?相信很多小伙伴的第一反应，或许就是N卡。但在我们接触、体验了真实的大模型一体机之后，发现了一个大写的“万万没想到”：没错，里面也可以是英特尔的锐炫™ 显卡！那

当气温回暖唤醒街头的色彩感官，时尚的语汇也随之切换频道——从玻璃橱窗的装置美学到都市丛林的灯影流光，崭新的穿搭潮流已在潜移默化中悄然来临。作为时尚弄潮儿的你，如果也在为应季穿搭的时尚单品而纠结，不妨考虑下许多达人们力荐的智能穿戴设备——如三星Galaxy R

4月8日，2025年FIFA世俱杯全球官方空调——海信新风空调X3Pro挂机正式开启预售。这款新品不仅以行业首创的双新风口对流技术和AI省电41%两大核心科技引发行业热议，在2025AWE展上吸引了包括国际足球巨星萨内蒂、奥运冠军陈梦、搜狐创始人张朝阳等多位大咖的驻足体验与点

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.