信息无障碍通道
您的位置:首页>>业界动态

这个可以有!EasyDL新发布EasyData搞定AI开发中的数据管理问题

发布时间:2020-05-22  来源:互联网    背景: 无障碍通道

  在AI模型开发中,数据准备往往占据了大量时间。经过长时间的调研与访问,我们发现用户常常会遇到以下问题:

     难以获取与场景数据匹配的训练数据。在具体业务场景中,模型的效果至关重要,我们往往会追求高精度模型效果,以保证模型能做到替代人工、降本增效的最终目的。众所周知,训练数据和场景数据的匹配程度会极大影响模型表现,越贴近使用场景的数据,更有可能训练出超高精度的模型。但可能因为历史原因没有大量现场的存量数据、或者重新采集需要进行大量调研才能部署新的采集设备、又或者如果需要人工到业务现场去收集训练素材,不仅成本高,一旦业务出现变动,也很难保证数据的实时性。

  视频场景数据采集及处理繁杂。在视频监控场景中,通常是多个摄像头覆盖多角度长时间工作,产生的视频文件体积大,处理困难。对于一个最普通的130W像素摄像头在2M码流的情况下,连续工作一天24小时,将会生成约21G的视频文件。在进行视频数据处理时,仅上传下载就会耗费大量时间。对自动视频截帧、自动上传的需求呼声越来越高。

   数据量、丰富度和数据质量欠佳。好不容易采集到的大量业务数据,清洗也是一项巨大的工作,用户曾向EasyDL团队求助,自己采集好的图像数据因为拍摄角度问题出现了整体偏斜的情况,影响标注效果和模型效果;也有用户表示想快速去掉训练集中不清晰的图片,只保留高质量图片进行训练。这一系列数据清洗的需求也同时被EasyDL的研发工程师们关注着。

  在了解开发者在数据层面的诸多需求后,百度大脑团队为开发者带来了一款全新的数据产品——EasyData。从名字即可看到,EasyData围绕“Data数据”展开,重点关注AI模型开发过程中的数据采集、数据清洗、数据存储、数据标注、数据分析等环节,解决以上开发者反馈的各类数据管理问题。

  作为业内首个提供软硬一体、端云协同的智能数据采集服务的平台,EasyData可支持图片、文本、音频和视频四类数据的处理,其中图片数据支持了采集、清洗、标注一站式处理,且四类数据都已经支持将EasyData处理的数据应用于EasyDL模型训练,便于开发者直接使用。

  同时,EasyData延承了百度大脑Easy系列产品简单易用的特性,界面简洁,操作流畅。随着产品的不断升级与优化,EasyData也将会提供更多的数据方向支持,持续为开发者提供更全面与优质的智能数据服务。

  接下来,我们从图片数据采集、数据标注、数据清洗方面来了解EasyData的特色和功能。

   【采集软件助力快速获取训练数据】

  在安防监控、工业质检等诸多领域,用户的数据来源将会是摄像头或者相机,面对大量视频和图片,截帧、传输通常需要线下单独操作,费时费力。考虑到用户的这一需求,EasyData提供了一个官方采集软件,可以简单快速将摄像头的数据进行采集与截帧,并传输到数据集。目前,这个采集软件已经支持Linux、Windows操作系统,同时还支持了主流的ARM开发版RK3399。在摄像头方面,支持市面上绝大多数USB的摄像头,并同时支持RTSP网络协议的摄像头,力求最大程度覆盖用户的使用范围。

  进入EasyData首页,如下图所示,在【数据采集】的【摄像头管理】中,即可一键下载本地软件。此软件支持图形化界面配置,简单易懂。用户通过此软件,可以添加设备并根据业务需求设置抽帧策略,并将图片传输至指定目录。在这两个功能的加持之下,原始图像数据接入EasyData变得十分方便,并且完成了图片的云端管理,大量节省了单独抽帧、传输的工作量。

  如图所示,在下载图像采集SDK后,用户可以在EasyData平台中根据业务需求设置抽帧帧率、运行时间,提交之后,部署在摄像头的SDK将会根据设定自行抽帧,用户可在【查看云数据】中查看同步到EasyData的摄像头数据,并保存到数据集中,进行下一步处理或训练。

  为了进一步方便用户使用,目前已经支持同时接入多台摄像头设备。在对摄像头进行云端管理时,用户可以查看每一台摄像头的在线/离线状态,确保摄像头在线以保证数据的上传。并且,通过筛选条件,用户可以查看单个或多个摄像头采集上传的数据。

image.png

  EasyData也支持数据闭环模型优化策略,通过云服务调用获取数据,由于EasyData已经实现了与EasyDL的数据共享,这里的云服务指的是用户在EasyDL平台将模型发布为公有云API后,在授权EasyData获取API调用数据的前提下,用户可以通过EasyData查找公有云API中识别错误的数据,保存到数据集进行清洗、标注后,进行下一次模型优化训练,最终提升EasyDL公有云API调用的模型效果。

  整个流程,如下图所示:

  【多种标注方式省时省力】

  在数据标注方面,EasyData不仅支持多类数据、多种模板的人工标注,还支持智能标注。只需用户进行少量关键数据的操作(通常为完成30%左右的数据标注),即可一键化完成剩余数据的处理,在多轮标注之后,可以保证模型训练效果的持平,大大降低了数据标注的成本。目前智能标注已支持物体检测、图像分割、文本分类。

  在多人协同标注方面,EasyData可以和百度众测进行对接,未来还将推出全新的多人标注,让用户在平台直接进行标注任务的管理、分发和验收,更为便捷地完成协同操作,在短时间内完成对大量数据的处理。

  【智能清洗快速提升数据质量】

  在影响模型效果的诸多因素中,数据质量始终是一个关键问题。尤其在众多使用EasyDL进行CV方向模型开发的用户中,图片的清晰程度、被检测物体的具体位置都会对模型的最终表现产生影响。

  数据清洗是很多用户期待已久的功能。EasyData不负众望,为用户提供了这一服务。在图像方向,EasyData为用户带来了去模糊、去近似、旋转、镜像和裁剪等清洗和处理功能。其中,去模糊、去近似、裁剪等功能非常试用于视频数据抽帧后的原始图片数据处理,适用于视频监控等业务场景应用获取高质量数据。

  - 去模糊:在使用去模糊功能时,可以在图片上方看到一个清晰度调整条,通过拖拽圆点选取对应清晰度取值,将会仅保留清晰度高于此值的图片。以下图为例,当我们选择“保留清晰度大于等于此值的图片:4959”时,仅有最右侧清晰度为5000的图片被保留下来。

image.png

  - 去近似:与去模糊相似,用户可以在图片上方看到一个近似度选取条,通过拖拽圆点选取对应相似度取值,只会保存相似度高于此值的图片。以下图为例,当用户选择“两图相似度大于等于此值保留一张:0.57”时,仅有相似度为0.75的第一张图将会被保留下来。

image.png

  - 旋转:根据示例中参考图片,通过下拉框可以选择不同的顺时针旋转角度,最终针对所有图片做旋转操作。

image.png

  - 镜像:水平镜像是指将图像的左右部分以图像垂直中轴线为中心进行镜像对换;垂直镜像是指将图像的上下两部分以图像水平中轴线为中心进行镜像对换;中心镜像是指将图像以图像水平中轴线和垂直中轴线的交点为中心进行镜像对换,相当于将图像先后进行水平镜像、垂直镜像。根据示例中参考图片,通过下拉框选择不同的镜像方式,最终针对所有图片做对应镜像操作。

image.png

  - 剪裁:在随机图片中通过拖拽裁剪框边缘各点调节框大小,最终针对所有图片只保留框选出区域。

image.png

  需要注意的是,考虑到用户数据的重要性,用户在进行数据清洗之后,可以选择保留清洗前后的两个数据集,而非只能将清洗掉的数据进行彻底删除。目前,数据清洗已经支持了CV方向,在未来EasyData的不断优化中,将会覆盖更多方向,预置更为丰富的处理和清洗能力。

  为了方便用户在模型的开发中可以更好地借助EasyData的能力,进行高效精准的数据处理,EasyData与EasyDL的模型开发和训练流程已经实现了无缝对接,支持数据集直接引用到模型训练任务中,一站式获取高精度AI模型。用户可以在EasyData进行数据采集、上传与数据清洗等处理工作,无需单独在本地进行数据处理再上传,节省了操作时间,在操作界面和流程上也更为顺畅。

  EasyData的目标,旨在为用户提供一站式智能数据服务,从数据采集、上传,到数据的标注、清洗,覆盖数据管理全流程,使用EasyData一键完成数据准备,缩短模型开发时间,并帮助用户在更优化的数据加持下,训练出效果更佳的AI模型,更好地赋能各类业务场景,加速AI落地。

  立即搜索EasyData,或点击https://ai.baidu.com/easydata/,即可体验。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
BCS 2020举办区块链安全论坛 多方专家共议区块链在垂直行业的应用
8月11日下午,有着网络安全行业“达沃斯”之称的北京网络安全大会(以下简称BCS 2020),正...
日期:08-12
腾讯Q2财报:小程序交易额环比回升 公众号内容消费重焕活力
8月12日,腾讯发布二季报,数据显示,2020年上半年实现收入1148.83亿元,同比增长29%;Non-IFRS净利润301...
日期:08-12
应对联发科强劲需求,芯片测试商京元电子与矽格准备提高产能
8 月 12 日消息,据国外媒体报道,在此前的报道中,外媒曾提到在 5G 智能手机处理器方面有很大进展...
日期:08-12
摩托罗拉新机XT2081-2获FCC认证:配5000mAh电池
据外媒报道,一款型号为XT2081-2的摩托罗拉手机出现在FCC认证网站上。虽然该网站没有透露手机的营销...
日期:08-12
苏宁易购引领未来零售5G发展趋势,终端裂变重塑零售形态
近日,全场景智慧零售服务商苏宁易购与全球化监测和数据分析公司尼尔森联合发布首份零售行业5G应用发...
日期:08-12
台积电 3 家晶圆厂设备供应商 7 月营收同比大增,最高接近 80%
8 月 12 日消息,据国外媒体报道,为苹果等公司代工芯片的台积电,近几年在芯片制程工艺方面走在行...
日期:08-12
京东全资控股五星电器,成立新公司 “京东五星电器集团”
8 月 12 日消息,京东宣布全资控股五星电器,成立新公司拟定名为京东五星电器集团有限公司。
日期:08-12
BCS2020技术峰会:内生安全框架推动网络安全技术体系升级
8月12日,2020北京网络安全大会(BCS 2020)技术峰会正式召开。来自中、美、以等全球顶级的网络安全技...
日期:08-12
消息称三星与 ARM 和 AMD 合作,目标成为第一大 Android 应用处理器制造商
8 月 12 日消息 据 Business Korea 的最新报道,三星的目标是通过与 ARM 和 AMD 合作,成为第一大 A...
日期:08-12
近80% CEO预测远程办公是趋势 BCS2020举行远程办公与智能终端安全论坛
今年年初,突如其来的新冠“黑天鹅”,加速了远程办公的落地,远程办公系统与智能终端安...
日期:08-12
卢伟冰:Redmi K30 Pro因高刷缺席被喷 这次投入2亿重做K30至尊纪念版
作为Redmi的旗舰产品,Redmi K30 Pro因60Hz AMOLED屏成为不少米粉心中的小遗憾。
日期:08-12
Facebook 面临新指控:Instagram 被诉非法收集用户生物识别数据牟利
Facebook 最近又面临一项新的指控,称该公司非法收集用户的生物识别数据。这次诉讼的对象是 Faceboo...
日期:08-12
一加Nord新配色将于10月初推出 还有更便宜版本出售
据外媒消息,一加将于10月初推出一加Nord新配色——尘灰色(Gray Ash)。
日期:08-12
Realme证实C12/C15入门新机即将登陆印度市场 售价或低于10000卢比
在曝光了各种认证信息后不久,Realme 已证实将向印度市场投放 C12 和 C15 入门新机。早些时候,售价...
日期:08-12
TCL 发布 Mini LED 屏电视:最高支持 120Hz 可变刷新率
TCL 发布了最新一代 5 系列和 6 系列 Roku 电视,其中 6 系列电视最大特点是有 Mini LED 显示背光技...
日期:08-12
Nutanix混合云基础架构现已支持亚马逊云服务(AWS)
携手AWS,Nutanix Clusters支持应用云间无缝迁移及统一操作,助力企业加速云上旅程
日期:08-12
消息称可折叠苹果 iPad 2023 年发布:无铰链 + 屏下摄像头 + 3nm 芯片
关于可折叠 iPad 的讨论已经在进行中,有传言称该平板电脑的显示尺寸与 MacBook 相当。今天,推特爆...
日期:08-12
XSKY星辰天合发布全新下一代分布式文件系统XGFS
非结构化数据正以前所未有的速度增长。IDC的预测表明,到2025年,全球将有80%的数据是非结构化的。...
日期:08-12
买iPhone最值的时候来了!京东热8购物季iPhone 11低至4599元
暑假过半,考研复习进入关键时期。考研是一项全靠主观能动性的学习,调整好复习状态固然重要,但学...
日期:08-12
三星显示实现“低功耗自适应刷新率”技术商业化
近日,三星显示宣布实现低功耗“自适应刷新率”(Adaptive Frequency)技术商业化,可将OLE...
日期:08-12
  专栏介绍
郭椿砾 的专栏
郭椿砾发表的文章
积分:
自我介绍 :