您的位置:首页>>业界动态

85后女硕士改进主题建模算法 提升百度数据训练能力

发布时间:2012-08-09 11:31:22  来源:互联网    背景:

(从左至右:百度商务搜索部贾宁 苏州大学叶芸 百度商务搜索部张翼)

  “ 在线学习 的 主题建模 算 法 ” 攻破互联网海量数据挑战

  海量数据的分析能力被 IT 界视为最具商业价值的技术突破口之一,而这也是影响互联网用户体验的重要关键点。搜索引擎是互联网分发流量最大的入口,每天数十亿次的搜索请求包含了众多信息,目前百度收纳的网页已经超过 2000 亿,如何从大规模数据集中快速获得有效信息可谓是技术界机器学习领域的最大热点。 “ Topic Model( 主题模型 ) 技术是分析和理解海量文本信息的有效手段,在百度网页搜索质量和商业流量变现中都发挥着非常重要的作用”,百度商务搜索部高级工程师贾宁说到。贾宁所在的商务搜索部是百度负责搜索流量变现的核心部门,“ 每天都有新想法在尝试, 技术创新是推动凤巢 ( 百度搜索广告系统的代号 ) 不断提升的重要动力” 。

  来自苏州大学的叶芸今年七月实现了主题建模领域一项 重大 的技术突破,经她 改进 的在线学习 主题建模 算法 ( online-topic-model ) 可以快速处理大规模的数据集, 高 效实时的处理大规模数据流,及时捕获亿万网民搜索需求的变化趋势,获得更准确有效的主题。 叶芸在介绍她的技术成果时说:“ 这种方法就好比一个生产流水线,我们传统的数据处理方式相当于把一个产品的各个零部件凑齐后再组装,也就是收集大量数据后统一进行分析,而在线学习就等于流水线上来一个零件我们就组装一个,整个过程非常高效,不必等待全部的零件聚齐才能组装。 ”

  而 从效能的角度上来看,叶芸解释道,在线学习比起离线学习算法来说有 三大优势 。“首先,离线算法将整个数据集作为处理对象,因此对内存容量要求很高,但在线学习就可以分段处理,节约内存。其次,这种在线学习算法可以容纳更海量的数据处理要求,在数据量达 到一定规模时就呈现出极好的优势,能缩短耗时,并完成传统算法不能解决的任务。第三,离线算法对数据流形式的数据集束手无策,可在线学习算法却能在不耗费更多成本的情况下轻松完成。”

  百度校园 主题研究项目 :做“以问题为导向”的研究

  谈起这项成果的产出,叶芸认为, 正是苏州大学与 百度校园 在主题研究项目上的合作为 自己 创造了与百度结缘的机遇 ,叶芸在百度实习 期间 同时得到了基础架构部和 百度资深工程师 贾宁和张翼 的全力支持, 她认为百度技术 导师对她的启发 是最大的, 帮她克服了项目实现过程中不少技术困难。 “在新开发的技术和原有底层技术上做研发,既要具备很强的学习理解能力,也要拿出具有兼容性的创新方案。在百度海量的数据集和高性能的硬件支持下进行科研工作, 跳脱出理论阶段, 验证自己的观点, 做有用的研究 是件极有成就感的事。”

  百度商务搜索部的贾宁和张翼作为叶芸的技术导师也为这项 突破性的技术成果 而感到振奋。 张翼说:“ 在百度,即使是实时数据流,也是非常巨大的,动辄以千万甚至亿计。叶芸把在线学习和大规模并行学习做了一个出色的融合,能够处理“大规模数据流”,因此才能深入挖掘和建模百度的海量数据,准确捕捉网民的需求变化,并优化广告检索,提升网民体验。” 百度商务搜索部的贾宁也认为叶芸实现了百度数据训练的处理能力的重大 创新和 突破。 “ 在数据训练这个模块,我们原本只能处理四五千万的数据,现在可以逐步分析多达几亿甚至几十亿的数据量,数据处理能力大大提升,对数据流的变化 也 有 了 更好的掌握。 ”

  百度校园品牌 总监张高博士表示:“ 我们把百度工程师在实际工作中遇到的技术问题与高校分享,通过 开放研究计划的形式和各大高校合作 , 力求找到切实可行的 解决 方法 。我们设计的基于百度数据的主题研究项目, 每个学校都有机会参与进来,获取百度提供的相关数据,共同开展研究。我们希望创造 出 更多符合互联网实际应用 需求的新技术,为数亿网民的搜索体验带来提升,也为互联网技术的创新 注入更多 的 新能量。 ”

  三. 新 技术有望申请专利

  苏州 大学的特聘教授曾嘉是叶芸的导师,他认为这项研发成果是校企联合过程中一个非常可喜的成果。 “ 我们在学校计划开发在线消息传递算法( online belief propagation )是对主题模型 LDA ( latent Dirichlet allocation )的优化 , 叶芸同学在百度实习的过程中,在兼顾企业原有底层技术的同时,经过优化研发出了真正适用于实际情况的在线学习算法,甚至结合了 百度 技术部门最新开发的技术,使得在线学习 的主题建模 算法更为贴合企业实际应用的创新。学术力量产出真正具有商业价值的成果,确实是一个令人兴奋的消息。”

  8 月底,此项技术将在百度正式投入应用, 并计划开展 技术 专利 的申请 工作 。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
友情提示:评论功能暂时关闭,请扫描上方二维码进群交流!
百度Q2财报净利24亿 李彦宏要求内部不忘初心
北京时间8月20日,百度发布第二季度财报,其季度总营收为263亿人民币(约38.4亿美元),远高于华尔街...
日期:08-20
Q2再夺国内第一,“出海之帆”小度剑指谷歌亚马逊
小度在2019年一季度首拿中国智能音箱市场出货量第一,行业有一种看法是:小度一季度登顶与百度春晚...
日期:08-20
2019深度学习框架排行榜(从TOP 10到TOP 3)
1.写在前面
  5G可以说是2019年上半年十分闪耀的那颗“星”了,美方还不惜代价地...
日期:08-20
百度Q2财报逆势上扬 李彦宏的AI成绩单战功显著
8月20日,百度发布2019年第二季度未经审计的财务报告:实现总营收263亿元人民币,净利润24亿元人民...
日期:08-20
iFLYTEK星球大展前,有些故事想说给你听
纵横交错的空中轨道、斑斓色彩的街边招牌、云雾与阴雨包裹的高耸大楼、人声鼎沸的火锅小店…&...
日期:08-20
消息称网易阿里谈崩 考拉不再卖身
最新的消息是,双方的谈判已于下午结束,网易公司董事局主席兼首席执行官丁磊最终否决了该收购案。
日期:08-20
招募!与世界顶级大师面对面
25年前,摄影师Steve McCurry(史蒂夫·麦凯瑞)在印度斋普尔的一条街上拍了位补鞋匠。今年,他重...
日期:08-20
第八届中国双创大赛新乡分赛:报名和晋级数创新高,8强挺进省决赛
8月16日,第八届中国创新创业大赛河南新乡分赛区暨2019新乡市创新创业大赛决赛及颁奖仪式,在高新区...
日期:08-20
来电科技与梦次元达成深度合作 联合举办动漫游戏展览
近日,第二十二届(M22)梦次元夏日祭动漫游戏展在北京落下帷幕,展览日吸引2万余人参加,来电科技作...
日期:08-20
无惧禁令影响,华为上半年太阳能逆变器出货排名第2
芯科技消息(文/罗伊)集邦科技绿能研究(EnergyTrend)最新《台湾地区电站项目整合报告》指出,台湾今...
日期:08-20
realme XT宣布:6400万AI四摄加持 9月亮相
红米预计在本月底首发6400万像素,realme 6400万紧随其后亮相。
日期:08-20
外媒曝光第五代Apple Watch渲染图:陶瓷版回归
随着苹果发布会的日益临近,越来越多有关苹果今年即将发布的新品信息被曝出。近日有外媒再度泄露了...
日期:08-20
华为反击 谁先坐不住?
  (原标题:华为反击,再向前迈进一大步!但这次,先坐不住的竟是“联想”? )
日期:08-20
江山代有IP出 2019超级IP生态大会路演·北京站6强诞生
8月的北京骄阳似火,比气温更火爆的是一场具有文化气息的“炫技”活动。由网赢天下网主办...
日期:08-20
魅族UR模块化定制手机计划曝光 由内到外皆可定制
模块化手机在我们的视线中已经消失很多年了,近日,外媒曝光了魅族一张官网页面照片,显示为魅族新...
日期:08-20
iPhone 11系列邀请函疑似曝光,曝光消息大盘点
今日有知情人曝光疑似iPhone 11系列发布会邀请函,根据邀请函内容显示,iPhone 11系列将在9月10号上...
日期:08-20
杰和科技GDSM——支持多种媒体格式的信发平台
在智慧商显浪潮的席卷下,多媒体信息发布系统得到迅速发展,这一切使得信息流通更加便捷,同时也意...
日期:08-20
向“超人”进化,优友“小哪吒”刷新服务机器人下肢运动发展史
这个炎夏,国漫《哪吒之魔童降世》燃爆了电影市场,40亿+的票房堪称奇迹。装备混天绫、风火轮的吒儿红...
日期:08-20
富士施乐Versant™ 180 Press双色按需印刷系统 助力“红头文件”专业印制
在今年广东印刷展上,富士施乐展区每天都吸引了大量参观者驻足,这不仅因为业界首款一次成像6色的数...
日期:08-20
拥有创新基因的Ta,如今又手握BIRTV奖项
一年一度的BIRTV 评奖活动已于8月20日上午在北京落下帷幕。中影光峰凭借中国自主研发的激光数字电影...
日期:08-20
  专栏介绍
即时新闻 的专栏
即时新闻发表的文章
积分:
自我介绍 :