您的位置:首页>>业界动态

85后女硕士改进主题建模算法 提升百度数据训练能力

发布时间:2012-08-09 11:31:22  来源:互联网    采编:即时新闻  背景:

(从左至右:百度商务搜索部贾宁 苏州大学叶芸 百度商务搜索部张翼)

  “ 在线学习 的 主题建模 算 法 ” 攻破互联网海量数据挑战

  海量数据的分析能力被 IT 界视为最具商业价值的技术突破口之一,而这也是影响互联网用户体验的重要关键点。搜索引擎是互联网分发流量最大的入口,每天数十亿次的搜索请求包含了众多信息,目前百度收纳的网页已经超过 2000 亿,如何从大规模数据集中快速获得有效信息可谓是技术界机器学习领域的最大热点。 “ Topic Model( 主题模型 ) 技术是分析和理解海量文本信息的有效手段,在百度网页搜索质量和商业流量变现中都发挥着非常重要的作用”,百度商务搜索部高级工程师贾宁说到。贾宁所在的商务搜索部是百度负责搜索流量变现的核心部门,“ 每天都有新想法在尝试, 技术创新是推动凤巢 ( 百度搜索广告系统的代号 ) 不断提升的重要动力” 。

  来自苏州大学的叶芸今年七月实现了主题建模领域一项 重大 的技术突破,经她 改进 的在线学习 主题建模 算法 ( online-topic-model ) 可以快速处理大规模的数据集, 高 效实时的处理大规模数据流,及时捕获亿万网民搜索需求的变化趋势,获得更准确有效的主题。 叶芸在介绍她的技术成果时说:“ 这种方法就好比一个生产流水线,我们传统的数据处理方式相当于把一个产品的各个零部件凑齐后再组装,也就是收集大量数据后统一进行分析,而在线学习就等于流水线上来一个零件我们就组装一个,整个过程非常高效,不必等待全部的零件聚齐才能组装。 ”

  而 从效能的角度上来看,叶芸解释道,在线学习比起离线学习算法来说有 三大优势 。“首先,离线算法将整个数据集作为处理对象,因此对内存容量要求很高,但在线学习就可以分段处理,节约内存。其次,这种在线学习算法可以容纳更海量的数据处理要求,在数据量达 到一定规模时就呈现出极好的优势,能缩短耗时,并完成传统算法不能解决的任务。第三,离线算法对数据流形式的数据集束手无策,可在线学习算法却能在不耗费更多成本的情况下轻松完成。”

  百度校园 主题研究项目 :做“以问题为导向”的研究

  谈起这项成果的产出,叶芸认为, 正是苏州大学与 百度校园 在主题研究项目上的合作为 自己 创造了与百度结缘的机遇 ,叶芸在百度实习 期间 同时得到了基础架构部和 百度资深工程师 贾宁和张翼 的全力支持, 她认为百度技术 导师对她的启发 是最大的, 帮她克服了项目实现过程中不少技术困难。 “在新开发的技术和原有底层技术上做研发,既要具备很强的学习理解能力,也要拿出具有兼容性的创新方案。在百度海量的数据集和高性能的硬件支持下进行科研工作, 跳脱出理论阶段, 验证自己的观点, 做有用的研究 是件极有成就感的事。”

  百度商务搜索部的贾宁和张翼作为叶芸的技术导师也为这项 突破性的技术成果 而感到振奋。 张翼说:“ 在百度,即使是实时数据流,也是非常巨大的,动辄以千万甚至亿计。叶芸把在线学习和大规模并行学习做了一个出色的融合,能够处理“大规模数据流”,因此才能深入挖掘和建模百度的海量数据,准确捕捉网民的需求变化,并优化广告检索,提升网民体验。” 百度商务搜索部的贾宁也认为叶芸实现了百度数据训练的处理能力的重大 创新和 突破。 “ 在数据训练这个模块,我们原本只能处理四五千万的数据,现在可以逐步分析多达几亿甚至几十亿的数据量,数据处理能力大大提升,对数据流的变化 也 有 了 更好的掌握。 ”

  百度校园品牌 总监张高博士表示:“ 我们把百度工程师在实际工作中遇到的技术问题与高校分享,通过 开放研究计划的形式和各大高校合作 , 力求找到切实可行的 解决 方法 。我们设计的基于百度数据的主题研究项目, 每个学校都有机会参与进来,获取百度提供的相关数据,共同开展研究。我们希望创造 出 更多符合互联网实际应用 需求的新技术,为数亿网民的搜索体验带来提升,也为互联网技术的创新 注入更多 的 新能量。 ”

  三. 新 技术有望申请专利

  苏州 大学的特聘教授曾嘉是叶芸的导师,他认为这项研发成果是校企联合过程中一个非常可喜的成果。 “ 我们在学校计划开发在线消息传递算法( online belief propagation )是对主题模型 LDA ( latent Dirichlet allocation )的优化 , 叶芸同学在百度实习的过程中,在兼顾企业原有底层技术的同时,经过优化研发出了真正适用于实际情况的在线学习算法,甚至结合了 百度 技术部门最新开发的技术,使得在线学习 的主题建模 算法更为贴合企业实际应用的创新。学术力量产出真正具有商业价值的成果,确实是一个令人兴奋的消息。”

  8 月底,此项技术将在百度正式投入应用, 并计划开展 技术 专利 的申请 工作 。




关注ITBear科技资讯公众号(itbear365 ),每天推送你感兴趣的科技内容。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
闪电狗——城配下半场开赛,该怎么玩?
11月23日下午,罗戈网以“城配下半场玩法”为主题的物流沙龙在京举办,物流沙龙是中国物...
日期:11-24
网易新闻联合BOSS直聘,开启探秘“大厂”之旅
在互联网圈儿里,人们习惯将某些行业的头部领军企业统称为“大厂”,有些求职者为进&ldqu...
日期:11-23
中国在AI时代再造“两弹一星”  百度等科技巨头挑起大梁
为加快推动中国新一代人工智能产业创新发展,促进人工智能和实体经济深度融合,近日,工信部印发《...
日期:11-23
UC海内外打通电商,5.5亿曝光为Lazada双11引流
第十个天猫双11已经成为全球的双11,成就了全球买、全球卖、全球付、全球运、全球玩。在全球卖方面...
日期:11-23
危化品运输的「定心丸」传化智能物流让风险可视可控
「迎新创新、协同共享」,11月22日,由中国物流与采购联合会主办的「2018年中国化工物流行业年会」...
日期:11-23
传化智联列入国家多式联运示范工程项目
就在11月20日,交通运输部与国家发展改革委公示了第三批24个多式联运示范工程项目名单,传化智联打...
日期:11-23
屏厂LG也要做可折叠手机了:一口气注册多个商标
2019或许会迎来可折叠手机的爆发期,三星身为屏厂同时又是智能手机制造商,已经公布了作品,而同样...
日期:11-23
诺基亚宣布进行管理层调整 加速5G网络布局
为了瞄准5G机遇,电信网络制造商诺基亚公司将把移动网络和固定网络业务合并,组成一个名为接入网络(...
日期:11-23
马上就要到2019年了 5G离我们还有多远?
眼看着2018年就只剩三十几天了,今年的旗舰手机也基本上都发布了。手机市场上最近体积比较多的一个概念...
日期:11-23
Apptopia:Facebook新产品Lasso与TikTok“几乎相同”
短视频应用TikTok在全球范围内获得了强劲的发展势头。近日美国CNN引用移动应用研究机构Sensor Tower...
日期:11-23
Kodak Alaris出席“赋能·升级”2018中国现代办公行业年会
Alaris S2040扫描仪强势中国首发
  11月21日,中国西安—11月19日至11月21日,Kodak Al...
日期:11-23
当下智慧园区“软实力”如何提升
在工业4.0与智能制造的驱动下,大型企业建设自身园区网的任务已经不再简单,它不仅要满足高性能、高...
日期:11-23
苏宁国际诠释“Global Community of Curators”生活哲学
苏宁国际亮相第三届米兰国际家具(上海)展览会
  苏宁国际盛装亮相第三届米兰国际家具(上海)...
日期:11-23
“精灵旅社”那群搞笑的怪物精灵又来了!还送来华为视频9大豪礼
2018年感恩节跟小雪在同一天相遇
  除了团聚、感恩、狂欢、“吃鸡”、等雪
...
日期:11-23
LG为旗下可折叠智能手机申请了三个商标
LG一直在与三星竞争推出第一款可折叠智能手机,而三星已经展示了他们的产品,LG仍然在研发他们的智...
日期:11-23
全球首条5G网络下的微博 来自小米林斌!
5G究竟有多热,看看各大智能手机厂商的宣传便知一二。此前OPPO公布了其智能手机产品通过5G网络上网...
日期:11-23
前美团大将创业水滴卖保险  三级火箭能否击穿保险业痛点?
一、「仗还没打完,别想这些事。」
  这是沈鹏第一次跟王兴和王慧文表示未来想要离开美团、...
日期:11-23
HTTPS也不安全?No,只因没有避开这个误区
当我们在咖啡馆连上WiFi打开网页和邮箱时,殊不知有人正在监视着我们的各种网络活动。在打开账户网...
日期:11-23
美团股价今日一度下跌至14%,新业务持续投入亏损25亿人民币
11月22日,美团点评发布2018年第三季度业绩,总收入为191亿元,同比增长97.2%。总收入的增长得益于...
日期:11-23
QQ浏览器跨界顺丰“一搜直达”,丰富信息浏览生态
在双十一这个快递行业最忙碌的档口,QQ浏览器和顺丰宣布跨界合作,在“快”这件事上再添新...
日期:11-23