信息无障碍通道
您的位置:首页>>互联网

DorisDB在中移物联网PGW实时会话业务领域的应用

发布时间:2021-03-18 12:03  来源:中国资讯报道网    背景: 无障碍阅读通道

  自从2021年1月份推出免费的DorisDB标准版产品后,我们的客户量出现了爆发式的增长。到目前为止,已经有数十家客户在生产环境正式上线了DorisDB,并且有数百家客户正在进行真实业务场景的测试。我们邀请了部分已上线的客户,分享他们的数据分析经验。这个系列的文章涉及多个行业,将在未来持续输出,敬请关注。

  作者:宁彦辉——中移物联网大数据开发工程师,主要从事流计算开发、物联网机器学习数据挖掘以及OLAP查询引擎数据开发

  中移物联网作为中国移动通信集团有限公司出资成立的全资子公司。公司按照中国移动整体战略布局,围绕“物联网业务服务的支撑者、专用模组和芯片的提供者、物联网专用产品的推动者”的战略定位,专业化运营物联网专用网络,设计生产物联网专用模组和芯片,打造车联网、智能家居、智能穿戴等特色产品,开发运营物联网连接管理平台OneLink和物联网开放平台OneNET,推广物联网解决方案,形成了五大方向业务布局和物联网“云-网-边-端”全方位的体系架构。

  本文主要讨论了中移物联网在PGW实时会话业务数据分析与建模方面,利用SparkStreaming和DorisDB进行的探索与实践。并希望我们在实时数仓建模领域的应用实践,能给大家一些启发,也欢迎大家多多交流,给我们提出宝贵的建议。

  PGW实时会话业务背景介绍

  中移物联网作为物联网业务领域的支撑者,目前在线物联卡用户达到6.7亿。中移物联网智能连接部大数据团队作为物联卡用户与物联卡之间的数据分析纽带,主要依托物联卡的基础属性数据和使用行为数据通过数仓建模、大数据挖掘等其他手段为用户提供高效的数据服务。

  PGW实时会话业务主要指的是,通过PGW网元设备实时收集从全球各地传送回来、符合Radius协议的GGSN报文数据,然后通过大数据分析等手段,进行数据建模、数据挖掘等其他子项目。例如为集团客户提供每张物联卡的实时位置和分布情况;通过风险防控模型,对比实时收集的报文数据,为客户提供每张物联卡的风险等级等项目。

  业务痛点及实时技术的挑战

  目前该业务在具体落地过程中,以及应用业务对实时数据需求方面,主要存在以下问题和技术难点:

  1.流式数据join。目前PGW实时会话业务,峰值每秒数据达到35万/s,针对不同的业务需求,往往在数据清洗阶段,需要对流式数据进行字段关联,然后以宽表形式写入;

  2.存量数据排序、实时分析。一方面因为各地区网元设备的不稳定等其他因素,往往实时传送过来的数据存在乱序问题,另一方面因为单条会话长期在线(最长超过14天),对于单条会话的实时分析往往需要对存量数据进行排序;

  3.统一的实时OLAP数据平台构建。我们的用户包括:内部售后团队、运营、产品等内部人员外,还有外部政企平台客户。不同的用户往往关系的数据粒度、时间频率、维度等各不相同。但是我们希望能建立一套统一的实时OLAP数据平台,并提供一套灵活、安全可靠的实时数据服务。

  目前整个业务的数据规模和业务如下:

  技术框架的调研与演进

  1.原有技术框架

  原有技术框架以及整个PGW实时会话业务的处理流程如上。实时数据通过流处理组件处理后,针对不同需求和业务方,数据存储和展示借助多技术组件。并且大多情况下为满足一个业务需求往往需要多技术组件配合使用。如PGW明细会话查询,往往是借助Redis或ES作为索引组件再去查询Hbase,一方面Hbase只能进行简单的模糊查询,无法做到联邦查询、聚合统计查询,另一方面若统计查询借助Impala+Hive时效性往往很难保证。

  2.MPP技术框架的调研

  为解决实时分析的时效性,同时又能保证数据快速写入,并且能够对外提供一个较为统一和简单的OLAP数据平台。我们先后调研了ClickHouse、DorisDB、Kudu。并针对我们的业务分析和业务痛点做了以下测试。

  ClickHouse:虽然具备较好的OLAP分析性能,但因其底层的架构设计,集群模式下数据写入需开发人员手动指定写入节点以及数据存储目录以保证集群数据平衡。同时集群扩容后很难做到数据自平衡,对运维人员提出较高要求,另一方面由于该数据库不支持事务特性,在数据更新时容易出现数据重复,且不易解决此问题。

  DorisDB:查询分析性能强悍,多表关联速度比其他产品快很多。与Clickhouse类似,DorisDB目前不支持字段级别的数据更新,同时查询性能与表的设计和集群性能密切相关。原则上集群性能随数据节点线性增长。另外,简便的运维管理也是DorisDB的一大亮点。目前DorisDB开发版本迭代快,需要及时跟进官方的版本进展。

  Kudu:支持快速数据更新、快速数据分析与即席查询,但是数据量不宜过大,单表数据量不宜超过15亿。

  性能方面,批量写入性能Clickhouse略优于其他系统,相同资源条件下明细查询性能ClickHouse和DorisDB比Impala+Kudu更快,DorisDB有比较方便的物化视图(Rollup)可以满足统计查询的需求,另外DorisDB在关联查询方面性能有比较明显的优势。

  综上所述,实时数仓方案,采用Kudu+DorisDB相结合,实现现有PGW实时会话业务。DorisDB作为主要技术组件,Kudu辅助实现字段级别更新业务场景。

  3.现有技术框架

  3.1现有技术框架整体介绍

  为解决现有的业务痛点,同时平衡在实时数据处理技术实现上的难点。我们摒弃了部分技术组件,采用新的技术组件搭建整个实时数仓用于满足PGW实时会话业务。其中DorisDB可以满足大多场景的需求。

  PGW会话业务中流式Join问题,一部分我们通过在DorisDB中星型建模的方案的解决,另一部分我们借助关系型内存数据库VoltDB+Google Guava Cache,流式组件处理过程中代码实现。

  存量数据的排序、实时分析问题。我们借助DorisDB range分区以及高效的OLAP性能初步缓解。

  最后统一OLAP分析平台,我们完全借助DorisDB实现。

  3.2 DorisDB解决的痛点和挑战

  1.充分利用DorisDB在多表join方面的性能优化,如Colocate Join、内存表等特性。将原来的流式join方案改为通过星型建模方案,在数据服务层进行多表join的联邦查询;

  2.通过DorisDB动态分区特性对存量数据进行分区,然后利用Bitmap数据类型进行精确去重,然后再在各分区内完成排序。排序的结果进一步汇总到一张数据表中,和实时到来的数据放在一起排序,可以有效地解决数据乱序问题,并且保证数据分析的效率。

  3.DorisDB可作为数据服务层的统一对外引擎,一方面保证查询性能,另一方面避免了原来多技术组件带来的冗余问题,极大降低了系统的管理成本。

  4.技术实现方面:替代Hbase部分业务,缓解了Hbase分区分裂带来的性能问题;通过ES外表引擎,解决ES表不能进行join、语法特殊等技术问题。

  DorisDB在具体项目上的应用及优化

  目前DorisDB集群总共25台BE,4台FE,存储采用支持采用NVME协议的SSD硬盘。

  1.PGW用户实时位置轨迹

  1.1方案介绍

  实时收集到的GGSN报文,通过DorisDB的聚合模型,将发生位置变更轨迹的明细数据实时沉淀下来。并对不同的区域维度生成Rollup表。最细粒度到基站级别,然后生成省、地市级别的Rollup表以供不同业务查询。

  GGSN报文量35万/s,通过SparkStreaming处理解析后,每1分钟StreamLoad一次入DorisDB。

  1.2方案优化

  最开始因为Rollup表建了省、地市、区县、乡镇,导致在写入时IO负担过大,写入速度跟不上数据推送,SparkStreaming出现挤压,后期通过性能测试Rollup表只建立了省、地市维度。同时新增一张乡镇base表,并在其基础上建立区县Rollup表。

  同时为保证查询的时效性,base表Rollup表前缀索引在字段类型和选择上按照官方建议,避免使用Varchar类型。

  2区域会话明细模型

  2.1项目背景

  数据服务层需对外提供每张物联卡,统一会话发生位置变更后在不同区域的套餐使用情况,会话时常等信息。进而统计物联卡各区域的漫入漫出情况。

  2.2项目方案

  实时收集到的GGSN报文,通过DorisDB的聚合模型,将发生位置变更时的套餐记录,变更时间沉淀下来。然后通过定时任务,从聚合模型明细数据中计算出套餐使用情况,会话时长,生成新的DWD表。DorisDB目前的物化视图很有用,但还不是很灵活,比如,只支持明细数据表模型,并且支持单表创建物化视图,不支持多表Join构建物化视图。

  DorisDB在中移物联网PGW实时会话业务领域的展望

  一方面我们目前了解到,DorisDB开发团队,目前正在解决DorisDB字段级别无法支持更新的短板。在未来DorisDB升级过程中,我们可能会摒弃掉Kudu,完全借助DorisDB实现实时数仓技术架构。

  另一方面,我们期待DorisDB物化视图的灵活性更高,可以支持Join级别的物化视图和不同表引擎的物化视图。除此之外,在接下来的项目开发过程中我们也计划进一步使用bitmap索引、Colocation Join等更丰富的功能提高我们的查询速度。

  除此之外,为了完善实时数仓的分层结构,我们计划在未来使用Flink来对接DorisDB,保证数仓的分层结构,同时进一步完善统一的OLAP数据分析平台。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:中国资讯报道网

本文评论
小鹏推出可骑乘智能机器马
   官方没有透露该机器马的售价和发售日期,只是表示未来将解锁更多技能。
日期:09-07
邮箱大师邮件模版,帮助提高工作效率
在过去,如果我们要把日报、周报等常用的邮件内容再次发送出去,至少需要五步以上(要复制、黏贴邮件内容和收件人)。而使用邮箱大师Win/Mac版本的“邮件模版”功能,可以大大缩减这些步骤,用户只需...
日期:09-07
宝雅乐Beurer电热盖毯HD75 一毯多用 陷入全方位的柔软怀抱
秋风已至,不知不觉路上的人有的已经穿上了长袖,保温取暖成为了当下人们开始关注的重点,各种功能奇特的小家电也开始出现在人们的视野之中,而在众多品牌中,宝雅乐Beurer作为德国健康领导品牌更凭借着专业...
日期:09-07
竭力服务 用心受训 海悦生活客服培训会顺利结束
满足客户需求,竭力服务业主,是海悦生活对客服的基本要求,为了提升海悦生活物业客服条线的综合能力,打造更专业、更高效的客服团队,有效提高客户满意度,近期,海悦生活物业品质管理中心组织开展了两天一...
日期:09-07
红狗正式官宣吴磊代言 推出适合城市犬猫的宠物粮
定位为宠物营养专家的RedDog红狗品牌,于2021年5月签约年轻明星吴磊。5月19日,吴磊与薇娅联袂直播红狗产品。8月25日,红狗又正式官宣“吴磊代言红狗新1代营养配方粮”。
日期:09-07
不在学校,外网如何连接校园网的实验室GPU服务器做实验?
今年暑假,专注个人技能提升的中国地质大学的小林同学,埋头在学校实验室做项目测验,同时还在赶一个学术论文。
日期:09-07
泛娱乐行业拐点!即构科技与腾讯音乐娱乐集团达成音乐版权合作
2021年8月,全球领先的音视频云服务商ZEGO即构科技与腾讯音乐娱乐集团(TME)旗下“音速达引擎”达成正式合作,将依托于音速达引擎所连接的海量优质数字音乐,为直播、语音聊天、K歌等场景构建更多元...
日期:09-07
村田制作所:短暂停工对MLCC供货影响有限
受新冠疫情影响,在8月的最后一周(8月25-31日),村田制作所位于日本福井县的MLCC主力制造工厂武生事务所停工。外界普遍推测,正值iPhone 13的发布前夕,村田MLCC主力厂的短暂停工,可能会影响到iPhone以及Son...
日期:09-06
5G赋能智慧医疗!展锐携手联通点亮海南健康岛
9月1日,展锐携手海南联通、联通物联网有限公司等单位共同申报的5G应用创新方案“5G智慧医疗点亮海南健康岛”,在“2021世界5G大会5G应用设计揭榜赛”中荣获5G应用设计大赛一等奖和最具...
日期:09-06
中科院国家天文台苟利军做客抖音开讲:人类探索太空的目的地不只是火星
从牛顿、爱因斯坦到史瓦西、奥本海默,再到科尔、惠勒和霍金,人类对宇宙的探索从未停止。当人们认知的世界越来越大,人类就越来越显得渺小。人们不禁会发问:人类的未来在哪里?9月3日晚7点,中国科学院国家...
日期:09-06
拍机堂唤起二手交易本源 让买卖更容易
拍机堂是二手3C产品B2B交易平台,为全球二手电子产品供需双方提供分拣、标准定级、销售渠道等服务。其依托于全国7大区域级运营中心(上海,常州,深圳,天津,武汉,成都,香港)和23个城市级运营中心。平均每...
日期:09-06
脉脉发布互联网新人择业报告,字节跳动居人才净流入榜首
近日,脉脉发布《互联网新人职业选择报告2021》。报告以互联网科技公司、数字化创新企业1-3年员工为核心研究对象,通过系统数据,以受众目标人群的客观认知,描摹当下企业与职场人群价值成长现状。
日期:09-06
九号公司旗下纳恩博(北京)科技有限公司被认定为跨国公司在京总部
9月3日,在由北京市商务局、国研智库、世界贸易网点联盟主办,北京总部企业协会承办的在2021中国总部经济国际高峰论坛上,北京市商务局为九号公司旗下纳恩博(北京)科技有限公司(以下简称“纳恩博(北京)&rdq...
日期:09-06
鲲鹏应用创新大赛2021圆满落幕,鲲鹏全栈能力扎根核心,走进千行百业
9月3日,鲲鹏应用创新大赛2021(后简称“大赛”)全国总决赛今日在华为松山湖基地圆满落下帷幕。大赛自今年4月启动以来,吸引了1200多家企业、5000多位开发者踊跃参与,经过区域赛、半决赛和总决赛的...
日期:09-06
中科院物理所研究员曹则贤首次抖音直播:学习语言和哲学大有用处
每个人都离不开读书,但怎样才算读书人,怎样才是一个合格的读书人呢?9月4日晚7点,中国科学院物理研究所研究员曹则贤现身中国科学院大学官方抖音号 “国科大”的直播间,畅谈自己的读书感悟,并对...
日期:09-06
倒计时2天!重磅嘉宾已官宣,联想创新科技大会看头十足
倒计时2天! 2021联想创新科技大会确定将于9月8日如期而至。从目前透露的大会信息来看,可谓是大咖云集。据确切消息,微软全球首席执行官Satya Nadella(萨提亚・纳德拉)、英特尔全球首席执行官 Pat Gelsinger(...
日期:09-06
欺诈之矛VS反欺诈之盾 风控前置 - 斩断网络安全的“黑手”
如今,在线欺诈已经成为全球主要的网络犯罪形式之一。世界经济论坛(WEF)曾在《2020年全球风险报告》指出,网络犯罪将是未来十年(至2030年)全球商业中第二大最受关注的风险。到2021年,互联网黑灰产将给全球造...
日期:09-06
99公益日新增配捐日,单日超900万朵小红花点燃共同富裕专场
9月5日是国家第六个“中华慈善日”,2021年99公益日率先响应国家和社会的号召,启动了共同富裕专场,号召万千爱心网友关注民生发展类议题,助力公益慈善行业履行第三次分配的社会担当。
日期:09-06
喜悦校园落实双减政策,引领快乐学习新风向!
7月24日,“双减政策”出台,教育行业面临严峻考验。国家印发《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》(「双减」意见),从业务、资本双重层面,严格限制课外补习。一路飞速...
日期:09-06
微信小程序Slam与图像追踪、实物追踪的商用场景分析
以现实世界中的某物体、某介质为参照物,将AR内容固定到该参照物的相对位置,伴随参照物的移动而发生相对位置的改变,即所谓的追踪。
日期:09-06
  专栏介绍
爱萌妮儿 的专栏
爱萌妮儿发表的文章