信息无障碍通道
您的位置:首页>>热点动态

中国邮政邮科院 X DorisDB:统一OLAP平台,大幅降低运维成本

发布时间:2021-08-19 11:48  来源:互联网    背景: 无障碍阅读通道

  邮政科学研究规划院有限公司(以下简称“邮科院”),作为中国邮政集团有限公司的科研智库单位,专注于战略规划、企业管理、工程设计、物流装备、智能终端、质量检测、标准化研究等领域,在助力中国邮政战略转型和经营发展中发挥着重要支撑作用。

  邮科院数据组负责全院大数据体系架构的建设,支撑日常BI运营分析、科研数据产品、物流数据、网点画像等业务场景。邮科院数据组通过使用DorisDB,统一了实时和离线的分析场景,替换了ClickHouse、Presto、MySQL等系统,解决了原有多套系统带来的运维和使用复杂性,简化了数据ETL流程,同时大幅提升OLAP、Adhoc等场景的查询效率。本文主要介绍邮科院数据组基于新一代极速全场景MPP数据库DorisDB,在数据服务体系和数据应用场景中的实践和探索。

  “作者:谢翔 邮政科学研究规划院有限公司寄递研究所数据组负责人,专注于数仓建设、数据分析等领域研究。”

    一、业务背景

  随着科研数据积累越来越大,数据规模和体量也急剧膨胀。科研的原始数据通常来源于研报抽取、日志埋点文件、业务数据库、三方接口等。过去通常基于CDH/Hadoop等大数据分布式计算框架和数据集成工具,构建离线的数据仓库,并对数据进行适当的分层、建模、加工和管理,构建各类分析主题。邮科院数据体系中沉淀了诸多研报主题数据,例如:电商流量数据,物流企业财务数据,行业报告相关的数据等。

  上层数据应用对查询的响应延迟和时效性要求高,会将数据通过数据同步工具同步到MySQL、ElasticSearch、Presto、HBase、ClickHouse等数据库系统中,来支撑上层数据应用的查询要求。

  邮科院的大数据总体架构如下图所示,从下到上可以分为数据接入层、数据计算层、数据服务层和数据应用层。

  数据计算层使用科研工作各分析场景下产生的模型/方案/业务的明细数据,进行离线数据计算,对TB级别的明细数据进行调度、聚合、计算,在数仓里沉淀出大量明细表、聚合表和最终的数据报表。

  数据计算层生成的各类数据表,会同步到数据服务层,由数据服务层提供接口给数据应用层使用,满足不同的数据业务需求。

    二、业务痛点

  数据服务层的愿景是开放数仓能力,建立统一的数据服务出口,针对不同的数据业务分析场景(数据规模、QPS、UDF支持、运维成本等),原有架构在底层使用了不同的查询引擎:

  ·大数据量、低QPS:使用Hive、Presto、ClickHouse等基于Hadoop生态的离线批任务计算框架和MPP数据库来解决。

  ·小数据量、高QPS:使用MySQL、ElasticSearch、HBase、MongoDB等关系型/非关系型数据库来解决。

  使用多套查询引擎,我们遇到如下问题和挑战:

  ·离线/实时ETL任务过多,处理逻辑大部分为简单聚合/去重,聚合表数量庞大,导致运营和运维上的成本增加;

  ·针对中等数据量、中等QPS的查询场景,如何能兼顾数据规模的同时,有较友好的查询响应延迟;

  ·大数据量下插入、更新的实时数据场景无法得到支持,例如:网点画像、实时数据导入、邮路路径、研报数据汇总等。

    三、OLAP引擎选型

  针对如上的问题和挑战,我们的目标是寻求尽可能少的OLAP引擎,利用在明细表上现场计算来解决ETL任务、数仓表过多问题,同时需要兼顾在数据规模、查询QPS、响应耗时、查询场景方面的权衡。

  目前市面上OLAP引擎百花齐放,诸如Impala、Druid、ClickHouse、DorisDB。经过一番调研,我们最终选择了DorisDB。DorisDB是基于MPP架构的分析型数据库,自带数据存储,整合了大数据框架的优势,支持主键更新、支持现代化物化视图、支持高并发和高吞吐的即席查询等诸多优点,天然能解决我们上述的问题。

    四、DorisDB应用实践

  DorisDB已经投入生产环境,主要作为离线/实时数据的OLAP数据库使用。离线数据主要存储于HDFS中,通过DataX任务批量同步数据到DorisDB;另一部分实时数据主要存储于Kafka中,使用DorisDB的routine load功能实时将数据从kafka写入到DorisDB。

  在没有引入DorisDB之前,我们使用的底层引擎是MySQL、Presto on HDFS和ClickHouse等系统,对明细表/聚合表进行查询。这几种方式都存在着不少问题:

  ·MySQL处理上亿规模的数据,无论使用分库分表、分区表、集群化部署的PolarDB方案,都会存在慢查询、数据库扛不住、运维困难的窘境;

  ·Presto on HDFS的方案更偏向于分析型数据业务,虽然能存储海量的数据,计算能力不错,唯一致命的在于无法满足在线业务的高吞吐QPS,查询比较难做到毫秒级。

  ·ClickHouse对Join支持较弱,通常使用大宽表建模,不够灵活,另外运维也比较复杂。

  ·在引入DorisDB替换MySQL、Presto和ClickHouse后,DorisDB带来的业务效果如下:

  ·支撑了在线报表查询+数据分析业务,服务于对内运营+对外行业分析的数据产品,报表业务查询大部分耗时在毫秒级别,分析型业务查询大部分耗时在秒级别;

  ·支持10亿规模的明细表查询,月、季、年等维度统计数据现场算聚合统计、精准去重等,查询耗时都能控制在500ms以内;

  ·千万级别的多表的Join和union查询,经过Colocate Join特性优化,查询响应在秒级。

  另外,我们还将DorisDB应用到实时数据分析场景,DorisDB在实时数据分析主要有如下优势:

  ·实时写入性能:目前DorisDB支持HTTP方式的Stream Load,可以自定义的分钟级别微批写入,以及Routine Load功能,可以将Kafka的数据实时同步到DorisDB中,满足当前实时数据分析业务;

  ·统一离线和实时分析:实时数据和离线数据更好的在DorisDB中进行融合,灵活支撑应用,数据存储策略通过DorisDB动态分区的功能进行自动管理;

  ·SQL Online Serving:高效的SQL即席查询能力,能够兼容业界标准的SQL规范,支撑业务灵活复杂的访问,提高取数开发的效率。

    五、总结和规划

  邮科院数据组引入DorisDB生产集群,解决了数据服务层单表亿级别规模、高QPS数据场景下引擎的空白,直接开放明细表准实时查询的能力,给各项目组上层数据业务和BI系统提供了更多的选择和自由度,同时将大大减少数仓中大量ETL任务、聚合表、报表,降低了数仓ETL的运维压力和维护成本,DorisDB综合性价比较原有的MySQL、Presto、ClickHouse等同类产品提升数倍以上。

  未来,邮科院在DorisDB的应用和实践上还有不少规划:

  ·除了unique和duplicate数据模型,未来会将符合的数据场景迁移至aggregation模型,并使用物化视图,进一步降低数仓开发维护成本,降低查询延迟;

  ·DorisDB on ES的功能也值得我们深挖和探索,解决原生ES集群无法支持跨索引Join的能力;

  ·更多数据应用层的场景接入DorisDB,例如网点画像服务、邮路路径分析等,将进一步拓展DorisDB在实时数据写入、批量数据更新场景中的应用;

  ·与科研数据分析平台、数仓平台深度打通,完善数据整体架构,作为数据团队的基础设施去保障稳定性和服务;

  ·考虑使用多云架构,自主可控的数仓架构可以灵活的在多云间切换迁移,降低单一云厂商的依赖,控制成本提高可用性。

  ·......

  最后的最后,感谢DorisDB技术团队给予的热情、靠谱的答疑解惑和技术支持!!!

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
网易严选猫粮、日用品拿下多平台双11爆款TOP1
又是一年双11落下帷幕。新中产生活方式品牌网易严选爆款频出,登顶京东双11全时期日用销售品牌榜单榜首,多款产品在淘系、抖音多平台拿下爆款TOP1,成为后疫情时代的用户首选。
日期:11-13
天猫双11“饮料之王”出炉,农夫山泉连续五年成交额第一
又一年的双十一落幕了。截至2021 年 11 月 12 日零点,天猫京东两大平台的双 11 销售总额超 8894 亿元。双 11 开售第一小时,天猫即有超过 2600 个品牌成交额超过去年首日全天。
日期:11-13
后电商时代的双十一,如何突破线上流量见顶困境?
没有大屏上不断跳动的GMV数字,甚至也无需“熬夜剁手”,今年的双十一结束得静悄悄。如此平静地迎来收官的背后,其实是线上流量见顶的一个缩影。
日期:11-12
曝vivo新机搭载联发科下一代天玑旗舰,跑分首破百万,网友齐呼:打榜神器!
本周的最后一天,手机圈再曝大新闻,vivo神秘新机跑分破百万,联发科下一代天玑旗舰强势出击。就在今天,微博数码大V数码闲聊站配图发出了一记实锤,图中发出了一张安兔兔的100万跑分图,并且提示大家,这是...
日期:11-12
aigo国民好物双十一战报:固态硬盘产品销售额同比翻400倍
aigo国民好物双十一战报:固态硬盘产品销售额同比翻400倍
日期:11-12
屹立QD-Mini LED领域顶端!这款TCL 智屏完美诠释TCL的领跑者实力
双十一,一个全网狂欢的电商大节,也是各大消费者比拼谁“更能薅羊毛”的舞台,而我们从每年数以千亿计的双十一成交额中也能明白这一场狂欢购物盛典的重要性。对于网民而言,这是一年中为数不多能...
日期:11-12
云康宝厨房秤+轻牛品味APP:厨房小白也可以对翻车say no
对于厨房小白来说,做菜翻车也不是什么值得大惊小怪的事情了。所以我们可以看到前有社交媒体上的全民厨艺大赛眼看着变成失败厨艺大赏,后有对自己厨房小白的定位认知非常清晰的年轻人发出自嘲:“看,这...
日期:11-12
纳尼?顶级SSL证书1折狂欢,逾期不候
一年一度的阿里云“上云狂欢节”正在火热进行中,作为阿里云平台的明星产品,以保障网站和数据传输安全为己任的SSL证书,怎可能没有惊喜和优惠呢?一起来看看吧!
日期:11-12
大V再爆料:vivo新机搭载新一代天玑旗舰芯片,跑分首破100万大关!
临近年底,关于新一代安卓旗舰处理器的消息越来越多,备受用户关注。今天,数码大V数码闲聊站再发重磅爆料,曝光了联发科下一代天玑旗舰芯片的性能跑分,安兔兔跑分首次突破100万大关,并在爆料中称:“...
日期:11-12
数字化安全威胁无孔不入 双十一网购成诈骗重灾区
  “双十一”期间,网友李某接到电商“客服”电话,称其购买的衣服有质量问题协商理赔。随后,李某按照该“客服”引导关注了指定公众号,并输入身份证信息、银行卡号及交易密码...
日期:11-12
北京超算“名”“利”双收,超算商业化已经来临
11月12日,在第三届“中国超级算力大会”上,2021年第二十届中国HPC TOP100排行榜和国际人工智能性能排行榜AIPerf500正式公布。从2020年开始,北京超级云计算中心(以下简称“北京超算”)...
日期:11-12
挚途科技完成首次融资 领衔商用车自动驾驶赛道落地变现
2021年,商用车智能驾驶进入商业化落地元年,摆在各路玩家面前的难题不仅有对技术成熟度和成本的考验,更需要自动驾驶企业与车企之间实现深度拥抱。
日期:11-12
逸尘杀菌洗地机2 Pro上架乐视商城 家庭地面清洁新体验
日前,逸尘洗地机品牌方零尘一刻(北京)科技有限公司与乐视商城(LeMall)达成战略合作,逸尘洗地机将在乐视商城上架销售,同时产品也将纳入乐视商城会员体系,进一步丰富乐视商城现有的产品品类,作为第三方品...
日期:11-12
市场表现超去年同期数倍 三星手机双11期间线上捷报连连
在刚刚过去的双11狂欢日中,智能手机依旧就是各大电商平台上销售最火热的产品之一。其中,特别是以Galaxy Z系列折叠屏新品,以及多款热门旗舰机型领衔的三星手机,更是在双11期间的各大电商平台上捷报连连,...
日期:11-12
当贝X3总是自动关机怎么处理,升级V2.5.0.3完美体验系统更流畅
要问2021年哪款产品最火爆,那肯定是当贝X3激光投影仪莫属。作为划时代的年度重磅之作,当贝X3可谓是一起绝尘,关注度是相当之高。最近发现个别小伙伴问“当贝X3自动关机重启怎么办”。那么今天,...
日期:11-12
有颜又有料!华硕猎鹰V4一体机影音娱乐实力担当
电视不香了?据《2021年中国年轻人居家生活调查报告》显示,年轻人搬家时最倾向优先丢弃的TOP10家电中,电视机排名第一。取而代之,手机、电脑等互联网设备成为现代人的“刚需”。要说未来最可能取...
日期:11-12
实至名归 | 天威诚信入选《中国网络安全企业100强》
2021年11月9日,安全牛正式发布第九版《中国网络安全企业100强》报告。天威诚信凭借突出的技术创新能力、行业贡献能力和长效的企业经营能力入选中国网络安全100强企业。
日期:11-12
海信电视怎么安装Emotn UI,不喜欢瀑布流UI的首选
很多国产电视使用的桌面都是瀑布流UI,海信电视也不例外。
日期:11-12
2021年家用监控摄像头品牌推荐榜,乐橙位列第二!
盖得发布最新“家用监控摄像头”品牌推荐榜,乐橙位列榜单第二名。
日期:11-12
360 智慧生活双11战报速看:行车记录仪、可视门铃品牌销量蝉联双平台销冠
又一年的双十一购物狂欢落下帷幕,各大品牌都在这场“大考”的最后时刻交上答卷。11月12日,360智慧生活集团发布了双十一终极战报。战报显示,截至11月11日23时59分59秒,360行车记录仪、可视门铃...
日期:11-12
  专栏介绍
科技说 的专栏
科技说发表的文章