信息无障碍通道
您的位置:首页>>互联网

跨越速运 x DorisDB:统一查询引擎,强悍性能带来极速体验

发布时间:2021-08-27 15:02  来源:互联网    背景: 无障碍阅读通道

  跨越速运集团有限公司创建于2007年,目前服务网点超过3000家,覆盖城市500余个,是中国物流服务行业独角兽企业。跨越集团大数据中心负责全集团所有数据平台组件的建设和维护,支撑20余条核心业务线,面向集团5万多员工的使用。目前,大数据中心已建设数据查询接口1W+,每天调用次数超过1千万,TP99在1秒以下。我们利用DorisDB作为通用查询引擎,有效解决了原架构大量查询返回时间过长,性能达不到预期的问题。

  “作者:张杰 跨越集团大数据运维架构师,负责集团公司大数据平台的维护和建设”

    一、业务背景

    1、总体架构

  我们原始离线数仓的总体架构如下图所示,数据从各个业务线的数据库,比如MySQL等,通过数据集成工具汇聚到ETL集群(即Hadoop集群),再使用Hive、Spark、Presto等批量处理引擎进行数据仓库的分层处理,然后将DW层和ADS层的数据推送到各种不同的查询引擎。

  在这些查询引擎之上,有个统一的查询API网关,应用层的自助分析工具或ERP系统前端通过调用这个API网关,将数据内容呈现给用户。

    二、业务痛点

  该系统最大的痛点是查询性能问题。公司对大数据查询接口的响应延迟是有考核的,期望99%的查询请求都能在1秒内返回,比如页面ERP系统、手机端各类报表APP,用户会随时查看数据并进行生产环节调整,过慢的查询响应会影响用户体验,甚至影响业务生产。针对复杂的SQL查询场景,之前采用的Presto、Impala+Kudu、ClickHouse等系统,是远远达不到预期的。另外,针对各种复杂的数据分析业务场景,引入很多不同组件,导致了维护和使用成本非常高。

  因此,我们急需一个新的查询引擎,能统一查询引擎,解决性能查询问题,降低使用和维护成本。

    三、OLAP引擎选型

 

  第一阶段,在2019年,跨越集团大数据中心使用Presto作为通用的查询引擎。此阶段集团大数据中心数仓层基本用的是Hive,Presto可以直连Hive的特性让我们无需做过多的改造,就可以直接生成查询的API。从性能角度考虑,我们也会将数仓中的部分数据拷贝至独立的Presto集群,和数仓ETL集群进行资源隔离。这套架构运行一年多之后,随着业务需求越来越复杂,数据量越来越大,该基于Presto构建的集群性能急剧下降。

  第二阶段,为解决Presto集群性能不足的缺陷,我们基于ClickHouse开始构建新的通用查询引擎。2020年我们使用ClickHouse构建了大量大宽表,将此前需要多层关联的查询逐步迁移到ClickHouse集群。通过这种方式,我们确实解决了此前面临的性能问题。但与此同时,我们需要建设越来越多的大宽表,操作繁琐运维困难。并且这种数据模型无法随业务需求变化而快速改变,灵活性差。

  第三阶段,我们在2021年开始寻找其他能满足我们需求的OLAP引擎,此时我们发现了DorisDB这个产品。首先关注到DorisDB的单表、多表关联查询的性能都非常优秀,能够满足我们对查询延时的需求;DorisDB支持MySQL协议,让我们开发同事在开发接口的时候学习和使用门槛非常低。另外,DorisDB还具备支持按主键更新、支持多种类型外表、部署运维简单以及支持丰富的数据导入方式等特性。这些都是我们所需要的。

  因此,我们开始逐步将以往的分析业务迁移到DorisDB集群上,将DorisDB作为大数据中心的通用查询引擎。

    四、DorisDB在跨越集团的应用

    1、在线场景应用

  当前我们每天在线数据接口的查询请求量已经超过千万。在引入DorisDB前,我们用了8到9种查询引擎来支撑各种在线业务场景。大数据量的明细点查场景使用ElasticSearch作为支撑;对于查询维度固定、可以提前预计算的报表场景,会使用MySQL;对于SQL查询复杂,如果多表Join、子查询嵌套的查询场景,会使用Presto;实时更新的场景,则会使用Impala+Kudu的组合来支撑。

  引入DorisDB后,目前已替换掉Presto和Impala+Kudu支撑的场景。ElasticSearch、MySQL以及ClickHouse,后续也可能会根据业务场景实际情况逐步替换为DorisDB。

  下面详细介绍一个实际在线场景的典型案例。如上图,我们在原Presto系统上有一个包含200个字段的宽表聚合查询。由于业务需求比较复杂,SQL语句有600多行。我们曾希望从业务逻辑上进行优化,但是并不容易,不能因为系统能力问题就一味要求业务方来迁就。现在我们使用10个节点相同配置的DorisDB替换原15台相同配置服务器的Presto集群后,在没有做什么业务逻辑变化的情况下,使用DorisDB明细模型,凭借DorisDB本身的高性能将查询延时从5.7秒降低为1秒,性能是原Presto集群的近6倍。

    2、OLAP场景应用

  跨越集团的OLAP多维分析平台是我们自研的一套BI系统。用户可以根据自己业务场景选择字段以及关联条件等,以拖拉拽的方式生成数据的表格或图表。最早我们支撑OLAP多维分析的后端引擎是Presto,在这类场景下的性能确实不尽如人意。因为性能问题,我们也没办法将这个工具推广给更多的用户使用。我们将后端查询引擎替换为DorisDB后,性能提升非常明显。我们将OLAP多维分析平台向整个集团推广,受到了越来越多的用户好评。

  OLAP多维分析主要是离线分析为主,以客户离线分析场景为例,数据经过ETL处理后,生成对应的DW层或ADS层数据,再通过Broker Load将数据按天导入DorisDB中。我们使用星型模型构建客户主题域,客户主表以明细模型在DorisDB中建表,同样以明细模型创建维表。这样用户就可以在前端对客户主题域的各种指标、各种维度进行拖拉拽,生成对应的表格和图表。

  在客户离线分析场景下,我们DorisDB上线前后业务逻辑没有进行太多调整前提下,TP99从4.5秒下降到1.7秒,性能是原来的三倍(后续我们将尝试开启CBO优化器,预计会有更大性能提升)。绝大多数场景都能实现1s内返回,大大提升了用户的体验。

  利用DorisDB的实时分析能力,我们还构建了实时OLAP多维分析。以运单实时分析场景为例,原本我们是用Hive每两小时跑批的方式来实现的,将固定维度数据算好,结果写入Presto上提供查询,逻辑类似于离线数仓,并不能称为真正的实时。引入DorisDB后,我们调整数据流转逻辑,通过监听Binlog将数据写入Kafka,再通过Rontine Load的方式消费Kafka,将数据实时写入DorisDB中。我们使用更新模型建立实时运单主表,将运单ID设置成主键,这样每一笔运单更新后,都能实时更新到运单主表中。和离线分析场景一样,使用星型模型构建运单主题域。

  通过这样的调整,以往每两小时更新数据的运单主题域,现在可以实现秒级更新,成为名副其实的实时分析。另外此前需要依赖预计算,维度都是固定的,很多分析上功能受限。经改造后,除了大幅提升“实时”体验外,在分析灵活性上的提升也非常明显。实时体验和灵活分析也成为OLAP多维分析平台工具在实际服务中最大的亮点。

    五、后续规划

  1、为了避免部分慢查询影响整体的集群性能,后续会搭建多套DorisDB集群,按业务场景进行物理资源隔离。

  2、DorisDB查询Hive外表的功能,经内部测试比Presto查询Hive的性能要好,后续会将原本Presto查询Hive的场景无缝迁移到DorisDB上。

  3、目前我们在DorisDB上写入了很多实时数据,这些数据需要进行聚合等处理,我们正在尝试使用调度工具,在DorisDB上进行5分钟级、10分钟级的轻量ETL处理。

  4、开启DorisDB的CBO优化器,进一步提升查询性能。

  最后,感谢鼎石为我们提供DorisDB这么好的产品,满足了我们对性能强、功能全的查询引擎产品的要求;感谢鼎石一直以来提供的技术支持,解决了我们在使用中遇到的各类问题。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
脉脉发布互联网新人择业报告,字节跳动居人才净流入榜首
近日,脉脉发布《互联网新人职业选择报告2021》。报告以互联网科技公司、数字化创新企业1-3年员工为核心研究对象,通过系统数据,以受众目标人群的客观认知,描摹当下企业与职场人群价值成长现状。
日期:09-06
九号公司旗下纳恩博(北京)科技有限公司被认定为跨国公司在京总部
9月3日,在由北京市商务局、国研智库、世界贸易网点联盟主办,北京总部企业协会承办的在2021中国总部经济国际高峰论坛上,北京市商务局为九号公司旗下纳恩博(北京)科技有限公司(以下简称“纳恩博(北京)&rdq...
日期:09-06
鲲鹏应用创新大赛2021圆满落幕,鲲鹏全栈能力扎根核心,走进千行百业
9月3日,鲲鹏应用创新大赛2021(后简称“大赛”)全国总决赛今日在华为松山湖基地圆满落下帷幕。大赛自今年4月启动以来,吸引了1200多家企业、5000多位开发者踊跃参与,经过区域赛、半决赛和总决赛的...
日期:09-06
中科院物理所研究员曹则贤首次抖音直播:学习语言和哲学大有用处
每个人都离不开读书,但怎样才算读书人,怎样才是一个合格的读书人呢?9月4日晚7点,中国科学院物理研究所研究员曹则贤现身中国科学院大学官方抖音号 “国科大”的直播间,畅谈自己的读书感悟,并对...
日期:09-06
倒计时2天!重磅嘉宾已官宣,联想创新科技大会看头十足
倒计时2天! 2021联想创新科技大会确定将于9月8日如期而至。从目前透露的大会信息来看,可谓是大咖云集。据确切消息,微软全球首席执行官Satya Nadella(萨提亚・纳德拉)、英特尔全球首席执行官 Pat Gelsinger(...
日期:09-06
欺诈之矛VS反欺诈之盾 风控前置 - 斩断网络安全的“黑手”
如今,在线欺诈已经成为全球主要的网络犯罪形式之一。世界经济论坛(WEF)曾在《2020年全球风险报告》指出,网络犯罪将是未来十年(至2030年)全球商业中第二大最受关注的风险。到2021年,互联网黑灰产将给全球造...
日期:09-06
99公益日新增配捐日,单日超900万朵小红花点燃共同富裕专场
9月5日是国家第六个“中华慈善日”,2021年99公益日率先响应国家和社会的号召,启动了共同富裕专场,号召万千爱心网友关注民生发展类议题,助力公益慈善行业履行第三次分配的社会担当。
日期:09-06
Redmi Buds 3 真无线耳机发布
9 月 6 日消息 据 Redmi 红米手机官方微博,Redmi Buds 3 真无线耳机正式发布,该耳机将于 9 月 8 日 10 点在小米商城、小米有品开启新品众筹,众筹价为 159 元,零售价为 199 元。
日期:09-06
喜悦校园落实双减政策,引领快乐学习新风向!
7月24日,“双减政策”出台,教育行业面临严峻考验。国家印发《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》(「双减」意见),从业务、资本双重层面,严格限制课外补习。一路飞速...
日期:09-06
微信小程序Slam与图像追踪、实物追踪的商用场景分析
以现实世界中的某物体、某介质为参照物,将AR内容固定到该参照物的相对位置,伴随参照物的移动而发生相对位置的改变,即所谓的追踪。
日期:09-06
瞄准瓶装饮料市场 喜茶首推50%果汁含量果汁茶
前不久,喜茶首次发布果汁茶瓶装饮料重磅新品,包括地中海桃桃金凤和伊比利西柚绿妍两款果汁茶饮料。在瓶装饮料上喜茶同样以追求灵感与极致的品牌精神打造突破性的产品,此次喜茶首次在业内推出了果汁含量达到50%...
日期:09-05
12306网站进行适老化改造:验证码终于优化、界面简化
9月5日,12306官网正式开售中秋假期第一天的车票,为了方便老年人预定中秋假期车票,12306网站还进行了适老化改造,9月1日相关功能正式上线运行。
日期:09-05
无人干预即可 24 小时生产,揭秘小米、格力的“黑灯工厂”
有个新兴的神奇工厂,进去参观的时候,生产线上空无一人,只有设备状态指示灯、品质检验灯以及激光发射器在闪着微光,机器设备轰鸣,各个产线上一排排的零部件有条不紊地运转着,这些无不提醒着你工厂还是在...
日期:09-05
腾讯上架优麒麟操作系统
9 月 5 日消息 据网友 @aqsw 提供的线索,近日,腾讯云推出了原生的腾讯会议 Linux 版,Beta 客户端已上架优麒麟操作系统。
日期:09-05
国产蓝牙耳机十大排名,口碑最好的蓝牙耳机
对于很多喜欢高颜值蓝牙耳机的消费者来说,这些拥有着惊艳外观的蓝牙耳机往往第一时间能够俘获他们的心。因此,现在各大蓝牙耳机品牌推出的蓝牙耳机不仅实力强劲,而且颜值也非常高。下面我们一起来看看有哪...
日期:09-04
AirPods太贵?学生党可以试试这几款平替蓝牙耳机!
大家都是从学生党过来的人,想要买一副好的蓝牙耳机,但却苦于生活费不够。与其眼馋买不起的AirPods,不如瞅瞅低价位中的高性价比产品,用最实惠的价钱入手AirPods的平替,等之后有经济实力了再换昂贵的蓝牙...
日期:09-04
武汉云正式启用,华为表示将继续壮大本地服务团队
9 月 4 日消息 据华为官方公众号,今日,武汉云启用活动在武汉云运营管理中心成功举办。武汉云由华为和武汉市政府等合作建设。
日期:09-04
“泉质享”质量基础设施一站式服务平台上线!
“质量月”活动启动仪式结束后,由高质标准化研究院路征院长陪同领导一行来到国开会客厅,现场观摩章丘明水国家级经济开发区“泉质享”质量基础设施一站式服务平台。出行活动的领导有:...
日期:09-04
“高质通”质量基础设施一站式云服务平台 即将隆重启航
2021年,恰逢“两个一百年”奋斗目标历史交汇之时,国家接连强调“高质量发展”,意义重大。中发〔2017〕24号文件明确提出要加快国家质量基础设施体系建设。国家市场监督管理总局半年内...
日期:09-04
山东高速路全新“无感支付”省内上线:无需安装ETC
日前,据经济网报道,9月2日,在G2京沪港沟收费站,无感支付系统在人工收费车道投入使用。这是继自助智能车道后山东高速推出又一智能高速新举措,目前在山东省内的136个收费站全面上线。
日期:09-04
  专栏介绍
半斤 的专栏
半斤发表的文章