信息无障碍通道
您的位置:首页>>互联网

小红书基于DorisDB实现数据服务平台统一化,简化数据链路

发布时间:2021-06-21 15:13  来源:中国资讯报道网    背景: 无障碍阅读通道

  小红书是年轻人的生活记录、分享平台,用户可以通过短视频、图文等形式记录生活点滴,分享生活方式。在2017年后,随着业务类型和用户体量的爆炸式增长,各类数据分析的需求以及应用系统的数据需求快速出现,例如:商业智能分析,数据应用报表,用户行为分析、算法策略数据等。小红书大数据团队逐步引入了多种OLAP分析引擎来更好的满足需求。DorisDB采用了全面向量化的计算技术,是性能非常强悍的新一代MPP数据库。通过引入DorisDB,小红书构建了全新的统一数据服务平台,大大降低了数据链路开发复杂性,提升了高并发极速查询能力。

    一、OLAP引擎在小红书的演进史

  第一阶段,在2017年之前,数据总量还不是特别大,这个阶段使用AWS的Redshift,此时数仓体系还没有完全建立,很多数据需求的实现都是用短平快、烟囱式开发的方式来满足。数据ETL、数仓模型到最后报表端展现,在Redshift中一站式完成。

  但随着业务复杂度不断提升,以及数据量的快速增长,这种模式很快遇到了瓶颈。主要有以下问题:

  ·Redshift无法在不影响线上查询性能的前提下弹性扩展,一旦涉及到扩容,就会涉及到数据重分布,从而影响集群的性能以及可用性。

  ·ETL任务严重影响集群可用性。在Redshift中同时进行ETL任务的时候,会大量抢占资源,从而影响数据分析的效率,导致查询超时甚至因为集群负载过大后整个集群崩溃不可用。

  ·没有良好的存算分离,数据存储容量存在瓶颈,无法满足随业务而快速增长的数据量存储需求。

  第二阶段,随着数据仓库在Hadoop/Hive体系上搭建和完善,ETL任务全部转移至Hadoop集群,这个阶段使用Presto完成OLAP分析。Presto天然和Hive共享元数据信息,且共同使用物理数据存储,即插即用。大量的对数仓表的灵活查询使用Presto完成。

  第三阶段,业务实时性增强,对查询性能的要求不断升高,同时许多数据应用产生。这个阶段引入了ClickHouse,用来建设性能更强悍,响应时间更短的数据分析平台以满足实时性要求。

  第四阶段,小红书大数据团队进行了实时数仓的整体设计和搭建,同时为统一对各业务团队提供数据接口而构建了数据服务平台,外接了多个内部或者To B服务的应用系统。既需要做低延时的复杂查询,同时对并发量也有很高的要求。这个阶段我们又根据场景引入了DorisDB,以满足以上各类需求。

    二、小红书数据分析体系架构

    1、小红书OLAP体系现状

  小红书的整个数据分析体系,由数据采集、数据存储加工/数据共享和应用层组成。

    1)数据采集

  服务器日志或者App日志通过Flume收集埋点日志,数据同时分发到离线存储S3和实时存储kafka;线上业务数据库通过Canal实时采集MySQL binlog等信息。

    2)数据存储加工

  离线数据处理:利用Hive/Spark高可扩展的批处理能力承担所有的离线数仓的ETL和数据模型加工的工作。

  实时数据处理:Flink完成实时侧数据的ETL(包括维度丰富,双流Join,实时汇总);离线表通过调度平台同步到ClickHouse/DorisDB,Flink实现了ClickHouse和DorisDB的sink connector,落地到DorisDB或ClickHouse。

    3)数据共享

  数据共享层的主要提供对外服务的底层数据存储,离线或者实时的数据写入相关的数据库组件中,面向多种服务,不同场景提供查询能力。

  数据共享层主要有TiDB/Hbase/ClickHouse/DorisDB。通过DorisDB和ClickHouse提供的高速OLAP查询能力,在应用侧承接了报表平台,提供即席分析的平台,对开发侧提供数据接口,以及实现多个数据产品(比如流量分析平台,用户标签平台)。

    4)应用层

  应用层主要为面向管理和运营人员的报表,具有并发、延迟、需求更新频繁等要求,面向数据分析师的即席查询,要求支持复杂sql处理、海量数据查询等能力。

    2、各OLAP分析工具选型比较

  #FormatImgID_1#

    1)Clickhouse:

  优点:

  ·很强的单表查询性能,适合基于大宽表的灵活即席查询。

  ·包含丰富的MergeTree Family,支持预聚合。

  ·非常适合大规模日志明细数据写入分析。

  缺点:

  ·不支持真正的删除与更新。

  ·Join方式不是很友好。

  ·并发能力比较低。

  ·MergeTree合并不完全。

    2)DorisDB:

  优点:

  ·单表查询和多表查询性能都很强,可以同时较好支持宽表查询场景和复杂多表查询。

  支持高并发查询。

  ·支持实时数据微批ETL处理。

  ·流式和批量数据写入都能都比较强。

  ·兼容MySQL协议和标准SQL。

  缺点:

  ·周边生态比较不完善。

  ·部分SQL语法不支持。

    3)TiDB/TiFlash:

  优点:

  ·支持更新/删除。

  ·兼顾了OLTP的需求。

  ·支持Flink ExactlyOnce语意,支持幂等。

  缺点:

  ·查询性能弱,无法较好支持OLAP查询场景。

  ·不支持实时预聚合。

  ·TiFlash暂时不支持所有的SQL写法以及函数。

    三、DorisDB在广告数据中心的应用实践

    1、业务场景概述

  广告业务的核心数据有两大块:一个是广告的曝光点击流,即所有广告单元的展点销信息;第二个是广告效果归因数据,比如说在小红书站内的订单转化,相关表单提交,笔记的点赞、收藏、加关注等参与程度。

  基于这些数据,根据不同的业务场景需求,实时汇总出相关业务统计指标,对外提供查询分析服务。

    2、原有解决方案

    1)技术架构

  在引入DorisDB之前,是用大量Flink任务进行写入MySQL/Redis/HDFS/ClickHouse,以达到数据的落地。

  Flink中核心处理逻辑有几类:

  ·前端用户广告展示信息事件流和后端算法推荐流双流关联并去重,完善广告信息。

  ·接入反作弊,清除作弊事件。

  ·按不同业务场景需求汇总结果写入不同的数据库组件中。

    2)技术痛点

  原有架构主要有以下问题:

  ·数据逻辑没有很好做归拢合并,维护工作量大,新需求无法快速响应。

  ·Clickhouse的并发能力不足以及扩容复杂度在可见未来会成为整体广告系统瓶颈。

  ·因为Flink层逻辑散落,由大量小的Flink任务构成,因此导致整个架构无法满足高可用要求,只要任何一个任务出现问题,都会影响线上业务。

    3、基于DorisDB的解决方案

  因此我们希望对原有体系进行优化,核心思路是利用一个OLAP引擎进行这一层的统一,对OLAP引擎的要求是比较高的:

  ·能支撑大吞吐量的数据写入要求。

  ·可以支持多维度组合的灵活查询,TP99在100ms以下。

  ·有实时汇总上卷的能力,提高查询性能,支持qps达到上万的要求。

  ·通过Binlog实时同步MySQL的数据,并及时对数据进行封装。

  ·比较好的支持多表关联。

  经过大量调研,DorisDB比较契合广告数据中心的整体要求。基于DorisDB本身高效的查询能力,支持高QPS的特性,可以为广告的算法策略、广告实时计费、广告平台实时的数据报告提供一体化服务。

  新架构具备以下优点:

  ·结构清晰,Flink专注于数据的清洗,业务逻辑计算从Flink迁到DorisDB内实现,DorisDB就是数据业务逻辑的终点。

  ·可以维护统一的数据口径,一份数据输入,一套广告统计口径输出。

  ·在底层实现DorisDB主备双活,更好的支持高QPS场景。

    1)数据表设计

    数据模型设计

  DorisDB本身提供三种数据模型:明细模型/聚合模型/更新模型。对小红书广告业务来说,三种数据模型各尽其用:

  ·广告曝光点击流写入聚合模型,按照业务所需要的维度,如广告主、广告类型、创意,广告单元,搜索词,地域,用户属性等设计聚合的所有维度,根据所需要的指标进行聚合。

  ·广告侧后端有很多的线上MySQL,通过DorisDB更新模型接入MySQL进行实时的表更新。

  ·在Hadoop离线数仓中还定期统计了一些数据报告同步到DorisDB中,这些数据使用了DorisDB的明细模型。

    数据分区/分桶

  DorisDB提供的数据分区功能,可以很好的提升广告场景下查询的性能。例如,广告侧查询常见的一种查询场景,是查询过去某一段时间内的数据,我们可以在DorisDB中根据时间进行分区,过滤掉不必要的分区数据。另外,广告查询会根据广告主进行筛选,我们将广告主ID作为排序键的最前列,就可以快速定位到广告主的数据,DorisDB还支持按照广告主ID进行Hash分桶,减少整个查询的数据量进行快速定位,这对高并发场景也具有非常大的意义,尽量减少了查询语句所覆盖的数据范围,提高了并发能力。

    物化视图

  我们利用DorisDB物化视图能够实时、批量构建,灵活增加删除以及透明化使用的特性,建立了基于广告主粒度、基于用户特征粒度、基于广告单元粒度、基于具体创意粒度的物化视图。基于这些物化视图,可以极大加速查询。

    2)数据导入

  实时的数据导入分为两种:

  ·有ETL处理需求的,会利用Flink进行ETL逻辑转化,使用Flink DorisDB Connector写入DorisDB。

  ·在实时数仓公共层的,配置Routine Load任务,将数据10s一个batch写入DorisDB表中。

  离线数据报告导入DorisDB:

  ·在DorisDB提供的原生的Broker Load基础上在小红书数仓的调度平台上封装了导数模版,通过界面化配置的方式,将离线数仓的表导入到DorisDB中。

    3)数据查询

  在我们的查询场景中,广告主业务查询服务对查询并发度要求很高。DorisDB采用的是MPP查询架构,底层数据按照Range和Hash两级分片,非常适合广告主业务的查询场景。

  内部做的线上查询压测结果,每个FE能到2000左右的QPS,整个集群能提供上万的QPS,TP99的查询在100毫秒以下。

    4)系统运维

  广告数据中心是非常核心的一个线上服务,因此对高可用及灵活扩容能力有非常高的要求。DorisDB支持fe/be多副本,没有单节点问题,当有节点故障的时候也可以保证整个集群的高可用。另外,DorisDB在大数据规模下可以进行在线弹性扩展,在扩容时无需下线,不会影响到在线业务,这个能力也是我们非常需要的。

    总结

  小红书从今年年初开始调研引入DorisDB,当前已经有五个DorisDB集群在稳定运行中,其中有两个开始稳定提供线上服务,三个还在试运行。引入DorisDB后,实现了数据服务统一化,大大简化了实时数据处理链路,同时也能保障较高的查询并发和较低的响应延迟要求,之后将用来提升更多业务场景的数据服务和查询能力。最后,感谢鼎石科技的大力支持,也期望DorisDB作为性能强悍的新一代MPP数据库引领者越来越好!(作者:吴浩亮 小红书大数据团队,数据仓库架构师)

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:中国资讯报道网

本文评论
SSD固态硬盘怎么选?SSD缓外速度减半使用有什么影响?
如何选择适合自己的SSD对于不同类型的用户都会产生一些困扰,尤其是对于市面上鱼龙混杂的产品,什么原厂颗粒、PCIE4.0、缓存外速度、4K性能、质保等等关键词都是需要考虑的因素,这对于很对不了解电脑配件的消费者就产生了选择困难症,尤其是近期接连有大厂被爆旗下产品跟换颗粒,缓存速度减半,这就更让普通消费者...
日期:08-28
看索尼电视魅力有多大?让球王奥斯卡和宝宝其乐无穷
近日,上海海港的明星球员——奥斯卡,在社交平台晒出了自己休息时与自家萌娃的温馨日常。“奶爸”奥斯卡不仅监督孩子学习,还带着孩子一起玩耍娱乐。奥斯卡显然游刃有余,还晒出了自己新入手的“带娃神器”——索尼电视A90J!上海海港队组最好的球员之一也用索尼电视,这让不少...
日期:08-28
BCS2021:奇安信推出零信任身份安全解决方案3.0
8月27日,在2021北京网络安全大会(BCS2021)期间,奇安信身份安全事业部总经理张泽洲正式发布奇安信零信任身份安全解决方案3.0。据介绍,奇安信零信任身份安全解决方案3.0核心内容可概括为“零信任123&rd...
日期:08-27
腾讯公益平台年捐赠人次首破亿,重庆、长沙、郑州表现亮眼"
2020年腾讯公益平台年捐赠人次首度突破1亿,累积超过4亿;爱心网友捐款总额达38.49亿元,其中约九成用于脱贫攻坚和乡村振兴。2021年“99公益日”到来前夕,腾讯公益公布了上述数据,充分体现了互联...
日期:08-27
苹果iPhone13/Pro系列手机到底涨不涨价?业内人士回答了!
ITBEAR科技资讯8月27日消息,有知名人士Jon Prosser带来最新消息:iPhone13系列手机会在9月14日亮相,而全球范围开售时间在9月24日,其可信度很高。如果抛开外界因素(COVID-19疫情等)的话,小编还真就是100%...
日期:08-27
云之家亮相2021届重庆智博会
云之家报表秀秀亮相2021届重庆智博会,本次会议将沿用“智能化:为经济赋能,为生活添彩”的主题,于8月23日—25日采用“线上+线下”方式举办。
日期:08-27
中国信通院:我国 IPv6 分配地址用户数 16.1 亿,活跃用户数 5.35 亿
8 月 27 日消息 8 月 25 日,工业和信息化部召开 IPv6 流量提升三年专项行动全国部署宣贯会。据中国信通院消息,中国信息通信研究院副院长王志勤在会上发布了国家 IPv6 发展监测平台最新监测数据。
日期:08-27
再下一城,鸿雁最大智能家居体验馆落地中山星光联盟
体验消费时代的到来,线下沉浸式、场景化的体验消费空间已成众多品牌营销新阵地,随着智能家居市场竞争加速,越来越多的知名品牌开始着力布局线下体验店。近日,智能家居头部企业鸿雁迈出门店拓展新步伐,集...
日期:08-27
开学有什么数码好物值得买,可以选择当贝激光投影X3
马上就开学了,作为大学生,其实是需要一些提升生活质量和学习效率的东西,今天给大家分享一下开学必备的数码电子产品,大家可以根据自己的需求去选择。
日期:08-27
重新定义边界安全新模式 奇安信推出边界安全栈新能力
8月27日下午,在2021北京网络安全大会发布系列活动上,奇安信集团副总裁吴亚东为大家带来了边界安全栈新能力的发布,聚焦安全运营,重新定义边界安全新模式。
日期:08-27
tcl电视安装U盘app方法,安装U盘里的软件真的非常简单
TCL电视作为老牌电视软件,一直备受消费者喜爱,在昨天TCL电视也发布了新品mini LED电视,不管是从外观还是硬件来说都是无可挑剔的。
日期:08-27
三星 Galaxy S21 Ultra 被曝运行 Android 12 系统跑分
8 月 27 日消息 据外媒 SamMobile 消息,三星 Galaxy S21 Ultra 5G 手机的一条跑分信息出现在 Geekbench 5 网站,值得注意的是,手机运行的是 Android 12 系统。目前三星最新的 One UI 4.0 系统基于 Android ...
日期:08-27
在“抖音新潮好物夜”,看见比娱乐更重要的事情
(本文转自微信号:镜像娱乐ID:jingxiangyule,文丨栗子酒、顾贞观,编辑丨李芊雪)
日期:08-27
Comper×脱口秀大会,用全新沟通方式圈粉年轻人
在年轻化营销主导消费趋势的2021年,对于品牌而言,找到自身与年轻人心智的市场结合点,通过符合圈层与潮流文化的营销手段来占领和打通年轻人的生活场景,已经成为品牌面向Z世代的重要选择。
日期:08-27
百度智能云 ×美欣达|实现“双碳”目标,看下纺织业的智慧样本
中国经济正处于由高速增长到高质量发展的转型过程中,伴随着产业升级,中国制造业也将逐步从“中国制造”转向“中国智造”。这就要求制造企业向“绿色”、“高效”...
日期:08-27
吸尘器什么牌子好 三款知名吸尘器黑科技大比拼
后疫情时代,居家健康成为了人们关注的重点。相对扫地机器人而言,无线手持式吸尘器可以适应多场景的清洁,成为现代家庭最受欢迎的清洁家电之一。最新数据显示,2021年1-4月吸尘器市场规模达72亿元,同比增长...
日期:08-27
跨越速运 x DorisDB:统一查询引擎,强悍性能带来极速体验
跨越速运集团有限公司创建于2007年,目前服务网点超过3000家,覆盖城市500余个,是中国物流服务行业独角兽企业。跨越集团大数据中心负责全集团所有数据平台组件的建设和维护,支撑20余条核心业务线,面向集团...
日期:08-27
腾讯阿里打通生态,针锋相对的时代或将结束
  前些日子,阿里张勇表态将会和腾讯打通生态。目前双方生态最核心的断点在淘宝支付和微信外部链接。因此可以判断,未来打通生态是指淘宝可以使用微信支付,同时微信内也可以使用淘宝平...
日期:08-27
欧盟将正式对英伟达 540 亿美元收购 ARM 交易展开调查
8 月 27 日消息 今日外媒《金融时报》发布消息,称欧盟已经正式对英伟达 540 亿美元收购 ARM 交易展开调查。此前监管机构已经与英伟达进行了为期数月的非正式讨论,正式的调查将于 2021 年 9 月开启。
日期:08-27
首批通过TAG反欺诈认证,国双AD成功的秘诀原来于此
近日,国双广告监测分析优化平台Ad Dissector(以下简称AD)成功通过TAG数字广告流量反欺诈国际认证,国双成为国内首批获得该认证的第三方广告监测服务商。为什么国双能够首批通过TAG反欺诈认证,获得行业权威资质...
日期:08-27
  专栏介绍
海露 的专栏
海露发表的文章