信息无障碍通道
您的位置:首页>>互联网

如何融合不同计算范式?Ray在蚂蚁的规模化应用实践

发布时间:2021-03-01 17:03  来源:互联网    背景: 无障碍阅读通道

  导语:随着互联网技术发展,新技术不断涌现,这制造了一个意想不到的新问题:打造服务时可能经常多种不同领域技术深度结合,但由于种种原因这些技术通常难以结合的那么好。蚂蚁集团基于开源的分布式计算框架Ray构建融合引擎,在不同场景去解决这个问题,取得了一定成果,现在就让我们来看看他们是怎么做的?

  利用Ray构建融合引擎

  随着互联网的发展,人们倾向于使用新的计算范式来应对不同的场景,新的技术也随之涌现,如OLAP引擎、图计算、流计算、深度学习等。这意味着在解决一个问题时,可能需要两项甚至多项技术进行深度的结合。

  Ray的使用也很简单,在目前比较流行的分布式框架,都有三个比较基础的分布式原语,分布式任务、对象和服务。而常用的面向过程的编程语言中,也刚好有三个基本概念,函数、变量和类。这三个编程语基本概念刚好可以和分布式框架的原语对应起来。在Ray系统中,可以通过简单的改动,实现它们之间的转换。

  但是,在将不同技术结合到一起的时候,会遇到多方面的挑战,包括:

  ● 复杂系统的协调。当多个核心计算引擎组合到一起的时候,系统的复杂性大大上升,也加大了工程师对复杂系统的协调难度;

  ● 性能优化。在进行性能调优工作时,工程师需要面对多种分属不同领域的计算引擎,导致系统难以突破性能瓶颈;

  ● 开发效率。工程师需要熟悉多个引擎如何协同工作,出现问题也难以定位和排查,导致开发效率低下。

  这正是蚂蚁集团开发融合计算引擎的原因,其目标是将多种不同范式的引擎融合在一起,更好的提供服务,融合计算基于分布式计算框架Ray开发而成,具备以下特性:

  ● 简单且通用的API。

  ● 同时支持多个编程语言。

  ● 弹性且可自定义的任务调度。

  ● 分布式状态管理。

  ● 易用的错误处理和故障恢复。

  ● 低成本的DevOps。

  Ray是由伯克利大学RiseLab实验室发起,蚂蚁金服共同参与的一个开源分布式计算框架,它提出的初衷在于让分布式系统的开发和应用能够更加简单。Ray作为计算框架具有敏捷的调度机制,也可以根据计算对资源使用的需求实现异构调度。

  Ray的使用也很简单,在目前比较流行的分布式框架,都有三个比较基础的分布式原语,分布式任务、对象和服务。而常用的面向过程的编程语言中,也刚好有三个基本概念,函数、变量和类。这三个编程语基本概念刚好可以和分布式框架的原语对应起来。在Ray系统中,可以通过简单的改动,实现它们之间的转换。

图片1.png

  左边是一个简单的例子,在这个函数前面需要加入一个“@remote”修饰符,就可以把一个函数转换成为分布式任务。任务通过“.remote”调用执行,返回值是一个变量,又可以参与到其他计算中。

  右边是另一个例子,通过加“@remote”修饰符的方式可以把一个类转变成服务。类中的方法可以通过“.remote”调用变成一个分布式任务,和函数的使用非常相似。通过这种方式可以实现从单机程序到分布式任务的转变,把本地的任务调度到远程的机器上进行执行。

  关于Ray更多的介绍参见:《提效降本:蚂蚁金服如何用融合计算改造在线机器学习》

图片2.png

  在蚂蚁的金融智能技术架构中,融合计算运行于Kubernetes集群之上,Ray作为分布式计算的基础设施,支持包括动态图计算、在线机器学习等应用框架,驱动上层实时风控、知识图谱等应用。

图片3.png

  蚂蚁深度参与了Ray开源项目的开发,在Ray社区贡献位于前二位。截止到2020年10月,前25位贡献者当中有8位蚂蚁工程师,22%的代码由蚂蚁集团贡献。蚂蚁为Ray贡献了包括Java API、容错性GCS等功能特性,并为Ray在大规模落地实践提供了宝贵经验。

  Ray在蚂蚁集团的规模化应用实践

  蚂蚁在18年Ray项目的早期就参与到了项目的开发,长期和Ray开源社区保持密切合作,并深度参与了Ray内核的开发。在蚂蚁内部,我们基于Ray构建了实时图计算、在线计算、在线机器学习等计算平台,以及多个直接运行在Ray之上的分布式业务系统。这些系统在微贷、风控、智能营销、金融智能、金融核心等核心业务领域得到了广泛的应用,平稳顺利地支持了多次双十一大促。

  下面,我们将简要介绍Ray在蚂蚁集团的规模化应用实践。

  首先是在线机器学习系统。

  传统的在线机器学习系统是一系列子系统组成的任务管道,原始的实时数据需要流经过滤、采样、特征工程、训练和部署等系统,才能发挥作用。这就给我们带来了数据一致性、系统稳定性、多平台等挑战。

  蚂蚁基于Ray开发出端到端的在线机器学习架构,如下图。

图片4.png

  这套架构在一个在线机器学习框架中包括实时数据处理、分布式训练以及模型部署三大组件,并通过Ray的分布式计算特性,支持跨编程语言的开发、exactly once、自动化训练和模型更新等。

图片5.png

  在该在线学习系统的运行时里,我们可以看到实时数据处理和训练及部署是高度集成在一起的,外部的实时数据被转换为微批处理,并实时同步给训练组件,然后进行部署,这种设计可以最大化系统效率。这套系统同时支持数据流API和SQL两种调用方式,进一步为业务方降低了使用的学习成本。

  另一个落地场景是大规模并行处理。

  随着业务场景和需求的不断深化扩展,许多在线应用开始承担分布式计算功能,然而,现有的应用架构缺乏分布式计算系统中的任务调度、集群管理、灵活容错 FO 等能力,导致在业务规模化过程中,容易出现集群负载不均、单机瓶颈、资源无法动态隔离等问题。

  银行卡支付一直是支付工具中重要的组成部分。银行卡业务涉及各类金融机构渠道,涉及的机构众多,各个机构的能力各不相同。如何保障用户在大促期间的高支付成功率,让用户的大促体验丝般顺滑存在极大的挑战。当银行卡支付发生异常时,需要尽快做出准确的决策,执行应变操作,以及时减少异常带来的损失。而传统的监控报警提供的秒级指标查询延迟较高,特别是对于决策常用的成功率联合计算指标,延迟更是超过1分钟,决策也因此只能做到分钟级的熔断能力,同时稳定性也不能满足大促的SLA要求。

图片6.png

  为了解决上述问题,我们基于 Ray 打造了Ray-MPP在线计算系统,具备端到端极低延迟、高可用、具备数据准确性保障(exactly once)等特点。

  一方面可以很好的处理在线计算应用中大规模细粒度任务调用的场景,另一方面发挥 Ray 运行时动态扩展的特点,使得系统具备更好的运行时资源动态隔离能力,并在处理任务时具备更强的灵活性。

图片7.png

  Ray-MPP 被运用在金融网络的金融决策链路中,为金融决策的指标查询计算和决策脚本计算提供分布式计算能力。经过实际场景中的检验,Ray-MPP 为业务在计算性能、稳定性、研发效能等各方面都带来了提升。

  未来展望

  目前,Ray项目发展势头良好,并且得到了越来越多的关注。除了蚂蚁之外,Uber、Intel、微软、字节跳动等公司也在积极参与Ray社区。同时,也有越来越多开源项目已经集成进了Ray的生态。

  未来,我们将从扩展性、性能、调度、弹性、生态建设等方面继续提升Ray的能力,把Ray打造成一个稳定、高效、易用、通用的分布式计算底盘,也期待和业界与社区有更多交流探讨。

  同时,我们也正在面向应届毕业生招聘2021年实习生,欢迎自荐和推荐。

  团队介绍

  我们是蚂蚁集团数据技术部,是整个蚂蚁集团数据引擎的底盘,为整个集团的各项业务发展保驾护航。我们打造的蚂蚁集团计算存储基础架构,其技术核心包括金融大数据的开放计算体系,金融级大规模图计算存储,金融智能机器学习平台及系统架构,以及适合金融场景的多模融合计算引擎等方面的研发和攻关。

  依托蚂蚁集团丰富的数字金融和数字生活场景,我们致力于打造新一代大数据和AI基础设施。

  我们的团队横跨美国硅谷和中国北京、上海、杭州和成都。我们追求的工程师文化是开放、简单、迭代、追求效率、用技术解决问题!

  你想要的我们都有!!!

  ● 平台好:顶尖的工程师团队,超大规模数据计算平台,Stanford、Berkeley等一流高校的合作伙伴, SQLFlow等多个自研和开源项目。

  ● 成长快:面对不可多见的一流计算场景,挑战世界级技术难题,主管师兄带你飞。

  ● 福利好:提供业内极具竞争力的薪资,各种补贴我们都帮你想到了。

  ● 活动多:生日会、工程师节日、阿里日、战役庆功、各种团建……来了你就知道了!

  招聘需求

  面向对象:2021.11-2022.10期间毕业的应届毕业生

  岗位类型:

  ● 研发工程师:C/C++, Java, Python, Go

  ● 算法工程师:机器学习

  技术方向:图计算、分布式计算、分布式存储、数据库、人工智能

  工作城市:杭州、北京、上海、成都

  应聘方式:发简历至antcomputing@antgroup.com

  需要注明【岗位+编程语言+技术方向】或者找学长学姐帮你内推。

  期待大家以最帅/最美的姿势跑完招聘流程,等待offer降临!

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
货拉拉司机钟师傅:做人做事讲的就是一个“信”字
钟师傅是名90后,由于家庭原因,早早的出入社会,在工厂打过工,给别人开过车,算下来跑车生涯差不...
日期:04-16
从高效会议到智慧协同:MAXHUB为数字化转型按下加速键
2020年,在防疫常态化的大背景下,各行各业快速跨入“数字化元年”,数字化办公需求暴涨...
日期:04-16
朱婧汐改编经典民乐 演绎天猫国潮东方乐界赛博国风大片
说起赛博朋克,大家往往会想到《银翼杀手》《攻壳机动队》等电影作品,但说起赛博朋克风格的歌手,或者...
日期:04-16
天猫国潮联手国货品牌打造东方乐界 潮流化演绎传统民乐文化
国风当红,其中,民乐文化则是一股全新崛起的力量。年轻人们不再认为民乐是被抛之脑后的古董,而是可以...
日期:04-16
五一5天小长假或将引爆国内游市场 聚美旗下街电助你一“电”之力
“五一连放5天假”的通知让许多人激动不已,没想到好消息又来了,北京宣布:自3月16日起...
日期:04-16
亿航空中新媒体1300架无人机点亮2021 争做国家安全守护者
4月15日,是我国《国家安全法》颁布实施以来的第六个全民国家安全教育日,全国各地开展多种活动,提...
日期:04-16
蓝凌引领OA进入微服务时代,万人共探生态协同新世界
4月15日,以“新组织、新能力、新商业”为主题的蓝凌用户大会召开!微服务架构领先的MK-Pa...
日期:04-16
从“被动学”到“超主动”,洪恩识字如何点燃孩子内驱力?
孩子一过3岁,家长的关注点就从“吃好喝好玩好”的游戏频道切换到了“如何进行知识...
日期:04-16
一部手机玩转一辆车,哈啰超连网车机系统引领智能进化
2007年1月9日,搭载iOS系统的初代iPhone横空出世,将手机行业带入智能机时代;2008年9月23日,谷歌发...
日期:04-15
爱回收科技资讯:如何恢复手机里已删除的数据?
相信很多人都有误删微信聊天记录后特别后悔的经历,就像丢了一件特别重要的东西。我敢肯定你也有过...
日期:04-15
金柚网七周年:推陈·初心 赋能企业新未来
一家发展迅速的优质企业,大体都会经历相同路径:踏上时代的列车,利用好科技的力量,坚持不懈的创...
日期:04-15
二手电商进入红利期 爱回收如何打造核心优势?
近一个月时间,快手、抖音在二手电商领域动作频频。
日期:04-15
MAXHUB 升级智慧协同平台,携10款全场景协同软硬件亮相
4月15日,MAXHUB线上新品暨战略发布会隆重举行。发布会上,MAXHUB发布了全新的品牌战略,实现从&ldq...
日期:04-15
爱回收科技资讯:跳票后的苹果春季新品发布会这次终于定了
4月14日苹果官宣2021春季新品发布会海报,时间定为4月21日凌晨1点,举办形式为线上方式,此次线上活...
日期:04-15
iEnglish母语式学习解决方案 这篇文章讲透了
用汉语拼音或汉字标注英文单词,听到英文句子首先翻译成汉语再尝试用英语说出来,即使学了多年英语...
日期:04-15
还债罗永浩再引热议,或将爆出“恶劣投资者”
今天上午“罗永浩再回应被强制执行”登上热搜,这已经是本月内他第四次上热搜,而且都与&...
日期:04-15
抖音举办青少年保护开放日 未成年人打赏退款时效平均19.7小时
4月13日,抖音在北京举办媒体开放日,来自抖音安全中心、直播、青少年模式以及字节跳动企业社会责任部...
日期:04-15
驱动人生8全新升级,开启2021全面时代
驱动人生8在4月14日全新升级,开启全面时代!
  驱动人生8此次更新将为游戏用户带来更加精准...
日期:04-15
三星探知未来科普创新大赛 帮助中国青少年实现科技梦
俗话说:十年树木,百年树人,青少年是国家的未来和民族的希望。因此,做好青少年教育工作,才能实...
日期:04-15
互联网地图数据共建进行时!百度地图联合长沙数资局,打造店铺数据采集新模式
随着居民衣食住行的需求提档,精准位置服务在居民生活出行中的重要性日益凸显。4月14日,百度地图应...
日期:04-15
  专栏介绍
爱萌妮儿 的专栏
爱萌妮儿发表的文章