天天看点

【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)

文章目录

  • 一、飞天系统
  • 1.系统简介
  • 2.系统定义
  • 3.系统架构
  • 4.系统核心
  • 5.系统功能
  • 6.大事记
  • 二、飞天洛神
  • 0.新闻资讯
  • 1.洛神的简介
  • 2.洛神的架构
  • 3.洛神的技术演进之路
  • 4.洛神的特点
  • 5.洛神的关键设计
  • 6.结束语

一、飞天系统

1.系统简介

飞天(Apsara)是由阿里云自主研发、服务全球的超大规模通用计算操作系统。

飞天诞生于2009年2月,为全球200多个国家和地区的创新创业企业、政府、机构等提供服务。

它可以将遍布全球的百万级服务器连成一台超级计算机,以在线公共服务的方式为社会提供计算能力。

从PC互联网到移动互联网到万物互联网,互联网成为世界新的基础设施。飞天希望解决人类计算的规模、效率和安全问题。

飞天的革命性在于将云计算的三个方向整合起来:提供足够强大的计算能力,提供通用的计算能力,提供普惠的计算能力。

【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)

2.系统定义

系统为什么叫“飞天”?

主要缘由则是在世界神话中,不乏飞向太空这个主题,这是人类对探索的终极想象力的定义:飞向未知的浩瀚苍穹。在中国神话中,轻盈,美好的飞天更承载了幸福与快乐的意义。所以阿里云把自己开发的通用计算操作系统命名为“飞天”,是希望通过计算让人类的想象力与创造力得到最大的释放。

3.系统架构

飞天的主要组成部分包括哪些,架构是怎样的?

【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)
  • 飞天管理着互联网规模的基础设施。最底层是遍布全球的几十个数据中心,数百个PoP节点。飞天所管理的这些物理基础设施还在不断扩张。
  • 飞天内核跑在每个数据中心里面,它负责统一管理数据中心内的通用服务器集群,调度集群的计算、存储资源,支撑分布式应用的部署和执行,并自动进行故障恢复和数据冗余。
  • 安全管理根植在飞天内核最底层。飞天内核提供的授权机制,能够有效实现“最小权限原则(Principle of least privilege)”。同时,还建立了自主可控的全栈安全体系。
  • 监控报警诊断是飞天内核的最基本能力之一。飞天内核对上层应用提供了非常详细的、无间断的监控数据和系统事件采集,能够回溯到发生问题的那一刻现场,帮助工程师找到问题的根源。
  • 在基础公共模块之上,有两个最核心的服务,一个叫盘古,一个叫伏羲。盘古是存储管理服务,伏羲是资源调度服务,飞天内核之上应用的存储和资源的分配都是由盘古和伏羲管理。
  • 在基础公共模块边上,还有一个服务,叫做天基。意思是“飞天的基础”。天基是飞天的自动化运维服务,负责飞天各个子系统的部署、升级、扩容以及故障迁移。
  • 飞天核心服务分为:计算、存储、数据库、网络。
  • 为了帮助开发者便捷地构建云上应用,飞天提供了丰富的连接、编排服务,将这些核心服务方便地连接和组织起来,包括:通知、队列、资源编排、分布式事务管理等等。
  • 飞天接入层包括数据传输服务,数据库同步服务,CDN内容分发以及混合云高速通道等服务。
  • 飞天最顶层是阿里云打造的软件交易与交付第一平台------云市场。它如同云计算的“App Store”,用户可在阿里云官网一键开通“软件+云计算资源”。云市场上架在售商品几千个,支持镜像、容器、编排、API、SaaS、服务、下载等类型的软件与服务接入。
  • 飞天有一个全球统一的账号体系。灵活的认证授权机制让云上资源可以安全灵活地在租户内或租户间共享。
  • 七年实践,飞天已经建立一个完善的云产品体系。同时还能提供互联网级别的租户管理和业务支撑服务。

4.系统核心

飞天操作系统的核心竞争力和核心能力是什么?

  • 自主可控:对云计算底层技术体系的把控力,自主研发,自己解决核心问题。
  • 调度能力:10K(单集群1万台服务器)的任务分布式部署和监控。
  • 数据能力:EB(10亿GB)级的大数据存储和分析能力。
  • 安全能力:为中国35%的网站提供防御。
  • 大规模实践:经受双11、12306春运购票等极限并发场景挑战。
  • 开放的生态:兼容大多数生态软件和硬件,比如CLoud foundry、Docker、 Hadoop。

5.系统功能

飞天操作系统解决了什么不一样的问题?

  • 算得起:客户的计算成本问题,即开即用,零capex,零基础运维人员投入,计算资源弹性扩展,降低opex
  • 算得快:客户的计算规模瓶颈问题,以及客户应用的实时性问题
  • 算得准:客户应用的数据智能问题,让小客户具备和大公司一样的数据智能的能力
  • 高可用:客户应用的业务连续性问题,客户的服务可以部署在多个region,并支持灵活多样的数据同步机制,打造高可用系统
  • 安全性:安全管理根植在飞天内核最底层,还建立了自主可控的全栈安全体系
  • API经济:让开源产品、ISV、SI、和云SP能够有效协同为客户提供服务

6.大事记

飞天大事记

  • 2008年

    9月 阿里巴巴确定“云计算”和“数据”战略,决定自主研发超大规模通用计算操作系统“飞天”。

    10月 飞天团队正式组建。

  • 2009年

    2月 飞天团队在北京写下第一行代码。

  • 2010年

    4月 阿里金融订单贷款产品“牧羊犬”在飞天平台上线。

    8月 飞天作为通用平台,成为阿里集团内部四大应用的公共基础:搜索(大规模在线、离线应用)、邮箱(结构化在线应用)、小文件存储(海量文件存储)、阿里金融(大数据应用)。

  • 2011年

    7月 阿里云开始大规模对外提供基于飞天的云计算服务。

  • 2013年

    8月 阿里云成为世界上第一家对外提供5K云计算服务能力的公司。

  • 2014年

    7月 阿里云发布产品MaxCompute。通过MaxCompute在线服务,小型公司花几百元即可开始分析海量数据。

  • 2015年

    1月 12306将车票查询业务部署在飞天上,春运高峰分流了75%的流量。

    6月 历经一年半时间,阿里巴巴和蚂蚁金服完成“登月计划”,将所有数据存储、计算任务全部迁移至飞天平台。

    10月 Sort Benchmark2015年排序竞赛中,飞天用377秒完成100TB的数据排序,打破四项世界纪录。

  • 2016年

    1月 阿里云发布一站式大数据平台“数加”,开放阿里巴巴十年的大数据处理能力,首批亮相20款产品。。

    4月 阿里云发布人工智能ET。ET基于飞天强大的计算和大数据处理能力进化而来,初步具备听、说、看的感知能力,并能在交通、制造等领域辅助人类进行全局决策。

    4月 阿里云发布专有云(Apsara Stack),支持企业客户在自己的数据中心部署飞天操作系统。

二、飞天洛神

0.新闻资讯

“最好的网络就像神一样,无处不在,又感知不到她的存在 …… 大繁至简,这是我们努力的方向。” – 阿里云网络高级技术专家 孙成浩

2018杭州·云栖大会的主会场上,阿里云产品总监何云飞介绍了阿里云自主研发的云操作系统飞天的全面升级版飞天2.0。作为飞天2.0核心组成部分之一,洛神首次向外界揭开了她神秘的面纱。在随后的未来网络技术专场上,阿里云网络高级技术专家孙成浩对飞天洛神进行了更为详细的阐述。本文是首次对飞天洛神的概念、演进、架构、特点等方面进行系统化的解读。

【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)

1.洛神的简介

从物理网络到用户感知到的网络之间存在一个虚拟网络层。在阿里云,我们给这套虚拟网络系统起了个名字,叫做洛神。洛神是阿里云飞天中负责虚拟网络的系统,她为阿里云客户提供了丰富的网络产品,如VPC、SLB等。同时,她也是ECS,RDS,OSS,NAS等100多个云产品的网络基础设施。

她还支撑了阿里巴巴集团和蚂蚁金服集团众多业务,如电商、支付、物流等。在全球范围内,洛神服务着百行百业超过百万的用户。在双十一、世界杯、春运等互联网流量的尖峰时刻,为每一个消费者的流畅网络体验而默默保驾护航。

很多人都知道阿里云有一个飞天(Apsara)系统,系统中各组件是用各种神的名字命名的,包括盘古,伏羲,女娲,神农等,其中盘古是分布式文件系统,伏羲是分布式调度系统。为什么叫虚拟网络系统叫洛神呢?在古代,河运是非常重要的交通手段,就好比今天的网络一样。因此,在给虚拟网络系统起名的时候,我们就起了一个河神的名字,叫洛神。

2.洛神的架构

洛神是阿里云的分布式操作系统飞天的一部分。在飞天的基础架构里面,最上层是各种云产品,包括大家熟悉的云产品RDS,ECS,VPC,SLB等等,支撑这些是飞天的3个基础组件,包括存储系统盘古,资源管理伏羲和网络管理洛神。也就是说,洛神除了支撑了阿里云的网络云产品之外,另外一个重要的角色就是支撑了其他云产品的网络基础设施。

【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)

讲到洛神的技术架构,洛神系统由3大模块组成 – 数据平面,控制平面和管理平面。

数据平面负责云网络中数据包的处理,它就如同物理世界中的网线和路由交换设备,把数据包高效率低延迟的从发送端送到目的地。类似的,洛神数据平面也包含各种不同角色的组件,包括支持各种不同类型计算形态的虚拟交换机,用于数据中心互连的DCN网关,用于云网络连接公网的internet网关,用于云上云下互连的混合云网关,提供负载均衡能力的负载均衡网关和提供端接入能力的智能接入网关。

为了提高这些组件的转发性能,洛神不仅使用了软转发的技术,而且也对软硬件结合甚至纯硬件的技术进行了广泛应用。

控制平面则控制如何处理数据包,他是洛神的业务大脑。从技术上看,洛神的控制平面是一个层次性的分布式控制系统,最底层的设备控制器主要负责控制和管理数据平面的各种组件,同时在每个区域存在一个虚拟网络控制器,在全局存在一个全球路由控制器。

区域的虚拟网络控制器则负责本区域的云网络的管理与调度, 全局路由控制器则负责协调调度各个区域的资源形成一张全球的云网络。基于虚拟网络控制器和全局路由控制器之上的则是NFV控制器,完成虚拟网络高级功能例如VPN等产品的编排和抽象。

洛神的管理平面是网络运维和运营的中枢,它管理着海量的网元以及用户,这里的海量指的是千万级虚拟机和百万级网元。为了能做到这一点,洛神的管理平台是基于大数据以及机器学习技术实现的,它对网络运行当中产生的海量数据进行实时/离线计算,数据建模,来驱动网络资源的提前规划,网络系统的日常维护以及网络产品的智能运营。

整个管理平面包括了一套高性能,分布式的数据分析系统,由它分析出来的数据提供给智能运维和智能运营系统,完成资源规划,网络建设,系统变更,实时监控,故障逃逸,产品运营等整个网络产品生命周期的工作。最终达到排无人值守的网络变更,先于用户的问题发现,高效简单的故障逃逸以及丰富全面的产品及用户运营的效果。

【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)

3.洛神的技术演进之路

洛神能够成为飞天的四大支柱之一,不是一天炼成的。洛神的演进经历了四个阶段。

首先是经典网络阶段,在这个阶段,网络只有一个概念,就是公网带宽。经典网络阶段的问题是用户无法自定义网络拓扑,这样使得用户无法完成云上云下的混合云联通。为了解决这个问题,洛神进入了VPC阶段,VPC阶段里,洛神在每个地域虚拟了数百万张网络,并且用户可以完全自定义这张网络。

随着网络规模越来越大,洛神也从区域网络进入到全球网络的阶段,在这个阶段,洛神主要解决如何更好的管理超大规模网络的问题,云企业网和云连接网构成了第三代洛神的两个主要特性。

满足了主要的客户的需求之后,我们开始思考如何进一步提升用户体验。用户对网络的核心诉求是什么?其实,客户的最大诉求是网络足够强健可靠,不要发生问题。就像使用水和电一样,用户是不需要了解发电站和泵站在哪里的。因此,洛神希望网络对用户是无感知的,又是无处不在的。

洛神的发展,是一个从0到1,到100,再回到0的演进过程,大繁至简,这是我们在研发下一代洛神中努力的方向,这也是我们首先在业界提出Networkless理念背后的思考。

【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)

4.洛神的特点

洛神的关键特点,包含安全,弹性和可靠,这3个特性也是洛神达到最终Networkless状态的关键特征。

安全是基本盘,因为overlay技术把网络逻辑的隔离掉,用户的网络之前完全不会互通。并且洛神中还包含了各种加密服务可以给到用户,打造更深层次的的安全。弹性有两个数字,一个是秒级的转发性能的弹性,洛神支持从1MB到1TB在一秒内完成弹性,另一个是规模的弹性,洛神的单网络支持10w台计算节点的规模。

这样,洛神既可以支持小到虚拟web主机这样的服务,也可以支持打到双11零点这样的海量峰值流量。谈到可靠性,我们参考年平均故障时间这个参数,洛神引发的单实例故障时间只有50ms,这个故障时间是极其短的。

【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)

5.洛神的关键设计

接下来我们详细分析下洛神弹性和可靠性的关键设计。洛神系统的数据面,本身就是一台巨大的交换机。大家都知道,交换机的转发芯片对数据包的处理,都是pipeline的,硬件处理永远不会停下来,那洛神的数据面也是如此。从一个数据包进入洛神系统开始,到出去洛神系统的整个过程,经历了洛神系统里面的各个组件,都是不会被打断的,这样只处理一件事情的数据面,一定是高效的。洛神的数据面包含了软硬件结合的转发技术和架构。

此外,洛神系统的网络永远不会因为维护而中断,这意味着,洛神里面的所有组件,都支持热升级。

在可靠性角度上看,多机房容灾是高可用的基础。当阿里云的某一个数据中心云机房开始部署的时候,洛神系统在物理设施部署完成之后会首先进行部署。这个时候,机房里面有计算集群,网关和控制平台。计算集群上面有我们的虚拟交换机组件。对于数据面和控制面的关键结点都是集群部署的,单台服务结点的问题不会对用户产生任何的影响。当vm的宿主机出现宕机等严重问题的时候,可以在机房范围内进行迁移,迁移本身也不会对vm的网络属性和连通性产生任何的影响。

每个云机房里面都会部署集群的网关和控制器结点,而且随着机房的增多,会自动在云机房里面形成环形的备份关系。当一个新的机房建设起来,洛神系统部署之后,会自动加入到这个备份链里面。这样,当某一个机房的关键结点由于异常出现问题的时候,都可以自动在秒级切换到备份机房,由备份机房的洛神系统来提供服务。这种多层次容灾机制,保证用户可以在很快的时间内恢复业务。

【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)

除了多机房容灾之外,如何快速发现bug和快速恢复,是可靠性的另一个关键点。为了解决这个问题,洛神首先设计了基于流的染色系统。如果把洛神系统看成一个整体的交换机,那么从特性上来看,洛神系统是一个支持流跟踪的交换机,具有各种丰富的策略。洛神系统的下面是物理网络的设备和交换机,通过洛神系统的流标记的能力和设定的策略,可以同时在物理网络和虚拟网络里面具备流的染色,特定报文的镜像,采样,跟踪等的能力。这些动作产生的日志,都会通过采集后做实时计算,如果流量有异常,会产生报警和日志给到管理员,部分报警可以触发故障的自动处理和恢复。还有一部分数据经过计算处理,会产生数据报表和用户画像,也可以给到用户一张炫酷的大屏。这个本质上就是数据化的能力。

【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)

6.结束语

继续阅读