用云计算应对“突变”



  增加服务器数量配合更强大的软件是最直接的增强系统能力的方式,但服务器及其运维价格不菲,增加企业成本。如果按照满足突变型峰值业务在峰值期间,来准备服务器资源,“闲时”则会造成巨大的资源闲置和浪费。

  2019年12月以来,突发的新冠肺炎疫情引起公众关注。随着发病人数持续上升,各大社交平台也忙碌异常,与疫情相关的词条、帖子等搜索浏览量急剧攀升,各大运营商的服务器压力巨大。面对“压力”,上海交通大学(以下简称上海交大)计算机科学与技术系教授过敏意很淡定。

  “目前我们的技术完全能满足受众需要,‘服务器不够用’这种情况很难发生。”过敏意说。

  过敏意口中的技术就是日前在国家科学技术奖励大会上获得国家技术发明奖二等奖的“面对突变型峰值服务的云计算关键技术与系统”项目。该项目由上海交大与阿里云共同合作,历时十余年,研发出支持突变型峰值服务的云计算系统SPS,可以支持暴增的流量服务需要。

  流量如洪

  2005年,当时在日本会津大学从事并行与分布计算研究的过敏意十分彷徨,5年来他一头扎进云计算基础研究,但也深知应用才是检验成果的金标准。当时,他预感中国有广阔的云计算应用空间。

  为了近距离参与国内“计算”事业,2006年,过敏意离开舒适圈,来到上海交大计算机系。

  时间很快印证了过敏意的想法。2009年,阿里巴巴计划推出天猫“双十一”活动。该活动必然使大量流量集中流入,造成突变型峰值,这将导致用户请求响应慢、系统崩溃等问题。

  阿里云智能事业群基础产品事业部工程师丁海洋介绍,增加服务器数量配合更强大的软件是最直接的增强系统能力的方式,但服务器及其运维价格不菲,增加企业成本。如果按照满足突变型峰值业务需求在峰值期间,如“双十一”当晚来准备服务器资源,“双十一”之外的“闲时”则会造成巨大的资源闲置和浪费。

  “因此,我们必须想办法提高数据中心单位服务器资源的使用效率,让同样规模的服务器做更多的事。”丁海洋说。

  因此,对于IT企业来说使用的服务器数量是一项顶级的商业机密。

  向“云”要答案

  突变型峰值常见于“春运抢票”“春晚”“双十一”等场景。尽管这些场景在十年前非常少,但这一难题还是引起国内外诸多研究团队关注。

  如何不依靠服务器提高数据处理能力?过敏意将目标锁定在“云”上。

  “云计算具有极大的灵活性,它的弹性计算能力可以大大降低企业的运行成本。云计算也是今后几十年企业的使能性技术,是发展趋势。”过敏意说。

  但面对网络流量洪峰,传统云计算技术并不能应付,并呈现出云中低算力节点负载高,调度不均衡;存储设备扩展故障剧增,恢复不迅速;服务镜像仓库网络拥塞,分发不及时;专家经验演进和查询慢,分析不智能等四大问题。

  事实上,不只过敏意,很多研究团队都将解决办法聚焦在“云”上,但进展缓慢。

  过敏意并没有打退堂鼓,相反他带领团队将云计算面临的问题一一列出,并选出其中最艰难的问题,即强实时、高吞吐、快扩展、高鲁棒性,作为攻关目标。

  此后的十余年里,过敏意往返于上海交大和杭州阿里巴巴总部之间,在应用中试验研究成果,与阿里巴巴的工程师们探讨解决办法。

  “过敏意几乎每周都要来杭州一次,他所在的团队也有长期驻阿里巴巴进行研究的成员。”阿里云智能事业群战略与合作部工程师邵海涛说。

  把“最要命”的系统放在云上

  功夫不负有心人。历时十余年,这项产学研的合作研究成效初现。在2019年天猫“双十一”活动中,阿里巴巴核心系统100%上云,订单创建峰值达到54.4万笔/秒,是2009年第一次“双十一”的1360倍。

  这些核心突破很多源于该项目的核心技术,如突变峰值用户请求快速处理技术、基于存储阵列的数据高可靠吞吐技术、基于容器和混合部署的高效资源整合技术和基于内存数据分析的服务质量保证技术。

  “快速处理技术”“高可靠吞吐技术” 满足了用户对低时延、高可靠的要求,实现了天猫“双十一”2019年54.4万单/秒的请求处理需求,将峰值时用户请求尾时延从分钟级降低至百毫秒级。“也就是说,用户发出搜索指定商品、查库存、总价计算等指令的响应速度大大加快。”丁海洋说。




上一篇:医药板块突变 后续投资如何布局?
下一篇:无锡:构建经济“抗体”,政策组合拳助力企业