SNGroup二年级博士生宋浩浩,二年级硕士生文日娣、王宇昕与阿里盘古云存储团队合作的一项成果:“Deployed System: More Than Capacity, Performance-oriented Evolution of Pangu in Alibaba”被领域内顶级国际会议FAST’23录用。
第21届 “USENIX文件和存储技术会议” (FAST’23, 21st USENIX Conference on File and Storage Technologies)将于2023年2月21-23日在美国加利福尼亚州圣克拉拉召开。
本文主要关注了盘古存储系统如何随着硬件技术和业务模式的不断发展,以提供100微秒级别的I/O延迟的高性能、可靠的存储服务。文章将盘古不断演进的历程概括为两个阶段。在第一阶段,盘古充分发利用固态硬盘(SSD)存储和远程直接内存访问(RDMA)网络技术,创新其文件系统,设计了用户态空间存储操作系统,大大降低了I/O延迟,提供了高吞吐量和高IOPS的服务。在第二阶段,盘古的业务模式从面向存储容量发展为面向性能。为了适应这种业务模式的变化,盘古首先将其基础设施升级为具有更高SSD容量和RDMA带宽的存储服务器。其次,盘古提出了一系列关键技术,解决了基础设施升级后带来的各方面瓶颈。这确保盘古充分利用硬件升级带来的性能提升。除了介绍这些技术创新外,本文还分享了几个盘古的运营经验,如秒级监控、SLA保障。
第一阶段:通过文件系统重构和用户空间存储操作系统,充分利用SSD和RDMA技术。为了实现高性能、低延迟的I/O,盘古2.0首先对其文件系统的关键组件提出了新的设计。特别是,为了简化整个系统的开发和管理,它设计了一个统一的、仅支持追加写的持久性层。它还引入了一个自包含的块布局,以减少文件写操作的I/O延迟。第二,盘古2.0设计了一个用户态空间存储操作系统,该系统使用run-to-completion线程模型来实现用户态存储堆栈和网络堆栈之间的高效协作,并提出了一种用户态空间调度机制来实现CPU和内存资源的高效分配。第三,盘古 2.0部署了一系列机制,以确保异常环境下提供毫秒级的SLA保证。通过这些创新,盘古2.0在第一阶段实现了一个毫秒级的P999 I/O延迟。
第二阶段:适应面向性能的业务模型,升级基础设施,突破网络瓶颈、内存瓶颈和CPU瓶颈。自2018年以来,盘古的经营模式逐渐从容量导向转向性能导向。这是因为企业越来越多地将业务转移到阿里巴巴云上,后者对存储性能和延迟有严格的要求。为了适应这种商业模式的变化和客户量的快速扩张,盘古2.0需要不断升级基础设施,如,开发了内部的大容量存储服务器,将网络带宽从25 Gbps RDMA升级到100 Gbps。为了最大程度地获取这些升级带来的性能改进,盘古2.0提出了一系列的技术,以解决基础设施升级后带来的各方面瓶颈,如通过优化流量和减少网络流量放大解决网络瓶颈,通过插入更多更小的DRAM和RDCA(Remote Direct Cache Access)等技术解决内存瓶颈和通过引入硬件指令CPU Wait和CPU计算卸载等解决CPU瓶颈。
除此之外,盘古系统经历了生产环境的检验,展现出了极高性能。经历了第一阶段后,盘古2.0实现了百微秒级I/O延迟和100M IOPS的ESSD弹性块存储服务。在2018年阿里巴巴双11节期间,盘古2.0支持阿里巴巴数据库服务,其平均延迟不超过280微秒。在盘古2.0的第二阶段,单台泰山存储服务器的每个存储节点的标准化有效吞吐量增加了6.1×。
本文是SNGroup继Mercator[SC’18, JSAC’19], BoxOpt[AAAI’19, TON’21]后与阿里盘古云存储团队合作,在大规模网络与系统管理方面的进一步探索。