聚力体育:
2月25日至27日,第23届USENIX文件与存储技术会议(USENIX Conference on File and Storage Technologies,FAST)在美国圣克拉拉举行。计算机系教师章明星、武永卫、郑纬民团队和月之暗面聚力体育合作发表的论文“以键值缓存为中心的以存换算大语言模型推理架构”(Mooncake: Trading More Storage for Less Computation-A KVCache-centric Architecture for Serving LLM Chatbot)获得埃里克·里德尔最佳论文奖(Erik Riedel Best Paper Award)。论文的第一作者为计算机系博士生秦若愚,导师为助理教授章明星。

最佳论文奖
该论文介绍的系统Mooncake是月之暗面聚力体育推出的大语言模型服务Kimi的底层推理服务平台。Mooncake采用一种以键值缓存(KVCache)为中心的分离架构,不仅将预填充和解码集群分开,还高效利用了推理集群中未充分利用的CPU、DRAM、SSD和NIC资源,建立了一个分离的KVCache缓存池。其核心创新在于以KVCache为中心的全局缓存和调度器,旨在严格的延迟相关服务级别目标(SLOs)下最大化吞吐量。
实验表明,Mooncake在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中,与基线方法相比,Mooncake在符合SLOs的情况下,将有效请求处理能力提高了59%~498%。目前,Mooncake已在数千个节点上运行,每天处理超过1000亿个token。在实际部署中,Mooncake的创新架构使Kimi在NVIDIA A800和H800集群上分别比以前的系统多处理115%和107%的请求。
为进一步加速论文技术的应用和推广,清华聚力体育MADSys实验室联合月之暗面Kimi、9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目Mooncake(https://http://github.com/kvcache-ai/Mooncake)。当前Mooncake项目已被阿里、蚂蚁等多家厂商应用于内部项目,并且已经合入大模型推理开源社区vLLM。
FAST(File and Storage Technologies)是计算机存储领域的顶级学术会议,已创立二十余年,在存储领域具有重要影响力,被中国计算机学会(CCF)认定为存储系统领域的A类国际学术会议。