1天训完45亿参数大模型!高校计算能力首次比肩科技巨头

衡宇 发自 凹非寺
量子位 | 公众号
“第一次,高校拥有了和科技巨头一样的计算能力 。”
说这句话的人是中国工程院院士、阿里云创始人王坚 。
他口中让高校计算能力倍增的,是复旦大学刚刚发布的云上科研智算平台 。
名为CFFF( for theat Fudan),由复旦、阿里云、中国电信等共同打造,以公共云模式提供超千卡并行智能计算,支持千亿参数的大模型训练 。
这是目前国内高校最大的云上科研智算平台——67年前,我国第一架电子计算机(复旦601型电子积分机,1956年)诞生在复旦;67年后,复旦再次走在前列 。
目前,首个基于CFFF平台训练的科学大模型成果已经对外正式发布,45亿参数的中短期天气预报大模型可一日训完 。
组成CFFF平台的两个计算集群,一个名为“近思”一号,一个名为“切问”一号 。
两个名字都从复旦校训“博学而笃志,切问而近思”中采撷而来 。
发布会上,首届世界科学智能大赛也正式启动,设置5大前沿研究赛道,赛题基于CFFF平台而来,目的是推动科学大模型落地 。
CFFF是什么?
CFFF平台,全称 for theat Fudan 。
这个名字被王坚解读为“计算,因为在复旦而创造了未来” 。
两个计算集群共同组成了CFFF平台——
一个是面向高精尖研究的专用高性能计算集群“近思”一号,部署部署在复旦江湾校区;
另一个是面向多学科融合创新的AI for 智能计算集群“切问”一号,托管在1500公里外的内蒙古阿里云乌兰察布数据中心 。
两者分隔千里,但同声相应 。
复旦大学浩清教授、人工智能创新与产业研究院院长漆远对CFFF平台做了进一步介绍 。

1天训完45亿参数大模型!高校计算能力首次比肩科技巨头

文章插图
据他讲述,基于百G高速数据传输网、阿里云大规模异构算力融合调度技术、分级存储技术、AI与大数据一体化技术,两个计算集群练成了一台真正意义上的“超级计算机” 。
【1天训完45亿参数大模型!高校计算能力首次比肩科技巨头】何以见得?
最直观的表现,复旦大学四校区的所有实验设备都能高速接入CFFF平台,做到异构算力统一管理,计算任务统一调度,满足不同应用场景下的科学智能研究与应用需求 。
此外,CFFF平台还拥有国内高校最大规模的多级数据冷热分层存储集群,解决了海量科研数据无法长期备份的痛点,并支持云上高速传输 。
举个例子,以往PB级科研数据从复旦校内传到西部数据中心需要两周,如今当天就能完成 。
有赖于公共云模式,跑在CFFF平台上的项目可享受到超千卡并行的智能算力,千卡并行的有效算力达到行业领先的92%,可拓展性达到万卡,万卡并行有效算力也可达90% 。
同时,CFFF平台可实现年平均PUE小于1.2,每年节省总电力超过2000兆瓦时,年均节碳量达1500吨 。
可以说是非常低碳了 。
复旦校方透露道,CFFF平台从开始建设的第一天起,就收到来自复旦不同院系的多种研究需求,如生命科学、大气科学、材料科学领域,以及金融系统分析等社会科学研究领域 。
平台上的云原生与低代码工程化AI开发平台,进一步降低了AI与科研融合的门槛 。
目前,CFFF平台上的第一个科研成果已经诞生,并正式对外发布 。
成果是45亿参数量的中短期天气预报大模型,来自复旦人工智能创新与产业研究院李昊团队 。
在公开数据集上,该模型预测效果首次达到业界公认的ECMWF(欧洲中期天气预报中心)集合平均水平,并将预测速度从原来的小时级缩短到了3秒内 。