多项创新技术加持,实现零COGS的Microsoft Editor语法检查器( 五 )


延迟模型权重加载 。当前的模型文件包含模型图和权重 , 并在模型初始化期间将它们一起加载到内存中 。然而 , 这会增加内存使用量 , 如图9所示 , 这是因为在模型图解析和转换过程中会重复复制权重 。为了避免这种情况 , 研究员们提出将模型图和权重分别保存成独立的文件 , 并将该方法在 ONNX加以实现 。通过该方法 , 在初始化期间 , 只有模型图被加载到内存中进行实际解析和转换 , 而权重仍然留在磁盘上 , 通过文件映射只把权重文件指针()保留在内存中 , 实际的权重到内存的加载将被推迟到模型推理之时 。该技术可将峰值内存成本降低50% 。
图9:对比现有的模型图和权重同时加载(虚线上) , 以及模型初始化期间通过文件映射实现的延迟权重加载(虚线下)
ONNX量化和扩展 。量化是众所周知的模型压缩技术 , 它在牺牲模型精度的同时 , 带来了性能加速和模型缩减 。ONNX量化提供了多种微调选择 , 使其能够应用定制的量化策略 。研发人员们为模型定制了最优量化策略 , 以减少量化对精度的影响 , 具体包括训练后、动态和 UINT8 量化 , 以及 per- 和既有所有运算符量化策略 。- 提供了一组 ONNX定制运算符 , 以支持视觉、文本和自然语言处理模型的常见预处理和后处理运算符 。利用这一工具 , 研发人员们将模型的预处理和后处理 , 例如标记化()、字符串操作等 , 都集成到一个独立的 ONNX 模型文件中 , 从而提高性能、简化部署、减少内存使用率并提供更好的可移植性 。
这些创新成果只是微软亚洲研究院为降低生成式语言模型的销货成本而做出的长期努力中的第一个里程碑 。这些方法并不局限于加速神经语法检查器 , 它可以很容易地应用在抽象摘要、翻译或搜索引擎等广泛的场景中 , 从而加速降低大语言模型的销货成本[5, 8] 。在人工智能的未来发展中 , 这些创新对微软乃至对整个行业都将至关重要 。
相关链接:
ONNX :


ONNX量化:
-:
参考文献:
[1] Tao Ge, Furu Wei, Ming Zhou:BoostandforError . In ACL 2018.
[2] Tao Ge, Furu Wei, Ming Zhou:Human-levelinError : AnStudy.
[3] Xin Sun, Tao Ge,Ma,Li, Furu Wei,Wang: AforErrorwith Pre- Cross-Model. In IJCAI 2022.
[4] Xin Sun, Tao Ge, Furu Wei,Wang:Errorwith. In ACL 2021.
[5] Tao Ge,Xia, Xin Sun, Si-Qing Chen, Furu Wei:forwith.
[6] Tao Ge, Si-Qing Chen, Furu Wei: : A -for On-. In EMNLP 2022.
[7] , . “.”of.Dale,L. Moisl, and H. L. , . New York:, 2000: 181-207.
【多项创新技术加持,实现零COGS的Microsoft Editor语法检查器】[8] Nan Yang, Tao Ge, Liang Wang,Jiao, Daxin Jiang,Yang,, Furu Wei:with :of Large.