延迟模型权重加载 。当前的模型文件包含模型图和权重 , 并在模型初始化期间将它们一起加载到内存中 。然而 , 这会增加内存使用量 , 如图9所示 , 这是因为在模型图解析和转换过程中会重复复制权重 。为了避免这种情况 , 研究员们提出将模型图和权重分别保存成独立的文件 , 并将该方法在 ONNX加以实现 。通过该方法 , 在初始化期间 , 只有模型图被加载到内存中进行实际解析和转换 , 而权重仍然留在磁盘上 , 通过文件映射只把权重文件指针()保留在内存中 , 实际的权重到内存的加载将被推迟到模型推理之时 。该技术可将峰值内存成本降低50% 。
图9:对比现有的模型图和权重同时加载(虚线上) , 以及模型初始化期间通过文件映射实现的延迟权重加载(虚线下)
ONNX量化和扩展 。量化是众所周知的模型压缩技术 , 它在牺牲模型精度的同时 , 带来了性能加速和模型缩减 。ONNX量化提供了多种微调选择 , 使其能够应用定制的量化策略 。研发人员们为模型定制了最优量化策略 , 以减少量化对精度的影响 , 具体包括训练后、动态和 UINT8 量化 , 以及 per- 和既有所有运算符量化策略 。- 提供了一组 ONNX定制运算符 , 以支持视觉、文本和自然语言处理模型的常见预处理和后处理运算符 。利用这一工具 , 研发人员们将模型的预处理和后处理 , 例如标记化()、字符串操作等 , 都集成到一个独立的 ONNX 模型文件中 , 从而提高性能、简化部署、减少内存使用率并提供更好的可移植性 。
这些创新成果只是微软亚洲研究院为降低生成式语言模型的销货成本而做出的长期努力中的第一个里程碑 。这些方法并不局限于加速神经语法检查器 , 它可以很容易地应用在抽象摘要、翻译或搜索引擎等广泛的场景中 , 从而加速降低大语言模型的销货成本[5, 8] 。在人工智能的未来发展中 , 这些创新对微软乃至对整个行业都将至关重要 。
相关链接:
ONNX :
:
:
ONNX量化:
-:
参考文献:
[1] Tao Ge, Furu Wei, Ming Zhou:BoostandforError . In ACL 2018.
[2] Tao Ge, Furu Wei, Ming Zhou:Human-levelinError : AnStudy.
[3] Xin Sun, Tao Ge,Ma,Li, Furu Wei,Wang: AforErrorwith Pre- Cross-Model. In IJCAI 2022.
[4] Xin Sun, Tao Ge, Furu Wei,Wang:Errorwith. In ACL 2021.
[5] Tao Ge,Xia, Xin Sun, Si-Qing Chen, Furu Wei:forwith.
[6] Tao Ge, Si-Qing Chen, Furu Wei: : A -for On-. In EMNLP 2022.
[7] , . “.”of.Dale,L. Moisl, and H. L. , . New York:, 2000: 181-207.
【多项创新技术加持,实现零COGS的Microsoft Editor语法检查器】[8] Nan Yang, Tao Ge, Liang Wang,Jiao, Daxin Jiang,Yang,, Furu Wei:with :of Large.
- 谢娜获两项吉尼斯世界纪录称号网友的评论或道出了事实“真相” 谢娜创吉尼斯记录
- 未来车企还剩几家?行业不文明?李书福、曾庆洪、余承东等这么说 小鹏汽车创始人
- 晋朝阮籍为官时拆光衙门墙壁或首创开放办公模式
- 隋文帝杨坚在位期间都做过哪些伟大的创举
- 抖音历史题材类短视频发展如何?创作灵感怎么找?新手上手难吗?
- 个人工作创新怎么写,工作创新怎么写
- 个人怎么申请银行贷款,个人怎样向银行申请贷款
- 1.创建用户中心
- 迈凯轮P1这是一个创纪录的昂贵的超级跑车,在中国售价更是高达1200万元人民币!
- 个人创业如何融资,想创业如何融资