LLMs 收藏!大型语言模型大盘点,含源码及Demo地址(附链接)

本文约4000字,建议阅读8分钟
本文作者盘点了一些组织或者个人开源的模型 。
爆火出圈,国内很多高校、研究机构和企业都发出类似的发布计划 。没有开源,复现难度极大,即使到现在GPT3的完全能力也没有任何一个单位或者企业进行了复现 。刚刚,又官宣发布了图文多模态的GPT4模型,能力相对又是大幅提升,似乎闻到了以通用人工智能主导的第四次工业革命的味道 。
无论是国外还是国内,目前距离的差距越来越大,大家都在紧锣密鼓的追赶,以致于在这场技术革新中处于一定的优势地位,目前很多大型企业的研发基本上都是走闭源路线,和GPT4官方公布的细节很少,也不像之前发个几十页的论文介绍,的商业化时代已经到来,当不在Open,那么如何打破技术枷锁,那就只能寻求开源模型替代 。为此,作者盘点了一些组织或者个人开源的模型具体汇总如下:
(元语AI)是由元语智能开发团队开发和发布的,自称第一个国内最早的一个功能型对话大模型,可以写文章、写作业、写诗歌、做中英文间的翻译;一些法律等特定领域问题也可以提供相关信息 。该模型目前只支持中文 。
从披露的技术细节看,底层采用7亿参数规模的T5模型,并基于进行了监督微调形成了 。该模型基本上是技术路线的三步的第一步,没有实现奖励模型训练和PPO强化学习训练 。
链接:
AI
最近,开源了他们的实现 。分享了他们的三步策略,完整实现了核心的技术路线 。
本人基于该项目,更加明确了三步策略,并进行了分享:
三个文件的执行需要放在项目中,其中代码中的cores即原始工程中的,cores.nn在原始工程中变成了. 。
链接:
是清华技术成果转化的公司智谱AI开源的GLM系列的对话模型,支持中英两个语种,目前开源了其62亿参数量的模型 。其继承了GLM之前的优势,在模型架构上进行了优化,从而使得部署和应用门槛变低,实现大模型在消费级显卡上的推理应用 。
从技术路线上看,其实现了强化学习人类对齐策略,使得生成效果更佳贴近人类价值,其目前能力域主要包括自我认知、提纲写作、文案写作、邮件写作助手、信息抽取、角色扮演、评论比较、旅游建议等,目前其已经开发了正在内测的1300亿的超大模型,算是目前开源平替里面参数规模较大的对话大模型 。
【LLMs收藏!大型语言模型大盘点,含源码及Demo地址(附链接)】详细技术可以参考其:
LLaMa
LLaMA是由 母公司Meta发布的全新人工智能大型语言模型,在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等任务上方面表现良好 。LLaMA模型支持20种语言,包括拉丁语和西里尔字母语言,目前看原始模型并不支持中文 。
LLaMA目前比较火的两个顶流开源项目是和 。
是由+AI推出的基于人类反馈强化学习的LLaMA+AI聊天机器人的开源实现,它的技术路线类似 ,该项目上线刚刚 2 天,狂揽 5.2K 星 。
链接:

LLMs  收藏!大型语言模型大盘点,含源码及Demo地址(附链接)

文章插图
训练过程算法实现主打比训练更快、更便宜,据说能快近15倍,主要特色有:
另外一个比较火的是最近刚发布的(羊驼模型),是由斯坦福基于 Meta 的 LLaMA 7B 模型微调出一个新模型,其基本原理是让的 text--003 模型以 self- 方式生成 52K 指令样本,以此来微调LLaMA 。该项目已将训练数据、生成训练数据的代码和超参数开源,模型文件尚未开源,以一天多达到5.6K星的关注度,估计很快会开源其模型文件供大家使用 。