震惊!使用RNN就能达到超越GPT的对话效果!甚至超越LLaMA?

大家好,我是,最近在群里发现小伙伴分享了一篇极为震撼的文章:通过纯RNN架构竟然达到甚至超越以GPT为base的大语言模型的性能 。刚开始我还以为是民科呢,但是细细了解后发现作者知乎关注达十几万
该项目的名为The RWKVModel[1]项目的star竟然快接近万了 。
项目介绍:
RWKV是具有级LLM性能的RNN,也可以像GPT 一样直接训练() 。而且它是 100% 无注意力的 。你只需要位置 t 的隐藏状态来计算位置 t+1 的状态 。您可以使用“GPT”模式快速计算“RNN”模式的隐藏状态 。
因此,它结合了 RNN 和的优点——出色的性能、快速推理、节省 VRAM、快速训练、“无限” 和自由句子嵌入(使用最终隐藏状态) 。
下面还是进入作者的一篇知乎文章来一起看看吧~
知乎:PENG Bo
地址:
进NLP群—>加入NLP交流群
目前 RWKV 所有模型的介绍[2](注意 RWKV 是 100% RNN,目前地球只有我能用 RNN 做到这样) 。
下面是 7B Raven-v7- 在v2 运行的效果(无修改,无重试):
可见 7B 有时会省略细节,需要你去引导 。其实如果写好程序,允许编辑电脑的回答,在电脑的早期回答加入丰富的细节,它也能一直保持细节丰富的风格 。注意,目前中文只用了【20G普通+200G网文】,连词表都是英文的(很多中文需要两三个token),稍后的RWKV中文基础模型会强得多 。
另外可以加入世界设定 。例如下面这个 ,我用 + 让模型生成了各种开头,都挺好:
:请你扮演一个文本冒险游戏,我是游戏主角 。这是一个玄幻修真世界,有四大门派 。我输入我的行动,请你显示行动结果,并具体描述环境 。我的第一个行动是“醒来”,请开始故事 。

震惊!使用RNN就能达到超越GPT的对话效果!甚至超越LLaMA?

文章插图
再看 14B Raven-v7-Eng,这个强,老外玩的记录(无修改,无重试):
另外 Raven 模型可以完成各种任务 。例如这是 7B Raven-v7-Eng 写代码(由于这里 topp=0.8,会容易出小错,降低 topp 即可更准确):
上述这些,如果是 GPT 做到的,一点都不稀奇,技术含量等于 0 。
但这些是用 RNN 做到的 。如前所述,这个星球上只有我能用 RNN 做到这样 。
RWKV 越大越强,而且有能力运用长。而且 RWKV 的算法极其简单,更适合硬件和芯片 。
因此,在未来几年,我将用 RWKV 对实施全方位降维打击(目前已逐步积聚资源),淘汰 ,成为人类所有 AI 大模型的基础架构 。
另一个证据是,目前其它团队的设计,无论是 state space 系列,还是 Mega 这种,都在朝 RWKV 的方法靠拢,可见 RWKV 就是目前的正解 。
在同样语料训练,RWKV vs GPT,zero-shot成绩:
RWKV 的全部设计,研发,优化,从 0.1B 炼到 14B,数据清洗,推广,客服(这个最浪费时间 lol),都是我一个人完成 。我一个人会把它先逐级炼到 100B(在 Pile v2 1.7T),首先淘汰 LLaMA 。
知乎喷子喜欢神话。而我说过,只要给我优质的数据和算力,我一个人就可以对线。
这不是因为我懂,而是因为做的事情弱智 。因为现在大家都在挑弱智的 low- fruit 去做(无脑堆数据堆算力堆人工就行),真正难的问题没人去做 。出来我就多次说过GPT系列是弱智研究,技术含量等于0 。这不是我的观点,而是全世界所有行家都知道,如果你不知道说明你不是行家 。甚至百度等等都可以追上(如果投入去做) 。
我认为,为确保真正 Open AI,必须用非盈利基金会,像 Linux 的模式 。事实上对比就能证明,开源社区的力量胜过一切封闭组织(同时,在这个开源生态中,仍然可以也必须有很多商业公司,欢迎 VC 投资) 。