过滤和后处理 。为了鼓励多样性,只有当一条新指令与任何现有指令的ROUGE-L重叠小于0.7时,它才会被添加到任务池中 。排除了包含某些特定关键字(例如,图像、图片、图形)的指令,这些指令通常无法被语言模型处理 。当为每条指令生成新实例时,过滤掉完全相同或具有相同输入但不同输出的实例 。
3.3 指令微调
在创建大规模指令数据后,使用这些数据对原始语言模型(即self - )进行微调 。使用多个模板将指令和实例输入编码在一起 。例如,指令可以加“Task:”前缀,输入可以加“input:”前缀,提示符末尾可以加“:”前缀,中间可以加不同数量的换行符,等等 。
4 来自GPT-3的Self-数据
在本节中,将Self-用于引导指令数据到GPT3作为案例研究 。使用通过 API 访问的最大的GPT3语言模型(“”引擎) 。生成的数据概述如下:
总共生成了超过52K的指令,过滤后这些指令对应的实例超过82K 。
为了研究生成的指令类型及其多样性,通过识别生成指令中的动词-名词结构 。使用来解析指令,然后提取最接近解析树根的动词及其第一个直接名词对象 。52,445条指令中有26,559条包含这种结构;其他指示通常包含更复杂的从句(例如,“this tweetor not.”)或以问题的形式(例如,“Which of theseare true?”) 。图2中绘制了前20个最常见的词根动词及其前4个直接名词宾语,占整个集合的14% 。总的来说,在这些指令中看到了相当不同的意图和文本格式 。
进一步研究生成的指令与用于提示生成的种子指令的区别 。对于每个生成的指令,计算其与175个种子指令的最高ROUGE-L重叠 。图3中绘制了这些ROUGE-L分数的分布,表明有相当数量的新指令与种子没有太多重叠 。图4中展示了指令、实例输入和实例输出长度的多样性 。
对于生成质量的评估,作者随机抽取200条指令,并为每条指令随机选择1个实例 。请一位注释专家(本文的合著者)根据指令、实例输入和实例输出来标记每个实例是否正确 。表2的评估结果表明,生成的大多数指令是有意义的,而生成的实例可能包含更多的噪声(在合理的程度上) 。然而,作者发现即使这些代可能包含错误,但它们中的大多数仍然是正确的格式,甚至是部分正确的,这可以为训练模型提供有用的指导 。表10和表11中列出了一些好的代和坏的生成 。
5 实验结果 5.1 Zero-Shoton5.1.1 数据集
使用数据集,其中包含有119个任务,每个任务100个样例 。
5.1.25.1.2 结果
对比结果如下表3所示,总的来说:
文章插图
5.2to User-on Novel Tasks 5.2.1 数据集
作者认为数据集更多偏向于学术性质,为此本文设计了一个更贴近普通用户日常使用的新数据集 。首先,通过头脑风暴设想LLM可能有用的不同领域(例如,电子邮件写作,社交媒体,生产力工具,娱乐,编程),然后制作与每个领域相关的指令以及输入输出实例(同样,输入是可选的) 。并使这些任务的风格和格式多样化(例如,指令可能长或短;输入/输出可以采用项目符号、表格、代码、方程式等形式) 。总共创建了252条指令,每条指令有一个实例(下表4) 。
5.2.2
基本上和第5.1.2节的方法上增加了 -002和-003
5.2.3 效果分析
对比结果如下图5所示 。评估方式是人工对模型的输出结果做打分,评分A最好,评分D最差 。在下图5中的颜色对应着绿色最好,红色最差 。可以看出:
5.3 案例分析
下表4给出了???3???????????????模型的输出示例 。
6 局限性 6.1 为何Self-有用?
目前的学术界有两种观点:
- java学习笔记2--面向对象编程
- 快速调整毕业论文格式:Word中给表格设置不同磅值的内外框
- 三 Python神经网络学习--机器学习--西瓜书学习笔记
- Boundary IoU:图像分割新型指标
- 【前端学习笔记day48】7.1
- 干货!吴恩达亲自为这份深度学习专项课程精炼图笔记点了赞!
- 2 Flink源码学习笔记 基于Yarn的自动伸缩容实现
- ASGNet论文和代码解读
- 使用 Visual Studio 2019 【在更】基础 | C 语言笔记
- 斯巴达 Kail学习笔记-kali信息搜集工具之Sparta