大模型产业格局的分析、文本音频生成、语言模型替代知识图谱、天气气候预训练和通用蛋

关于周刊
本期周刊,我们选择了12篇来自国内外知名研究机构的预训练相关的论文:多模态话题包括音频QA基准、统一多模态理解模型、文本图像生成、文本音频生成;自然语言话题包括语言模型替代知识图谱,主题建模;图像话题包括领域扩展、小样本异常检测;生命科学话题包括天气气候预训练和通用蛋白设计 。综述方面包括图卷积、自动术语提取的2篇综述;此外,在资讯动态方面,我们选择了2篇热点行业资讯,大模型产业的格局分析和微软对投资的幕后信息 。
(本期贡献者:翟珂 吴新刚)
论文推荐
标题:谷歌 | MAQA: AQAfor (MAQA:否定的多模态 QA 基准)
作者: Yue Li , Aren,Huang 等
推荐理由:本文研究音乐领域的二进制音频QA基准,以探索最先进的理解否定的多模态模型;本文提出的基准,填补了多模态环境中缺乏以否定为中心的评估基准的空白 。
简介:多模态学习可以受益于预训练大型语言模型 (LLM) 的表示能力 。然而,最先进的基于的 LLMs 通常忽略自然语言中的否定,并且没有现有的基准来定量评估多模态是否继承了这个弱点 。在这项研究中,作者提出了一种新的多模式问答(QA)基准,该基准改编自中标记的音乐视频( 等人,2017 年),目的是系统地评估多模态转换器是否可以执行复杂推理、以将新概念识别为否定以前学过的概念 。作者描述了一种新颖的数据生成过程,该过程促使 540B 参数 PaLM 模型自动生成否定 QA 示例、作为易于访问的视频标签的组合 。生成的示例包含更多自然语言模式,与基于模板的任务增强方法相比,收益显著 。
论文下载:
HUB地址:
标题:以色列、亚马逊 |that Can See and Read(走向可以看到和阅读的模型)
作者:Roy Ganz、Oren 、Aviad 、等
推荐理由:本文研究视觉问答(VQA)与图像捕获(CAP)统一整合的方法,并获得业界首个成功处理两种任务类型的单一模型,大幅提升了场景文本理解能力 。
简介:VQA和CAP是最流行的视觉语言任务之一,它们具有类似的场景文本版本,需要从图像中的文本进行推理 。尽管它们之间有明显的相似之处,但两者都是独立处理的,产生了可以看到或阅读的任务特定方法,但不能同时看到或阅读 。在这项工作中,作者对这一现象进行了深入分析、并提出了:一种统一的文本-非文本( Text-Non-Text)方法、赋予了现有的多模态架构场景文本理解能力 。具体来说,作者将场景文本信息视为一种额外的模态,通过指定的模块将其与任何预训练的基于编码器-解码器的架构融合 。实验表明:产生了第一个成功处理两种任务类型的单一模型;场景文本理解能力可以分别将视觉语言模型在VQA和CAP上的性能提高3.49%和0. 。
论文下载:
HUB地址:
标题:谷歌 | Muse: Text-To-Imagevia(Muse:通过遮蔽生成进行文本到图像的生成)
作者: Chang, Han Zhang等
推荐理由:谷歌推出的最新AIGC模型,超越了 和 DALL-E 2等去年的模型 。

大模型产业格局的分析、文本音频生成、语言模型替代知识图谱、天气气候预训练和通用蛋

文章插图
简介:本文展示了 Muse,一种文本到图像的模型,它具有最先进的图像生成性能,同时比扩散或自回归模型效果更好 。Muse 在离散空间中进行掩码任务的训练,基于从预训练的大型语言模型中提取的文本嵌入,训练 Muse 以预测随机遮蔽的图像token 。与和 DALL-E 2 等像素空间扩散模型相比,Muse 使用离散token并且需要更少的采样迭代,效率显着提高 。另外与 Parti 等自回归模型相比,Muse 由于使用了并行解码,因此效率更高 。使用预训练的语言模型可以实现细粒度的语言理解,转化为高保真图像生成和视觉概念的理解:例如对象、空间关系、姿势、基数等 。Muse 还可以直接启用众多的图像编辑应用程序:包括, 等,而无需微调或反向模型 。