风靡朋友圈的妙鸭相机,到底用了哪些底层技术?

不知道大家近期的朋友圈有没有被和海马体、天真蓝如出一辙的AI写真刷屏!
这些面若桃花、精致到头发丝、光影充满氛围感的写真都是一款叫“妙鸭相机”的小程序生成的!只要9.9,就能体验999写真!
虽然只要9.9,但生成的照片真的很逼真!
在大家被和所惊艳之后,如今又惊叹于妙鸭相机的写真能力!
它到底用到了什么AI技术才做到这么厉害的呢?
本文就带大家来探索一下!
01
AIGC关键技术
无论是,还是、妙鸭相机,都属于人工智能创造内容(AI,AIGC)!
AIGC有两项关键技术:
一个是所代表的大模型(LargeModel,LLM)技术 。
另一个是、妙鸭相机等AI绘画作图背后的扩散模型( Model)技术 。
AI绘画、AI对话、AI游戏创作等这些产物的背后是深度生成模型,它可以根据已有的数据和计算机程序生成新的数据 。
真实世界的数据是复杂的,其维度高、分布复杂,变量之间还存在非线性关系,例如,图片数据被认为是二维空间的像素点数据,并且图片内容决定了像素点之间有着复杂的交互关系 。这对使用传统模型进行拟合数据分布提出了巨大挑战 。

风靡朋友圈的妙鸭相机,到底用了哪些底层技术?

文章插图
此外,我们不仅希望AI生成的内容有真实性,也希望其是新颖的,即可以对问题提出新的解决方案,而不只是复制已有的内容;高效地利用计算机的运算能力,实现高效的自动化生产;根据用户需求提供相应的内容,等等 。
在这些需求下,扩散模型能够捕捉复杂的数据分布、产生真实、新颖的内容,并且能够实现个性化的、高效的生产 。因此,引起了人们的广泛关注 。
深度生成模型源于生成式建模和深度学习 。
生成建模认为数据在相应的空间存在着概率密度分布,其目的就是建模和学习这种潜在分布 。早期的生成建模如高斯混合模型(GMM),隐马尔可夫模型(HMM)在表达能力和可扩展性方面存在局限性,在现实数据的复杂性面前表现得较为吃力 。
VAE将深度神经网络与变分推断技术相结合,学习潜在先验并生成新样本 。它们提供了端到端训练的框架,并提供了更灵活的生成建模能力 。
GAN在深度生成模型的历史中是另一个重要的里程碑,GAN引入了一种新颖的对抗训练方法,同时训练生成器网络和判别器网络 。该架构通过生成器和判别器网络之间的最小、最大博弈来生成高度逼真的样本 。
深度生成模型还有基于能量的模型和基于流的模型,等等 。
02
扩散模型
扩散模型于2020年被提出,但其发源可以追溯到2015年,理论背景甚至可以追溯到20世纪对于随机过程、随机微分方程的研究 。
扩散模型通过向原始数据逐步加入噪声来破坏原始信息,然后再逆转这一过程生成样本 。相较于以往的深度生成模型,扩散模型生成的数据质量更高、多样性更强,并且扩散模型的结构也很灵活,这使得扩散模型很快成为了研究和应用的热点 。在《扩散模型:生成式AI模型的理论、应用与代码实践》一书中就详细讨论了扩散模型与其他深度生成模型的关系 。
我们可以考虑一个物理过程来通俗地理解扩散模型 。把真实世界的数据比作空气中的一团分子,它们互相交织,形成了具有特定结构的整体 。由于这个分子团过于复杂,我们无法直接了解其结构,但我们可以理解在空气中做无规则运动的某种粒子,即对应着服从标准高斯分布的某个变量 。从无规则运动的粒子出发,我们不断变换这些粒子的相对位置,每次只变换一小步,最终将这些粒子的分布状态变换为我们想要的复杂的分子的形态 。也就是说,从纯噪声开始,我们进行了很多小的“去噪”变换,逐渐地将噪声的分布转换为数据的分布,这样就可以利用得到的数据分布进行采样,得到新的数据 。可以看到,我们需要知道的信息就是——该如何进行每一步的变换 。这比直接学习原始数据的分布简单得多,并且朴素地解释了扩散模型的有效性 。《扩散模型:生成式AI模型的理论、应用与代码实践》一书会详细、严格地介绍扩散模型的原理和算法 。