风靡朋友圈的妙鸭相机，到底用了哪些底层技术？ _人工智能

不知道大家近期的朋友圈有没有被和海马体、天真蓝如出一辙的AI写真刷屏！
这些面若桃花、精致到头发丝、光影充满氛围感的写真都是一款叫“妙鸭相机”的小程序生成的！只要9.9，就能体验999写真！
虽然只要9.9，但生成的照片真的很逼真！
在大家被和所惊艳之后，如今又惊叹于妙鸭相机的写真能力！
它到底用到了什么AI技术才做到这么厉害的呢？
本文就带大家来探索一下！
01
AIGC关键技术
无论是，还是、妙鸭相机，都属于人工智能创造内容（AI，AIGC）！
AIGC有两项关键技术：
一个是所代表的大模型（LargeModel，LLM）技术。
另一个是、妙鸭相机等AI绘画作图背后的扩散模型（ Model）技术。
AI绘画、AI对话、AI游戏创作等这些产物的背后是深度生成模型，它可以根据已有的数据和计算机程序生成新的数据。
真实世界的数据是复杂的，其维度高、分布复杂，变量之间还存在非线性关系，例如，图片数据被认为是二维空间的像素点数据，并且图片内容决定了像素点之间有着复杂的交互关系。这对使用传统模型进行拟合数据分布提出了巨大挑战。

文章插图
此外，我们不仅希望AI生成的内容有真实性，也希望其是新颖的，即可以对问题提出新的解决方案，而不只是复制已有的内容；高效地利用计算机的运算能力，实现高效的自动化生产；根据用户需求提供相应的内容，等等。
在这些需求下，扩散模型能够捕捉复杂的数据分布、产生真实、新颖的内容，并且能够实现个性化的、高效的生产。因此，引起了人们的广泛关注。
深度生成模型源于生成式建模和深度学习。
生成建模认为数据在相应的空间存在着概率密度分布，其目的就是建模和学习这种潜在分布。早期的生成建模如高斯混合模型（GMM），隐马尔可夫模型（HMM）在表达能力和可扩展性方面存在局限性，在现实数据的复杂性面前表现得较为吃力。
VAE将深度神经网络与变分推断技术相结合，学习潜在先验并生成新样本。它们提供了端到端训练的框架，并提供了更灵活的生成建模能力。
GAN在深度生成模型的历史中是另一个重要的里程碑，GAN引入了一种新颖的对抗训练方法，同时训练生成器网络和判别器网络。该架构通过生成器和判别器网络之间的最小、最大博弈来生成高度逼真的样本。
深度生成模型还有基于能量的模型和基于流的模型，等等。
02
扩散模型
扩散模型于2020年被提出，但其发源可以追溯到2015年，理论背景甚至可以追溯到20世纪对于随机过程、随机微分方程的研究。
扩散模型通过向原始数据逐步加入噪声来破坏原始信息，然后再逆转这一过程生成样本。相较于以往的深度生成模型，扩散模型生成的数据质量更高、多样性更强，并且扩散模型的结构也很灵活，这使得扩散模型很快成为了研究和应用的热点。在《扩散模型：生成式AI模型的理论、应用与代码实践》一书中就详细讨论了扩散模型与其他深度生成模型的关系。
我们可以考虑一个物理过程来通俗地理解扩散模型。把真实世界的数据比作空气中的一团分子，它们互相交织，形成了具有特定结构的整体。由于这个分子团过于复杂，我们无法直接了解其结构，但我们可以理解在空气中做无规则运动的某种粒子，即对应着服从标准高斯分布的某个变量。从无规则运动的粒子出发，我们不断变换这些粒子的相对位置，每次只变换一小步，最终将这些粒子的分布状态变换为我们想要的复杂的分子的形态。也就是说，从纯噪声开始，我们进行了很多小的“去噪”变换，逐渐地将噪声的分布转换为数据的分布，这样就可以利用得到的数据分布进行采样，得到新的数据。可以看到，我们需要知道的信息就是——该如何进行每一步的变换。这比直接学习原始数据的分布简单得多，并且朴素地解释了扩散模型的有效性。《扩散模型：生成式AI模型的理论、应用与代码实践》一书会详细、严格地介绍扩散模型的原理和算法。