你细品！2016年alphaGo火了，百度在送外卖；2023年openai火了，抖音在送外卖

aiazure azureai基础培训

Azure 用 - 建立免M
在所需的 Azure 中授c Azure OpenAI 服盏拇嫒

目前，只有用程式才能授c此服盏拇嫒唷您可以填妥的表危以申 Azure OpenAI 服盏拇嫒唷如有}，在此存放熘刑岢}砼c我Bj。
Azure CLI。安b指南

绦 az login 命令淼侨耄

您必碛 Azure Y源群M，才能建立 OpenAI Y源。您建立新Y源r，可以x窠立新的Y源群M，或使用F有的Y源群M。本文f明如何建立新Y源群M。您可以使用命令，在 Azure CLI 中建立新的Y源群M。下列例在 eastus 位置建立新的Y源群M。您可以在@e找到完整的⒖嘉募。

绦邢铝忻令，在新的Y源群M中建立 OpenAI Y源。在此例中，我在名 OAIResourceGroup 的Y源群M中建立名 MyOpenAIResource 的Y源。毡厥褂媚自己的Y源群M、Y源名Q和 Azure 用糇Rea值M行更新。您可以在@e找到完整的⒖嘉募。

建立Y源後，您即可使用 Azure CLI ふ曳盏南嚓P用Y，例如 REST API 端c基底 URL 和存取金。以下是如何绦羞@身作I的例。您可以在@e找到完整的⒖嘉募。

X取您的端c：
X取您的主要 API 金：

若要部署模型，您可以使用 Azure CLI 绦邢铝忻令，以部署 text-curie-001 的绦w。在此例中，我部署名 MyModel 的模型。毡厥褂米约旱闹颠M行更新。您不需要更、或值。您可以在@e找到完整的⒖嘉募。

您可以馁Y源中h除任何已部署的模型。若要@N做，您可以使用 Azure CLI 绦邢铝忻令。在此例中，我h除名 MyModel 的模型。毡厥褂米约旱闹颠M行更新。您可以在@e找到完整的⒖嘉募。

如果您想要清除和移除 OpenAI Y源，t可以h除Y源或Y源群M。 h除Y源群M也h除c群M中的任何其他Y源。

若要移除Y源群M及其相P的Y源，使用命令。

如果您不打算^m使用此用程式，使用下列步Eh除您的Y源：

使用CLIP Latent的分层文本条件的图像生成

使用clipping缩写,使用cloudflare香港节点,使用CloudflareWorkers加速文件下载,使用Cloudflare的网站

原文：Hierarchical Text-Conditional Image Generation with CLIP Latents

作者： Aditya Ramesh? Prafulla Dhariwal? Alex Nichol? OpenAI OpenAI OpenAI aramesh@openai.com prafulla@openai.com alex@openai.com Casey Chu? Mark Chen 2202 OpenAI OpenAI casey@openai.com mark@openai.com

论文发表时间: 2022年4月

一、简介二、方法---- 2.1 解码器---- 2.2 之前三、图像处理---- 3.1 变化---- 3.2 插值---- 3.3 文本差异四、探究CLIP的潜在空间五、文本到图像的生成---- 5.1 先例的重要性---- 5.2 人的评估---- 5.3 改进的多样性-保真度权衡与指导---- 5.4 关于MS-COCO的比较---- 5.5 美学质量比较六、相关工作

像CLIP这样的对比性模型已经被证明可以学习稳健的图像表示，这些表示可以捕捉到语义和风格。为了利用这些表示来生成图像，我们提出了一个两阶段的模型：一个给定文本字幕生成CLIP图像嵌入的先验器，以及一个以图像嵌入为条件生成图像的解码器。我们表明，明确地生成图像表示，以最小的逼真度和字幕相似性损失提高了图像多样性。我们以图像表示为条件的解码器也可以产生图像的变化，保留其语义和风格，同时改变图像表示中没有的非必要细节。此外，CLIP的联合嵌入空间使语言引导的图像操作能够以一种zero-shot的方式进行。我们对解码器使用扩散模型，并对先验的自回归和扩散模型进行实验，发现后者在计算上更有效率，并产生更高质量的样本。

最近计算机视觉的进展是由从互联网上收集的带字幕图像的大型数据集上的扩展模型驱动的[10, 44, 60, 39, 31, 16]。在这个框架内，CLIP[39]已经成为图像的一个成功的表示学习者。CLIP嵌入有一些理想的属性：它们对图像分布的转变是稳健的，有令人印象深刻的zero-shot能力，任务[45]。同时，扩散模型[46, 48, 25]已经作为一个有前途的生成模型框架出现，推动了图像和视频生成任务的最先进水平[11, 26, 24]。为了达到最佳效果，扩散模型利用了一种指导技术[11, 24]，它以样本的多样性为代价提高了样本的保真度（对于图像，逼真度）。

在这项工作中，我们将这两种方法结合起来，用于文本条件下的图像生成问题。我们首先训练一个扩散解码器来反转CLIP图像编码器。我们的反转器是非确定性的，可以产生对应于一个给定图像嵌入的多个图像。编码器和它的近似反向（解码器）的存在允许超越文本到图像的翻译能力。正如在GAN反转中[62, 55]，对输入图像进行编码和解码会产生语义相似的输出图像（图3）。我们还可以通过反转其图像嵌入的插值在输入图像之间进行插值（图4）。然而，使用CLIP潜在空间的一个显著优势是能够通过在任何编码的文本向量的方向上移动来对图像进行语义修改（图5），而在GAN潜在空间中发现这些方向涉及到运气和勤奋的人工检查。此外，编码和解码图像也为我们提供了一个观察图像的哪些特征被CLIP识别或忽略的工具。

图1：从我们模型的生产版本中选取的1024×1024样本。

图2: unCLIP的高层概述。在虚线之上，我们描述了CLIP的训练过程，通过这个过程，我们学习了一个文本和图像的联合表示空间。在虚线下面，我们描述了我们的文本到图像的生成过程：CLIP文本嵌入首先被送入一个自回归或扩散先验以产生一个图像嵌入，然后这个嵌入被用来调节一个扩散解码器，产生一个最终的

图3: 通过用CLIP进行编码，然后用扩散模型进行解码，对输入图像进行变异。这些变化既保留了语义信息，如画中的时钟和标志中的重叠笔画，也保留了风格元素，如画中的超现实主义和标志中的颜色梯度，同时改变了非必要的细节。

图5: 通过在其CLIP图像嵌入和从两个描述中产生的CLIP文本嵌入的归一化差异之间插值，将文本差异应用于图像。我们还进行DDIM反转，以完美地重建第一列的输入图像，并固定每一行的解码器DDIM噪声

为了获得一个完整的图像生成模型，我们将CLIP图像嵌入解码器与一个先验模型相结合，该模型从一个给定的文本字幕中生成可能的CLIP图像嵌入。我们将我们的文本到图像系统与其他系统如DALL-E[40]和GLIDE[35]进行比较，发现我们的样本在质量上与GLIDE相当，但在我们的生成中具有更大的多样性。我们还开发了在潜在空间中训练扩散先验的方法，并表明它们取得了与自回归先验相当的性能，同时计算效率更高。我们把我们的全文本条件的图像生成堆栈称为unCLIP，因为它通过倒置CLIP图像编码器来生成图像。

我们的训练数据集由一对（x，y）图像x和它们相应的字幕y组成。给定一个图像x，让zi和zt分别是其CLIP图像和文本嵌入。我们设计了我们的生成堆栈，使用两个组件从字幕中产生图像。

- 一个先验P(zi|y)，产生以字幕y为条件的CLIP图像嵌入zi。

- 一个解码器P(x|zi,y)，产生以CLIP图像嵌入zi为条件的图像x（以及可选的文本字幕y）。

解码器允许我们根据CLIP图像嵌入来反转图像，而先验允许我们学习图像嵌入本身的生成模型。将这两个部分堆叠起来，就会产生一个图像x的生成模型P(x|y)，给定字幕为y。

第一个等式成立，因为zi是x的确定性函数。第二个等式成立，因为有连锁规则。因此，我们可以从真实的条件分布P(x|y)中取样，首先用先验取样zi，然后用解码器取样x。在下面的章节中，我们将描述我们的解码器和先验堆栈。关于训练细节和超参数，请参考附录C。

我们使用扩散模型[25，48]来产生以CLIP图像嵌入（和可选的文本字幕）为条件的图像。具体来说，我们修改了Nichol等人（2021年）描述的架构，将CLIP嵌入投射到现有的时间步长的嵌入中，并将CLIP嵌入投射到四个额外的上下文token中，这些token被串联到GLIDE文本编码器的输出序列中。我们保留了原始GLIDE模型中的文本调节途径，假设它可以让扩散模型学习CLIP未能捕捉到的自然语言的各个方面（例如变量绑定），但发现它在这方面提供的帮助很小（第7节）。

虽然我们可以直接从解码器的条件分布中取样，但过去使用扩散模型的工作表明，使用对条件信息的指导[11, 24, 35]可以大大改善样本质量。我们通过在10%的时间里将CLIP嵌入随机设置为零（或学习到的嵌入），以及在训练过程中50%的时间里随机放弃文本字幕，来实现无分类器指导[24]。

为了生成高分辨率的图像，我们训练了两个扩散上采样模型[34, 43]：一个将图像从64×64的分辨率上采样到256×256的分辨率，另一个将图像进一步上采样到1024×1024的分辨率。为了提高我们的上采样器的鲁棒性，我们在训练过程中对条件图像进行了轻微的破坏。对于第一个上采样阶段，我们使用高斯模糊[43]，而对于第二个阶段，我们使用更多样化的BSR退化[42, 59]。为了减少训练计算量并提高数值稳定性，我们跟随Rombach等人[42]的做法，在随机裁剪的图像上进行训练，这些图像是目标尺寸的四分之一。我们在模型中只使用空间卷积（即没有注意力层），并在推理时直接应用目标分辨率的模型，观察到它很容易泛化到更高的分辨率。我们发现在字幕上调节上位机没有任何好处，并且使用无条件的ADMNets[11]，没有任何指导。

虽然解码器可以反转CLIP图像嵌入zi以产生图像x，但我们需要一个从字幕y产生zi的先验模型，以使图像从文本字幕产生。我们为先验模型探索两种不同的模型类别。

- 自回归（AR）先验：CLIP图像嵌入zi被转换为一串离散的代码，并以字幕y为条件进行自回归预测。

- 扩散先验。连续矢量zi直接使用高斯扩散模型，以字幕y为条件进行建模。

除了字幕之外，我们还可以把先验的条件放在CLIP文本嵌入zt上，因为它是字幕的一个确定性函数。为了提高样本质量，我们还通过在训练过程中随机放弃这种文本条件信息10%的时间，使采样能够使用AR和扩散先验的无分类指导。

为了更有效地训练和从AR先验中取样，我们首先通过应用主成分分析（PCA）[37]来降低CLIP图像嵌入的维度zi。特别是，我们发现在用SAM[15]训练CLIP时，CLIP表示空间的排名急剧减少，同时略微改善评估指标。我们能够保留几乎所有的信息，只保留了原来1,024个主成分中的319个。在应用PCA之后，我们通过减少特征值的大小对主成分进行排序，将319个维度中的每一个量化为1,024个离散的桶，并使用带有因果注意力mask的Transformer[53]模型预测所得到的序列。这使得推理过程中预测的token数量减少了三倍，并提高了训练稳定性。

我们通过将文字字幕和CLIP文本嵌入编码为序列的前缀，对AR先验进行了限定。此外，我们在前面加上一个token，表示文本嵌入和图像嵌入之间的（量化的）点积，zi ・ zt。这使我们能够以较高的点积作为模型的条件，因为较高的文本・图像点积对应于更好地描述图像的字幕。在实践中，我们发现从分布的上半部分对点积进行采样是有益的。

对于扩散先验，我们在一个序列上训练一个带有因果注意力mask的纯解码器transformer，该序列依次包括：编码文本、CLIP文本嵌入、扩散时间步长的嵌入、经过噪声处理的CLIP图像嵌入，以及最终嵌入，transformer的输出被用来预测未经噪声处理的CLIP图像嵌入。我们不选择像AR先验中那样将扩散先验置于zi・zt上；相反，我们通过生成zi的两个样本并选择与zt的点积较高的那个样本来提高采样时间的质量。我们发现，与其使用Ho等人[25]的ε・预测公式，不如直接训练我们的模型来预测未经噪声处理的zi，并对这个预测使用均方误差损失。

我们的方法允许我们将任何给定的图像x编码为一个双侧的潜在表示（zi,xT），足以让解码器产生一个准确的重建。潜向量zi描述了被CLIP识别的图像的各个方面，而潜向量xT则编码了解码器重建x所需的所有残差信息。前者是通过简单地用CLIP图像编码器对图像进行编码得到的。后者是通过使用解码器将DDIM反转（[11]中的附录F）应用于x，同时以zi为条件得到的。我们描述三种不同的操作，这些操作都是由这个双侧表示法促成的。

给定一个图像x，我们可以产生相关的图像，这些图像具有相同的基本内容，但在其他方面有所不同，如形状和方向（图3）。为了做到这一点，我们使用DDIM将解码器应用于双侧表示（zi,xT），并使用η>0进行采样。η=0时，解码器成为确定性的，并将重建给定的图像x。较大的η值将随机性引入到连续的采样步骤中，导致变化，这些变化在感觉上是围绕原始图像x的 "中心"。随着η的增加，这些变化告诉我们哪些信息是在CLIP图像嵌入中被捕获的（因此在不同的样本中被保留），哪些是丢失的（因此在不同的样本中发生变化）。

也有可能混合两个图像x1和x2的变化（图4），遍历它们之间发生的CLIP嵌入空间中的所有概念。为了做到这一点，我们使用球形插值在它们的CLIP嵌入zi1和zi2之间进行旋转，产生中间的CLIP表示ziθ=slerp(zi1,zi2,θ)，因为θ从0到1变化。第一种方案是在它们的DDIM倒置潜点xT1和xT2之间进行插值（通过设置xTθ=slerp(xT1,xT2,θ)），这就产生了一条端点重建x1和x2的轨迹。第二种方案是将DDIM的潜势固定为轨迹中所有插值的一个随机采样值。这导致在x1和x2之间有无限多的轨迹，尽管这些轨迹的端点通常不再与原始图像重合。我们在图4中使用了这种方法。

图4: 通过插值它们的CLIP图像嵌入，然后用扩散模型进行解码，两个图像之间的变化。我们固定每一行的解码器种子。中间的变化自然地融合了两个输入图像的内容和风格。

与其他图像表示模型相比，使用CLIP的一个关键优势是，它将图像和文本嵌入到相同的潜在空间，从而使我们能够应用语言引导的图像操作（即文本差异），我们在图5中展示了这一点。为了修改图像以反映一个新的文本描述y，我们首先获得它的CLIP文本嵌入zt，以及描述当前图像的字幕的CLIP文本嵌入zt04。然后，我们通过取其差值和归一化，从这些文本中计算出一个文本差异向量zd=norm（zt-zt0）。现在，我们可以使用球形插值在图像CLIP嵌入zi和文本差异向量zd之间进行旋转，产生中间的CLIP表示zθ=slerp(zi,zd,θ)，其中θ从0线性增加到最大值，通常在[0.25, 0.50]。我们通过解码插值zθ产生最终输出，在整个轨迹中把基础DDIM噪声固定为xT。

我们的解码器模型提供了一个独特的机会，通过允许我们直接可视化CLIP图像编码器所看到的东西来探索CLIP的潜在空间。作为一个用例，我们可以重新审视CLIP做出不正确预测的情况，比如字体攻击[20]。在这些对抗性图像中，一段文字被覆盖在一个目标上，这导致CLIP预测由文字描述的目标而不是图像中描绘的目标。这段文字在本质上隐藏了原始目标的输出概率。在图6中，我们展示了一个来自[20]的这种攻击的例子，其中一个苹果可以被错误地归类为iPod。令人惊讶的是，我们发现我们的解码器仍然以高概率生成苹果的图片，即使 "Granny Smith "的预测概率接近零。更值得注意的是，尽管这个字幕的相对预测概率非常高，但该模型从未产生iPod的图片。

图6: 以字体攻击为特征的图像变化[20]与CLIP模型在三个标签上的预测概率配对。令人惊讶的是，即使这个标签的预测概率接近0%，解码器仍然可以恢复格兰尼-史密斯苹果。我们还发现，我们的CLIP模型比[20]中调查的模型对 "披萨 "攻击的敏感度略低。

PCA重建提供了另一个探测CLIP潜在空间结构的工具。在图7中，我们采取了少数源图像的CLIP图像嵌入，并用逐渐增加的PCA维度来重建它们，然后用我们的解码器和固定种子上的DDIM来可视化重建的图像嵌入。这使我们能够看到不同维度所编码的语义信息。我们观察到，早期的PCA维度保留了粗粒度的语义信息，如场景中的目标类型，而后期的PCA维度则编码了更细粒度的细节，如目标的形状和具体形式。例如，在第一个场景中，早期的维度似乎编码了有食物，也许还有一个容器存在，而后期的维度则具体编码了西红柿和瓶子。图7也是AR先验建模的可视化，因为AR先验被训练为明确地预测这些主成分的顺序。

图7: 从逐渐增加的PCA维度（20、30、40、80、120、160、200、320维度）重建CLIP潜意识的可视化，原始源图像在最右边。较低的维度保留了粗略的语义信息，而较高的维度则编码了关于场景中目标的确切形式的更精细的细节。

尽管我们训练了一个先验，以便从字幕中生成CLIP图像嵌入，但先验对于字幕到图像的生成并非严格必要。例如，我们的解码器可以以CLIP图像嵌入和字幕为条件，但在训练期间，为了实现无分类指导，CLIP图像嵌入有5%的时间被放弃。因此，在采样时，我们可以只以字幕为条件，尽管这低于以这种方式完全训练的模型（这个模型是GLIDE，我们在第5.2和5.3节中与GLIDE做了彻底的比较）。另一种可能性是把CLIP的文本嵌入当作图像嵌入来喂给解码器，就像以前观察到的那样[61, 54]。图8的前两行描述了以这两种方式获得的样本；第三行描述了以先验获得的样本。仅以字幕为条件的解码器显然是最差的，但以文本嵌入的zero-shot为条件确实产生了合理的结果。基于这一观察，另一种方法是训练解码器以CLIP文本嵌入为条件[9]，而不是CLIP图像嵌入（尽管我们会失去第4节中提到的能力）。

图8: 对同一解码器使用不同调节信号的样本。

图8: 对同一解码器使用不同调节信号的样本。在第一行中，我们把文字字幕传递给解码器，并为CLIP嵌入传递一个零矢量。在第二行，我们同时传递文字字幕和CLIP文字嵌入的字幕。在第三行，我们传递文本和由自回归先验生成的CLIP图像嵌入，用于给定的字幕。请注意，这个解码器只在5%的时间里被训练成完成文本到图像的生成任务（没有CLIP图像表示）

为了量化这些替代方法的有效性，我们训练了两个模型：一个以CLIP文本嵌入为条件的小型解码器，以及一个小型unCLIP堆栈（扩散先验和解码器）。然后，我们比较了来自文本嵌入解码器的样本，来自unCLIP堆栈的样本，以

本文地址： https://www.xxs100.com//show-394573.html