AI视觉AI字体设计

DeepFloyd IF

DeepFloyd IF是一种新颖的、最先进的开源文本到图像模型,支持文生图,图像文本设计

标签:

DeepFloyd IF是一种新颖的、最先进的开源文本到图像模型,具有高度的照片真实感和语言理解能力。DeepFloyd IF是一个模块,由一个固定的文本编码器和三个级联的像素扩散模块组成:一个基于文本提示生成64×64像素图像的基本模型和两个超分辨率模型,每个模型都旨在生成分辨率不断增加的图像:256×256像素和1024×1024像素。

模型的所有阶段都使用基于T5转换器的冻结文本编码器来提取文本嵌入,然后将其馈送到具有交叉注意和注意池增强的UNet架构中。结果是优于当前最先进的模型,在COCO数据集上实现了6.66的零射击FID分数。

DeepFloyd IF

数据统计

相关导航

暂无评论

暂无评论...