在OpenAI宣布其最新的AI系统DALL-E 2(从文本中创建图像)大约一个月后,谷歌继续了AI的“太空竞赛”,拥有自己的文本到图像扩散模型Imagen。谷歌的结果非常令人印象深刻,甚至可能是可怕的。
使用标准度量FID,Google Imagen在使用COCO数据集时以7.27的分数超过了Open AI的DALL-E 2。尽管没有接受过COCO的培训,但Imagen在这里的表现仍然很好。Imagen还优于DALL-E 2和其他人类评分者之间的竞争性文本到图像方法。您可以在Google的研究论文中阅读有关完整测试结果的信息。
Imagen的工作原理是获取自然语言文本输入,例如“一只金毛猎犬戴着蓝色方格贝雷帽和红色点高领毛衣”,然后使用冻结的T5-XXL编码器将输入文本转换为嵌入。然后,“条件扩散模型”将嵌入的文本映射到64x64的小图像中。Imagen 使用文本条件超分辨率扩散模型将 64x64 图像上采样为 256x256 和 1024x1024。
与去年秋天NVIDIA的GauGAN2方法相比,Imagen在灵活性和效果方面有了显着提高。人工智能正在迅速发展。考虑下图,该图像来自“一只可爱的柯基犬住在用寿司制成的房子里”。这看起来可信,就像有人真的用寿司建造了一个狗屋,柯基犬可能不出所料地喜欢。
这是一个可爱的创作。似乎到目前为止,我们从Imagen看到的所有东西都很可爱。毛茸茸的动物的滑稽服装,戴太阳镜的仙人掌,游泳泰迪熊,皇家浣熊等。人们在哪里?
无论是无辜的还是恶意的,我们知道一些用户一旦访问Imagen,就会立即开始输入有关人们的各种短语。我敢肯定,在幽默的情况下,会有很多关于可爱动物的文本输入,但也会有关于厨师,运动员,医生,男人,女人,孩子等等的输入文本。这些人会是什么样子?医生会主要是男性吗,空乘人员会主要是女性吗?大多数人的皮肤会是浅色的吗?
我们不知道Imagen如何处理这些文本字符串,因为Google选择不显示任何人。文本到图像研究存在伦理挑战。如果一个模型可以想象地从文本中创建几乎任何图像,那么一个模型在呈现无偏见的结果方面有多好?像Imagen这样的AI模型主要是使用从网络上抓取的数据集来训练的。互联网上的内容是扭曲和偏颇的,我们仍然试图完全理解。这些偏见具有负面的社会影响,值得考虑,理想情况下,还要纠正。不仅如此,谷歌还为Imagen使用了LAION-400M数据集,众所周知,Imagen“包含各种不适当的内容,包括色情图像,种族主义诽谤和有害的社会刻板印象”。培训小组的一个子集被过滤以消除噪音和“不良”内容,但仍然存在“Imagen编码有害的刻板印象和表示的风险,这指导我们决定在没有进一步保障措施的情况下不发布Imagen供公众使用。
所以不,你不能自己访问Imagen。在其网站上,Google允许您点击所选群组中的特定单词以查看结果,例如“一张戴着牛仔帽的毛茸茸的熊猫和黑色皮夹克在山顶上弹吉他的照片”,但您无法搜索与人或潜在有问题的行为或项目有关的任何内容。如果可以的话,你会发现这个模型倾向于生成肤色较浅的人的图像,并强化传统的性别角色。早期的研究还表明,Imagen通过对某些项目和事件的描绘来反映文化偏见。
我们知道Google已经意识到其各种产品的代表性问题,并正在努力改善逼真的肤色代表性并减少固有的偏见。然而,人工智能仍然是某种“狂野西部”。虽然在幕后有许多有才华、有思想的人在生成AI模型,但模型一旦被释放出来,基本上就是独立的。根据用于训练模型的数据集,很难预测当用户可以键入他们想要的任何内容时会发生什么。
这不是Imagen的错,也不是任何其他与同一问题作斗争的AI模型的错。模型是使用包含可见和隐藏偏差的大量数据集进行训练的,这些问题随着模型的扩展而扩展。除了边缘化特定人群之外,人工智能模型还可以产生非常有害的内容。如果你要求插画家画或画一些可怕的东西,许多人会厌恶地把你拒之门外。文本到图像的AI模型没有道德上的疑虑,会产生任何东西。这是一个问题,目前还不清楚如何解决。
与此同时,随着人工智能研究团队努力解决他们极其令人印象深刻的工作的社会和道德影响,你可以看看滑板熊猫的惊人逼真的照片,但你不能输入自己的文字。Imagen不向公众开放,其代码也不向公众开放。但是,您可以在新的研究论文中了解有关该项目的很多信息。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!