#如何让AI生成更靠谱的集体照# 如果输入一... 来自高飞

//img.t.sinajs.cn/t6/skin/default/skin.css?version=8d42223e

+关注

高飞

24-05-1 21:12 发布于北京来自微博网页版已编辑

#如何让AI生成更靠谱的集体照#
如果输入一张人物照片，让AI基于这个底图，生成一个新图像是容易的。但是如果给AI多张不同人物照片，让它生成一张集体照，就比较困难。因为AI可能会混淆这些人的特征，让生成出来的集体照，不是每个人的组合，而是每个人容貌特征组合起来的“新造的人”的组合。
所谓什么研究都有，刚就看到了一篇论文，介绍了一种叫“InstantFamily”的新方法（论文地址：O网页链接），它用于生成能够准确保留多个身份标识（ID）的集体图像。这项技术使用了一种被称为掩蔽交叉注意力（masked cross-attention）的机制，结合多模态嵌入堆栈（multimodal embedding stack），以实现零样本（zero-shot）多ID图像生成。
效果看起来还蛮好的，见图一。左侧小图是7个人的原图输入，右边是集体照，每个人都能看出来是谁，没有出现容貌融合问题。

1、技术原理：
掩蔽交叉注意力机制：这种机制可以在生成图像时精确控制多ID的合成和布局，解决了多ID生成时常见的身份混淆问题。
多模态嵌入堆栈：通过融合面部识别模型中的全局和局部特征，这一技术增强了身份的保留能力，并允许在生成过程中动态控制每个身份的姿势和空间关系。

2、应用场景：
InstantFamily可以用于数字媒体、社交平台和个性化内容创作等领域，特别是在需要同时表达多个人物身份和特征的场合，如家庭聚会或团队活动的个性化图像生成。

补充一下，前几天我一直在忙中关村论坛上的一场世界数字健康论坛，其中一个重要环节就是包括十几位院士在内的集体照。或许这个技术成熟之后，除了现场拍照，还可以额外再做一张AI合影。