24-05-1 21:12 发布于 北京 来自 微博网页版 已编辑
#如何让AI生成更靠谱的集体照#
如果输入一张人物照片,让AI基于这个底图,生成一个新图像是容易的。但是如果给AI多张不同人物照片,让它生成一张集体照,就比较困难。因为AI可能会混淆这些人的特征,让生成出来的集体照,不是每个人的组合,而是每个人容貌特征组合起来的“新造的人”的组合。
所谓什么研究都有,刚就看到了一篇论文,介绍了一种叫“InstantFamily”的新方法(论文地址:O网页链接),它用于生成能够准确保留多个身份标识(ID)的集体图像。这项技术使用了一种被称为掩蔽交叉注意力(masked cross-attention)的机制,结合多模态嵌入堆栈(multimodal embedding stack),以实现零样本(zero-shot)多ID图像生成。
效果看起来还蛮好的,见图一。左侧小图是7个人的原图输入,右边是集体照,每个人都能看出来是谁,没有出现容貌融合问题。

1、技术原理:
掩蔽交叉注意力机制:这种机制可以在生成图像时精确控制多ID的合成和布局,解决了多ID生成时常见的身份混淆问题。
多模态嵌入堆栈:通过融合面部识别模型中的全局和局部特征,这一技术增强了身份的保留能力,并允许在生成过程中动态控制每个身份的姿势和空间关系。

2、应用场景:
InstantFamily可以用于数字媒体、社交平台和个性化内容创作等领域,特别是在需要同时表达多个人物身份和特征的场合,如家庭聚会或团队活动的个性化图像生成。

补充一下,前几天我一直在忙中关村论坛上的一场世界数字健康论坛,其中一个重要环节就是包括十几位院士在内的集体照。或许这个技术成熟之后,除了现场拍照,还可以额外再做一张AI合影。
欢迎新用户
o p

正在加载,请稍候...