真实面经题目 · 原创解析
AIGC 产品中人物一致性、音色一致性和多人物稳定性如何评测?
这题考多模态 AIGC 的一致性评测,重点是把人物、音色和多人物稳定性拆成可标注、可自动检测、可线上验证的指标体系。
真实面经题目 · 原创解析
这题考多模态 AIGC 的一致性评测,重点是把人物、音色和多人物稳定性拆成可标注、可自动检测、可线上验证的指标体系。
我会把一致性评测分成三个层面:人物一致性看身份、外观、服饰和关键特征是否在多帧、多镜头或多次生成中保持稳定;音色一致性看说话人声纹、音色风格、情绪和口型节奏是否一致;多人物稳定性看角色不串脸、不串声、不交换身份,空间关系和交互关系不混乱。评测上先建立带角色设定和参考素材的测试集,再用自动指标做初筛,例如人脸相似度、声纹相似度、身份绑定准确率和跨帧漂移率,同时用人工 Rubric 评估主观稳定性。上线后还要看用户重生成率、编辑率、投诉和采纳率,把 badcase 按身份漂移、音色漂移、角色混淆、动作遮挡等原因回流。
人物一致性不是单张图好不好看,而是同一个角色在多次生成、多帧视频或不同场景中仍然像同一个人。音色一致性也不是声音自然度,而是同一个说话人的音色、年龄感、情绪和语速风格是否稳定。多人物稳定性则要求系统持续绑定每个角色的身份。
评测集应包含角色设定、参考图、参考音频、多人场景、遮挡、角度变化、表情变化和长视频片段。没有参考锚点,就很难判断一致性;只有简单正脸或单人样本,又会低估真实场景里的身份漂移。
人物可以用人脸相似度、主体特征匹配、服饰颜色稳定性和跨帧身份漂移率做初筛;音色可以用声纹相似度、说话人验证、音高和语速稳定性;多人物可以看角色绑定准确率、身份交换率和不同人物之间的特征分离度。
自动指标无法完全覆盖风格、年龄感、气质、角色辨识度和用户感知。人工 Rubric 应要求评审分别打人物像不像、是否串脸、音色是否串声、多人关系是否稳定,并记录失败原因,而不是只给一个笼统好坏分。
多人物场景常见问题是 A 的脸变成 B、台词声音互换、遮挡后身份丢失、远景人物融合。评测时要按角色编号追踪每个人,判断在每个镜头、每句台词和每次交互中是否保持同一身份。
上线后要收集重生成、手动修改、用户删除、投诉和低评分样本。badcase 不能只归为质量差,要细分为人物漂移、音色漂移、角色混淆、时序跳变、参考素材不足、prompt 歧义或模型能力不足,方便下一轮训练和产品约束。
说明自动指标没有覆盖用户感知特征,可能是年龄感、气质、发型或风格偏差。要把这类样本纳入人工 Rubric,并调整自动指标权重或增加人工抽检。
常见是角色身份交换、脸部特征融合、台词声音串换、遮挡后身份丢失,以及远景人物细节崩坏。评测要按角色逐个追踪,而不是只看整体画面。
自然度关注声音是否像真人、是否流畅;一致性关注是不是同一个说话人、同一风格和同一情绪轨迹。自然但换了音色,仍然是一致性失败。
会。参考图或参考音频本身不清晰时,一致性判断会变得不稳定。评测集应标注参考素材质量,并单独分析低质量参考下的表现。
可以在生成前提示用户上传清晰参考素材,生成中做自动检测,失败时提示重试或限制多人复杂场景,并给用户保留局部重绘、换音色和手动修正能力。
要先证明指标和人工评价、用户采纳或投诉有相关性。只有和真实体验一致的指标才适合作为门禁,否则只能作为辅助诊断。