文生图大模型产品如何制定评估标准，并选择人审还是机审？｜美团产品面经解析

60 秒回答模板

文生图大模型产品评估，我会先把标准拆成几类：指令遵循，也就是画面是否符合 prompt；主体和细节一致性，比如人物、商品、风格、文字、比例是否稳定；美学质量，比如构图、清晰度、光影、色彩；安全合规，比如敏感内容、版权和品牌风险；工程体验，比如生成时延、失败率和成本。评估过程上，要建立覆盖典型场景、长尾 prompt、风险 prompt 和历史 badcase 的样本集。人审适合判断审美、语义一致性、品牌风险和复杂偏好，但成本高、主观性强；机审适合规模化检测清晰度、安全分类、重复度、基础属性和回归趋势，但不能完全替代人审。我的策略是自动评估做大规模初筛和回归监控，人工评审做标尺校准、高风险样本和主观质量判断，并定期用人审结果校准自动指标。

考点 评估维度雷达

难度 真实面经题

回答目标 制定评估标准和人机审策略

深入解析

先定义文生图产品的质量维度

文生图评估不能只问图片好不好看。需要拆成 prompt 遵循、主体正确、细节一致、风格一致、美学质量、文字渲染、比例尺寸、安全合规、生成速度和成本等维度。不同产品场景权重不同，比如营销图更重视审美和品牌一致性，工具型生成更重视可控性。

评估样本集要覆盖真实使用

样本不应只选简单 prompt。要覆盖高频场景、复杂组合指令、长尾需求、容易失败的主体、文字和手部等难点、风险内容、历史 badcase，以及不同尺寸比例和风格要求。这样才能看出模型在真实产品中的稳定性。

人审负责主观和高风险判断

人工评审适合判断审美、创意、语义是否真正匹配、品牌调性是否合适、风险内容是否隐蔽。为了降低主观性，需要明确评分 rubric、示例图、多人交叉标注和一致性校验。不能只让评审凭感觉打分。

机审负责规模化和回归

自动评估适合做安全分类、清晰度检测、主体检测、OCR 检查、重复度、基础属性匹配和历史版本对比。它的优势是便宜、快、可持续监控；缺点是难评审美、创意和复杂语义，所以适合作为初筛和趋势监控。

人审和机审要形成校准关系

比较稳的策略是机审先覆盖全量或大样本，筛出明显失败和风险样本；人审抽样复核关键样本、边界样本和模型版本差异。人审结果反过来校准自动指标阈值，避免机审分数高但用户觉得差。

标准需要随产品迭代

文生图能力和用户需求会变化，评估标准也要迭代。新风格、新模板、新风险类型和新用户场景都应进入评测集。上线 gate 不仅看平均分，还要看关键场景不退化、高风险不过线、成本和时延可接受。

易错点

只说结果好不好看，没有拆 prompt 遵循、一致性、安全和工程体验。
把自动指标当成最终质量标准，忽略审美和复杂语义判断。
人审没有 rubric 和一致性校验，导致评估不可复现。
评测样本只覆盖简单 prompt，无法发现真实产品问题。
只看平均分，不看关键场景退化和高风险样本。
标准不迭代，历史 badcase 没有进入回归集。

面试官追问

为什么不能全部用自动指标？

自动指标难准确判断审美、创意、复杂语义和品牌调性，容易出现分数高但用户不满意。它适合规模化初筛，不适合完全替代人审。

人审如何降低主观性？

要有明确 rubric、正反例、多人评审、一致性统计和仲裁机制。评审任务也要按维度拆分，避免只给一个模糊总分。

文生图评估里哪些指标最关键？

取决于场景，但一般包括 prompt 遵循、主体正确、细节一致、美学质量、安全合规、生成成功率、时延和成本。

模型版本升级怎么做质量 gate？

用固定回归集比较新旧版本，要求核心场景不退化、高风险样本不过线、关键指标提升或持平，再灰度观察真实用户反馈。

用户主观偏好差异大怎么办？

可以按人群、场景、风格偏好分层评估，不追求单一平均分解释所有体验，同时保留用户反馈做个性化或模板迭代。