60 秒回答模板

文生图大模型产品评估,我会先把标准拆成几类:指令遵循,也就是画面是否符合 prompt;主体和细节一致性,比如人物、商品、风格、文字、比例是否稳定;美学质量,比如构图、清晰度、光影、色彩;安全合规,比如敏感内容、版权和品牌风险;工程体验,比如生成时延、失败率和成本。评估过程上,要建立覆盖典型场景、长尾 prompt、风险 prompt 和历史 badcase 的样本集。人审适合判断审美、语义一致性、品牌风险和复杂偏好,但成本高、主观性强;机审适合规模化检测清晰度、安全分类、重复度、基础属性和回归趋势,但不能完全替代人审。我的策略是自动评估做大规模初筛和回归监控,人工评审做标尺校准、高风险样本和主观质量判断,并定期用人审结果校准自动指标。

考点 评估维度雷达
难度 真实面经题
回答目标 制定评估标准和人机审策略

深入解析

01

先定义文生图产品的质量维度

文生图评估不能只问图片好不好看。需要拆成 prompt 遵循、主体正确、细节一致、风格一致、美学质量、文字渲染、比例尺寸、安全合规、生成速度和成本等维度。不同产品场景权重不同,比如营销图更重视审美和品牌一致性,工具型生成更重视可控性。

02

评估样本集要覆盖真实使用

样本不应只选简单 prompt。要覆盖高频场景、复杂组合指令、长尾需求、容易失败的主体、文字和手部等难点、风险内容、历史 badcase,以及不同尺寸比例和风格要求。这样才能看出模型在真实产品中的稳定性。

03

人审负责主观和高风险判断

人工评审适合判断审美、创意、语义是否真正匹配、品牌调性是否合适、风险内容是否隐蔽。为了降低主观性,需要明确评分 rubric、示例图、多人交叉标注和一致性校验。不能只让评审凭感觉打分。

04

机审负责规模化和回归

自动评估适合做安全分类、清晰度检测、主体检测、OCR 检查、重复度、基础属性匹配和历史版本对比。它的优势是便宜、快、可持续监控;缺点是难评审美、创意和复杂语义,所以适合作为初筛和趋势监控。

05

人审和机审要形成校准关系

比较稳的策略是机审先覆盖全量或大样本,筛出明显失败和风险样本;人审抽样复核关键样本、边界样本和模型版本差异。人审结果反过来校准自动指标阈值,避免机审分数高但用户觉得差。

06

标准需要随产品迭代

文生图能力和用户需求会变化,评估标准也要迭代。新风格、新模板、新风险类型和新用户场景都应进入评测集。上线 gate 不仅看平均分,还要看关键场景不退化、高风险不过线、成本和时延可接受。

易错点

  • 只说结果好不好看,没有拆 prompt 遵循、一致性、安全和工程体验。
  • 把自动指标当成最终质量标准,忽略审美和复杂语义判断。
  • 人审没有 rubric 和一致性校验,导致评估不可复现。
  • 评测样本只覆盖简单 prompt,无法发现真实产品问题。
  • 只看平均分,不看关键场景退化和高风险样本。
  • 标准不迭代,历史 badcase 没有进入回归集。

面试官追问

为什么不能全部用自动指标?

自动指标难准确判断审美、创意、复杂语义和品牌调性,容易出现分数高但用户不满意。它适合规模化初筛,不适合完全替代人审。

人审如何降低主观性?

要有明确 rubric、正反例、多人评审、一致性统计和仲裁机制。评审任务也要按维度拆分,避免只给一个模糊总分。

文生图评估里哪些指标最关键?

取决于场景,但一般包括 prompt 遵循、主体正确、细节一致、美学质量、安全合规、生成成功率、时延和成本。

模型版本升级怎么做质量 gate?

用固定回归集比较新旧版本,要求核心场景不退化、高风险样本不过线、关键指标提升或持平,再灰度观察真实用户反馈。

用户主观偏好差异大怎么办?

可以按人群、场景、风格偏好分层评估,不追求单一平均分解释所有体验,同时保留用户反馈做个性化或模板迭代。