真实面经题目 · 原创解析
文生图大模型产品如何制定评估标准,并选择人审还是机审?
这题考文生图产品评估体系设计,回答要覆盖评估维度、样本集、人工与自动评估分工、标准迭代和上线 gate。
真实面经题目 · 原创解析
这题考文生图产品评估体系设计,回答要覆盖评估维度、样本集、人工与自动评估分工、标准迭代和上线 gate。
文生图大模型产品评估,我会先把标准拆成几类:指令遵循,也就是画面是否符合 prompt;主体和细节一致性,比如人物、商品、风格、文字、比例是否稳定;美学质量,比如构图、清晰度、光影、色彩;安全合规,比如敏感内容、版权和品牌风险;工程体验,比如生成时延、失败率和成本。评估过程上,要建立覆盖典型场景、长尾 prompt、风险 prompt 和历史 badcase 的样本集。人审适合判断审美、语义一致性、品牌风险和复杂偏好,但成本高、主观性强;机审适合规模化检测清晰度、安全分类、重复度、基础属性和回归趋势,但不能完全替代人审。我的策略是自动评估做大规模初筛和回归监控,人工评审做标尺校准、高风险样本和主观质量判断,并定期用人审结果校准自动指标。
文生图评估不能只问图片好不好看。需要拆成 prompt 遵循、主体正确、细节一致、风格一致、美学质量、文字渲染、比例尺寸、安全合规、生成速度和成本等维度。不同产品场景权重不同,比如营销图更重视审美和品牌一致性,工具型生成更重视可控性。
样本不应只选简单 prompt。要覆盖高频场景、复杂组合指令、长尾需求、容易失败的主体、文字和手部等难点、风险内容、历史 badcase,以及不同尺寸比例和风格要求。这样才能看出模型在真实产品中的稳定性。
人工评审适合判断审美、创意、语义是否真正匹配、品牌调性是否合适、风险内容是否隐蔽。为了降低主观性,需要明确评分 rubric、示例图、多人交叉标注和一致性校验。不能只让评审凭感觉打分。
自动评估适合做安全分类、清晰度检测、主体检测、OCR 检查、重复度、基础属性匹配和历史版本对比。它的优势是便宜、快、可持续监控;缺点是难评审美、创意和复杂语义,所以适合作为初筛和趋势监控。
比较稳的策略是机审先覆盖全量或大样本,筛出明显失败和风险样本;人审抽样复核关键样本、边界样本和模型版本差异。人审结果反过来校准自动指标阈值,避免机审分数高但用户觉得差。
文生图能力和用户需求会变化,评估标准也要迭代。新风格、新模板、新风险类型和新用户场景都应进入评测集。上线 gate 不仅看平均分,还要看关键场景不退化、高风险不过线、成本和时延可接受。
自动指标难准确判断审美、创意、复杂语义和品牌调性,容易出现分数高但用户不满意。它适合规模化初筛,不适合完全替代人审。
要有明确 rubric、正反例、多人评审、一致性统计和仲裁机制。评审任务也要按维度拆分,避免只给一个模糊总分。
取决于场景,但一般包括 prompt 遵循、主体正确、细节一致、美学质量、安全合规、生成成功率、时延和成本。
用固定回归集比较新旧版本,要求核心场景不退化、高风险样本不过线、关键指标提升或持平,再灰度观察真实用户反馈。
可以按人群、场景、风格偏好分层评估,不追求单一平均分解释所有体验,同时保留用户反馈做个性化或模板迭代。