视频 AIGC 从 0 到 1 时，如何设计离线评估、线上实验和用户采纳闭环？｜阿里巴巴产品面经解析

60 秒回答模板

视频 AIGC 从 0 到 1 不能只做模型 Demo，我会先定义目标场景和用户任务，例如脚本生成视频、素材二创或营销短片。离线阶段用代表性任务集评估生成质量、时序稳定、画面一致、可控性、安全和成本；线上阶段从低风险入口小流量实验，比较完成率、采纳率、编辑率、重生成率、导出率、满意度、延迟和单位成本。用户采纳要看生成结果是否进入真实工作流，而不是只看点击生成。复盘时把线上 badcase 分到模型能力、素材输入、prompt 设计、交互流程、审核策略和商业场景，决定下一轮是优化模型、加约束、改入口还是缩小适用场景。

考点 先限定具体任务

难度 真实面经题

回答目标 验证视频 AIGC 采纳闭环

深入解析

先选清楚 0 到 1 场景

视频 AIGC 的范围很大，必须先明确服务哪个任务，例如文案转短视频、图片转视频、商品素材生成、视频二创或办公演示。不同场景的成功标准不同：营销素材看转化和品牌安全，创作工具看可控性和编辑效率，办公场景看表达清晰和复用成本。

离线评估覆盖视频特有问题

离线评估不能只看单帧质量，要覆盖画面清晰度、时序连贯、主体一致性、镜头稳定、动作合理、音画同步、prompt 遵循、安全合规和生成成本。测试集要包含高频需求、复杂需求、边界需求和历史失败样本。

线上实验从低风险入口开始

早期不要把视频 AIGC 放到核心不可逆链路。可以先在创作辅助、草稿生成、内部灰度或低风险模板场景上线，用 A/B 或 holdout 对比真实工作流数据。实验要同时限制生成次数、内容类型和审核策略，避免质量波动扩大。

采纳率比试用点击更关键

用户点了生成不代表产品有价值。更关键的是用户是否保存、导出、发布、二次编辑后继续使用，是否减少制作时间，是否愿意为更高质量付费。要区分好奇点击、一次性尝鲜和真正嵌入工作流的采纳。

成本和延迟决定能否规模化

视频生成成本高、耗时长，从 0 到 1 就要监控单次生成成本、排队等待、失败重试、审核成本和存储成本。即使质量好，如果用户等待太久或单位经济不成立，也只能限定高价值场景。

复盘要决定下一步产品边界

复盘不是简单列 badcase。要判断失败来自模型能力不足、输入素材不清、prompt 不可控、模板约束不够、用户预期太高还是审核策略不合理。根据原因决定扩大场景、收窄边界、增加人工审核、优化编辑器或继续模型迭代。

易错点

把从 0 到 1 答成模型训练流程，忽略真实用户任务和产品边界。
只看生成点击率，没有看导出、发布、采纳和复用。
离线只评估单帧画质，漏掉视频的时序连贯和主体一致性。
上线实验没有低风险灰度，直接进入核心链路。
忽略视频生成成本、等待时间和审核成本。
复盘只列问题，不把问题转化为下一轮放量、收窄或迭代决策。

面试官追问

视频 AIGC 的离线指标和线上指标怎么衔接？

离线指标负责判断能否进入实验，例如时序稳定和安全通过率；线上指标验证用户是否真正采用，例如导出率、发布率、编辑节省时间和负反馈。两者不一致时要回看离线集是否覆盖真实任务。

早期没有足够用户流量时怎么验证？

可以用目标用户访谈、可用性测试、专家评审、内部真实任务试用和小样本灰度先判断方向，同时记录任务完成时间和采纳意愿，再逐步进入线上实验。

生成质量还不稳定时产品上怎么处理？

可以限定模板和输入范围，提供局部编辑、重生成、人工审核和明确预期提示。不要把能力包装成无边界自动生成，否则会放大失败感。

如何判断视频 AIGC 值得继续投入？

看目标用户是否在真实工作流中持续使用，是否节省时间或提升产出质量，关键场景指标是否提升，以及单位成本是否能被付费、转化或效率收益覆盖。

A/B 实验要避免哪些偏差？

要避免新功能好奇心导致短期点击虚高，也要避免只看生成入口数据。最好跟踪到最终导出、发布、留存、投诉和成本，并按用户熟练度分层。

badcase 回流应该由谁负责？

产品要定义分类和优先级，算法负责模型侧原因，工程负责链路稳定，运营或审核补充安全和内容规则。没有跨团队责任闭环，badcase 只会堆积。