原始视频内容如何通过多模态模型生成推荐系统可用的向量表示？｜百度算法面经解析

60 秒回答模板

原始视频不能直接变成推荐系统可用向量，通常要先解码和抽样，把长视频切成帧、片段或镜头；再分别提取视觉、音频、文本和行为特征，例如用图像或视频 encoder 处理关键帧和 clip，用 ASR/OCR/标题标签补充语义；然后用时序池化、Transformer、注意力或多模态融合把片段级表示聚合成视频级 embedding。训练目标要服务推荐，不只是视频理解，可以用视频-文本对比学习、同作者/同类目监督、用户点击观看完播等行为信号，或者把 embedding 接入召回和排序联合评估。上线时要考虑离线批量生成、热门内容增量更新、新视频冷启动、向量归一化、索引构建和特征新鲜度。评估要看检索召回、排序指标、线上点击完播转化以及 embedding 的聚类和消融效果。

考点 视频处理流水线

难度 真实面经题

回答目标 讲清视频向量生成和推荐评估

深入解析

先把视频变成可建模片段

原始视频通常很长，逐帧送入模型成本太高。第一步是解码、抽帧、切 clip 或按镜头分段，保留封面、关键帧、动作密集片段和时间戳。采样策略会影响表示质量：均匀采样稳定但可能漏掉关键动作，场景切分或运动采样更关注有效内容但工程复杂度更高。

多模态信号要分开提取

视频推荐向量通常不只来自画面。视觉 encoder 负责物体、场景、人物、动作和风格；音频 encoder 或 ASR 提供声音、语音和背景信息；OCR 能补充字幕和画面文字；标题、标签、作者、类目和审核信息也是重要语义。把这些信号合在一起，才能覆盖冷启动和长尾内容。

片段级表示要聚合成视频级向量

模型会先得到帧级或 clip 级特征，再通过平均池化、最大池化、注意力池化、时序 Transformer 或层级聚合生成视频级 embedding。简单池化便宜稳定，但容易抹掉动作顺序；时序模型表达力更强，但成本更高，也更依赖训练数据。推荐场景要在表示质量和产线吞吐之间取舍。

训练目标必须贴近推荐任务

如果只做视觉分类，向量可能对推荐不够有用。更常见的是结合对比学习、监督分类和用户行为信号：让相似语义的视频接近，让被同类用户消费、同查询召回或同兴趣簇的视频更接近，同时用负样本拉开无关内容。训练时要注意热门偏置、伪负样本和行为噪声。

上线要处理新鲜度和成本

视频 embedding 多数离线或近实时生成，写入特征库和向量索引。新发布视频需要冷启动策略，可以先用标题、封面、类目和轻量模型生成初始向量，后续随着用户行为刷新。线上推荐通常不会只用一个 embedding，而是把它用于召回、粗排特征、相似内容扩展或多样性控制。

评估要从向量走到推荐指标

离线可以看同类视频聚类、检索 recall@k、NDCG、视频-文本匹配和人工标注一致性；推荐链路要看召回覆盖、排序 AUC、点击率、完播率、停留时长、负反馈和多样性。最好做消融：只用视觉、加文本、加音频、加行为信号分别比较，证明向量对推荐确实有增益。

易错点

把问题答成单纯视频分类，没有说明向量如何服务推荐召回和排序。
只说抽帧加 CNN，没有覆盖音频、OCR、ASR、标题标签和用户行为信号。
认为平均池化一定够用，忽略动作顺序、镜头变化和长视频信息稀释。
只讲模型结构，不讲训练目标和正负样本构造。
忽略新视频冷启动、离线生成、增量刷新和向量索引成本。
只用聚类可视化证明效果，没有关联推荐指标和线上 A/B。

面试官追问

为什么不能把所有帧都送进模型？

成本和延迟太高，而且相邻帧冗余很大。工程上会抽关键帧、采样 clip 或按镜头切分，在信息保留和吞吐之间取舍。

视频标题和标签会不会污染视觉向量？

会有风险，尤其标题党或错误标签会引入噪声。可以做多塔或多模态融合，并在评估中比较纯视觉、纯文本和融合向量，避免单一模态支配。

推荐场景里的正负样本怎么构造？

正样本可以来自同主题、同查询点击、连续观看、用户共同消费或人工标注；负样本要避免把曝光不足但相关的视频当成强负样本，通常需要采样和去偏。

视频 embedding 用在推荐链路的哪个位置？

常见位置是内容召回、相似视频扩展、冷启动候选生成、粗排特征和多样性控制。最终排序通常还会结合用户、上下文和实时行为特征。

新视频没有用户行为时怎么生成向量？

先用内容侧信号生成冷启动 embedding，例如封面、关键帧、标题、类目、OCR/ASR。上线后再用真实曝光、点击、完播和负反馈做增量更新或校准。

如何判断 embedding 不是只学到了热门偏置？

要分热门和长尾、不同类目、不同新鲜度做分桶评估，看召回多样性、长尾覆盖和行为去偏后的指标，同时做人工语义相似检查。