如果需要为特定领域的文本训练一套 Embedding，你会怎么做？｜拼多多算法面经解析

60 秒回答模板

我会先明确 embedding 用途，是检索召回、文本分类、相似度还是推荐；然后收集领域语料，清洗去重，保留专业词、别名和短语；接着选择 tokenizer 和训练方案，可以用 Word2Vec/FastText，也可以继续训练领域 BERT 或 sentence embedding；训练时关注窗口、负采样、batch、对比学习正负样本；最后用内在评估和下游任务评估验证，比如相似词、召回率、NDCG、分类效果，并设计增量更新和线上向量索引。

考点 用途先行

难度 算法岗真实面经题

回答目标 讲清方法、取舍和追问

深入解析

明确业务用途

领域 embedding 的目标可能是语义检索、召回、分类、聚类、NER 或推荐。用途决定训练粒度：词向量、短语向量、句向量或文档向量，以及后续评估指标。

构建领域语料

需要收集高质量领域文本，处理 HTML、噪声、重复、低质量模板和敏感内容。专业词、缩写、同义词、品牌词和实体别名要特别保留，否则领域语义会被通用语料稀释。

选择训练目标

词级可以用 Word2Vec、FastText 或 GloVe；句级可以用 SimCSE、DSSM、双塔或对比学习；如果已有预训练模型，可在领域语料上继续预训练或做监督微调。

设计正负样本

检索或相似度任务需要构造可靠正负样本。正样本可以来自点击、共现、同义改写或人工标注，负样本要包含随机负样本和难负样本，避免模型只学到浅层差异。

评估和上线

评估要结合内在相似度测试和下游任务指标，如 Recall、MRR、NDCG、分类 F1。上线还要构建向量索引、版本管理、增量更新、冷启动和漂移监控。

易错点

不要没有业务目标就盲目训练 embedding。
不要只看词向量相似样例，必须看下游任务效果。
不要忽略领域词表和实体别名，通用 tokenizer 可能切碎关键术语。
不要上线后不更新，领域文本分布和新词会持续变化。

面试官追问

领域词很多未登录怎么办？

可以用领域分词词典、子词模型、FastText、BPE 或字符级表示，并定期更新词表和 embedding。

如何构造难负样本？

可以从高 BM25 相似但标签不同的文本、召回结果中的未点击项、同类目不同意图样本或人工混淆集中挖掘。

怎么判断领域 embedding 比通用 embedding 好？

要在领域验证集和下游任务上比较，例如同义词召回、语义检索 Recall/NDCG、分类 F1，以及线上 A/B 指标。