常见的文本特征提取器有哪些？｜百度算法面经解析

60 秒回答模板

常见文本特征提取方法包括 One-hot、Bag of Words、n-gram、TF-IDF、词性和规则特征；也包括 Word2Vec、FastText、GloVe 这类词向量，以及 BERT、RoBERTa、ERNIE 等上下文表示。传统特征简单高效、可解释，适合小数据和线性模型；embedding 能表达语义相似，深度模型和大模型表示更适合复杂语义任务。实际选择要看数据规模、实时性、任务类型和可解释性要求。

考点 稀疏到稠密

难度 真实面经题

回答目标 讲清方法、取舍和追问

深入解析

传统稀疏特征

One-hot、词袋、n-gram 和 TF-IDF 把文本转成高维稀疏向量。它们实现简单、训练快、可解释性强，常和 LR、SVM、朴素贝叶斯配合。

统计和规则特征

文本长度、关键词、词性、实体、情感词、标点、数字比例等特征可以补充业务信号。风控、搜索和短文本分类里这些特征仍然有价值。

静态词向量

Word2Vec、GloVe、FastText 把词映射到稠密向量，能表达语义相似。FastText 还能利用子词信息，对未登录词和拼写变化更友好。

上下文表示

BERT、RoBERTa、ERNIE 等模型会根据上下文生成 token 或句向量，同一个词在不同语境下表示可以不同，适合理解类任务和复杂语义匹配。

选型看工程约束

小数据、低延迟、强解释可优先传统特征；复杂语义任务可用预训练模型；大规模在线系统要考虑特征更新、推理成本和降级方案。

易错点

不要只列深度模型，传统 TF-IDF 和 n-gram 在很多业务里仍然有效。
不要忽略中文分词、停用词、未登录词和领域词表问题。
不要只谈离线效果，线上推理成本和特征更新也很关键。

面试官追问

TF-IDF 和词袋有什么区别？

词袋只统计词频，TF-IDF 会降低高频泛词权重，提高区分性强的词的重要性。

Word2Vec 和 BERT 表示有什么区别？

Word2Vec 是静态词向量，同词表示固定；BERT 是上下文表示，会随语境变化。

线上为什么还会用传统文本特征？

传统特征快、稳、可解释，适合低延迟、大规模和需要可控规则的场景。