60 秒回答模板

常见文本特征提取方法包括 One-hot、Bag of Words、n-gram、TF-IDF、词性和规则特征;也包括 Word2Vec、FastText、GloVe 这类词向量,以及 BERT、RoBERTa、ERNIE 等上下文表示。传统特征简单高效、可解释,适合小数据和线性模型;embedding 能表达语义相似,深度模型和大模型表示更适合复杂语义任务。实际选择要看数据规模、实时性、任务类型和可解释性要求。

考点 稀疏到稠密
难度 真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

传统稀疏特征

One-hot、词袋、n-gram 和 TF-IDF 把文本转成高维稀疏向量。它们实现简单、训练快、可解释性强,常和 LR、SVM、朴素贝叶斯配合。

02

统计和规则特征

文本长度、关键词、词性、实体、情感词、标点、数字比例等特征可以补充业务信号。风控、搜索和短文本分类里这些特征仍然有价值。

03

静态词向量

Word2Vec、GloVe、FastText 把词映射到稠密向量,能表达语义相似。FastText 还能利用子词信息,对未登录词和拼写变化更友好。

04

上下文表示

BERT、RoBERTa、ERNIE 等模型会根据上下文生成 token 或句向量,同一个词在不同语境下表示可以不同,适合理解类任务和复杂语义匹配。

05

选型看工程约束

小数据、低延迟、强解释可优先传统特征;复杂语义任务可用预训练模型;大规模在线系统要考虑特征更新、推理成本和降级方案。

易错点

  • 不要只列深度模型,传统 TF-IDF 和 n-gram 在很多业务里仍然有效。
  • 不要忽略中文分词、停用词、未登录词和领域词表问题。
  • 不要只谈离线效果,线上推理成本和特征更新也很关键。

面试官追问

TF-IDF 和词袋有什么区别?

词袋只统计词频,TF-IDF 会降低高频泛词权重,提高区分性强的词的重要性。

Word2Vec 和 BERT 表示有什么区别?

Word2Vec 是静态词向量,同词表示固定;BERT 是上下文表示,会随语境变化。

线上为什么还会用传统文本特征?

传统特征快、稳、可解释,适合低延迟、大规模和需要可控规则的场景。