真实面经题目 · 原创解析
常见的文本特征提取器有哪些?
文本特征提取器可以从传统稀疏特征、统计特征、词向量、上下文 embedding 和任务特征几类回答,关键是说明适用场景和优缺点。
出现于:百度 · 算法
真实面经题目 · 原创解析
文本特征提取器可以从传统稀疏特征、统计特征、词向量、上下文 embedding 和任务特征几类回答,关键是说明适用场景和优缺点。
常见文本特征提取方法包括 One-hot、Bag of Words、n-gram、TF-IDF、词性和规则特征;也包括 Word2Vec、FastText、GloVe 这类词向量,以及 BERT、RoBERTa、ERNIE 等上下文表示。传统特征简单高效、可解释,适合小数据和线性模型;embedding 能表达语义相似,深度模型和大模型表示更适合复杂语义任务。实际选择要看数据规模、实时性、任务类型和可解释性要求。
One-hot、词袋、n-gram 和 TF-IDF 把文本转成高维稀疏向量。它们实现简单、训练快、可解释性强,常和 LR、SVM、朴素贝叶斯配合。
文本长度、关键词、词性、实体、情感词、标点、数字比例等特征可以补充业务信号。风控、搜索和短文本分类里这些特征仍然有价值。
Word2Vec、GloVe、FastText 把词映射到稠密向量,能表达语义相似。FastText 还能利用子词信息,对未登录词和拼写变化更友好。
BERT、RoBERTa、ERNIE 等模型会根据上下文生成 token 或句向量,同一个词在不同语境下表示可以不同,适合理解类任务和复杂语义匹配。
小数据、低延迟、强解释可优先传统特征;复杂语义任务可用预训练模型;大规模在线系统要考虑特征更新、推理成本和降级方案。
词袋只统计词频,TF-IDF 会降低高频泛词权重,提高区分性强的词的重要性。
Word2Vec 是静态词向量,同词表示固定;BERT 是上下文表示,会随语境变化。
传统特征快、稳、可解释,适合低延迟、大规模和需要可控规则的场景。