知识点标签

文本分类面试题解析

文本分类相关面试题，覆盖文本特征、表示学习、分类模型、评估指标和工程落地。

12 道题 1 个岗位 10 个公司

标签题目

文本分类相关面试题

蚂蚁集团 / 算法

如何将 NLP 和推荐相互结合？

NLP 和推荐结合的关键是把文本理解能力转成推荐可用的用户、物料和上下文表示，用于召回、排序、冷启动和解释，而不是简单把两个系统拼起来。

推荐系统 Embedding 文本分类

百度 / 算法

常见的文本特征提取器有哪些？

文本特征提取器可以从传统稀疏特征、统计特征、词向量、上下文 embedding 和任务特征几类回答，关键是说明适用场景和优缺点。

文本分类特征工程 Embedding

小红书 / 算法

笔记里多个实体和情感词如何抽取实体-情感关系？

这题考面向真实文本的关系抽取方案，重点是先识别实体和情感词，再做候选配对、关系判断和冲突消解。

文本分类 Matching 方法模型评估

网易 / 算法

LDA 是什么，Dirichlet 分布和共轭分布在主题模型中有什么作用？

LDA 是 Latent Dirichlet Allocation，用文档-主题分布和主题-词分布解释文本集合。Dirichlet 分布为多项分布参数提供先验，控制主题和词分布的稀疏程度；共轭性质让后验更新和 Gibbs 采样、变分推断更容易处理。

统计学文本分类模型训练

华为 / 算法

意图识别使用 LR、命名实体识别使用 HMM 时，实体如何提取，模型如何训练？

这道题考察经典 NLP 任务拆分：LR 适合把句子级特征映射到意图类别，HMM 适合把 token 序列映射到 BIO 实体标签序列。回答要讲清文本预处理、特征构造、HMM 初始/转移/发射概率训练、Viterbi 解码和实体字段回收。

意图识别文本分类模型训练

网易 / 算法

教育自动批改纠错任务如何设计 seq2seq 方案，并在最少人力下构造正负样本？

这道题考察教育批改纠错任务如何从“文本生成”落到可训练、可评估的纠错系统。回答要把 seq2seq 的输入输出、正负样本来源、低人力标注策略、过度纠错控制和机器翻译差异讲成一个闭环。

文本分类 Encoder-Decoder 模型训练模型评估

美团 / 算法

NLP 模型接入搜索排序链路时，特征接口和上线评测指标如何设计？

这道题考察 NLP 模型从离线效果走向搜索排序链路的工程化边界。回答要覆盖特征接口、排序接入、延迟降级、日志闭环和离线/在线评测，而不是只介绍某个 NLP 模型。

搜索产品文本分类模型评估工程化

字节跳动 / 算法

对话摘要生成任务如何设计评估指标，并处理长度控制、角色呼应和数据增强？

这题考对话摘要生成的评估和训练细节，答案要同时覆盖内容覆盖、事实一致、角色归因、长度控制、ROUGE 局限和数据增强风险。

大语言模型模型评估模型训练文本分类 Encoder-Decoder

小红书 / 算法

给定包含目标实体的文本，如何把实体链接到知识库，主要难点是什么？

这题考实体链接到知识库的完整链路，回答要覆盖 mention 规范化、候选召回、上下文排序、歧义消解、NIL 处理、知识库更新和评估指标。

文本分类 Matching 方法 Embedding 图数据库模型评估

MiniMax / 算法

训练长文本翻译模型时，数据集应如何构建以保证上下文一致性和译文质量？

这题考开放场景下的 document-level translation 数据构建。回答重点是文档级平行语料、分段对齐、上下文窗口、术语一致性、质量过滤和长文评估。

大语言模型模型训练模型评估文本分类

小米 / 算法

NLP 中 EDA 数据增强有哪些操作，什么时候会伤害语义和标签一致性？

这道题考察 NLP 数据增强的边界意识。EDA 的同义词替换、随机插入、交换和删除只在标签保持不变时有价值；对否定词、实体、数字、时间、领域术语、槽位和逻辑关系敏感的任务，盲目增强会制造噪声标签，导致验证和线上效果变差。

文本分类模型训练模型评估问题排查

腾讯 / 算法

BERT 通常如何做分词，WordPiece 如何处理未登录词，特殊 token 在输入构造中有什么作用？

这题考 BERT 输入构造的基础细节。答案要说明 BERT 通常先做 BasicTokenizer，再做 WordPiece 子词切分；WordPiece 用最长匹配处理词表内子词，无法拆解时用 [UNK]；同时讲清 [CLS]、[SEP]、[MASK]、[PAD]、attention mask 和 token type ids 的作用。

Transformer Embedding 文本分类