标签题目
文本分类相关面试题
如何将 NLP 和推荐相互结合?
NLP 和推荐结合的关键是把文本理解能力转成推荐可用的用户、物料和上下文表示,用于召回、排序、冷启动和解释,而不是简单把两个系统拼起来。
常见的文本特征提取器有哪些?
文本特征提取器可以从传统稀疏特征、统计特征、词向量、上下文 embedding 和任务特征几类回答,关键是说明适用场景和优缺点。
笔记里多个实体和情感词如何抽取实体-情感关系?
这题考面向真实文本的关系抽取方案,重点是先识别实体和情感词,再做候选配对、关系判断和冲突消解。
LDA 是什么,Dirichlet 分布和共轭分布在主题模型中有什么作用?
LDA 是 Latent Dirichlet Allocation,用文档-主题分布和主题-词分布解释文本集合。Dirichlet 分布为多项分布参数提供先验,控制主题和词分布的稀疏程度;共轭性质让后验更新和 Gibbs 采样、变分推断更容易处理。
意图识别使用 LR、命名实体识别使用 HMM 时,实体如何提取,模型如何训练?
这道题考察经典 NLP 任务拆分:LR 适合把句子级特征映射到意图类别,HMM 适合把 token 序列映射到 BIO 实体标签序列。回答要讲清文本预处理、特征构造、HMM 初始/转移/发射概率训练、Viterbi 解码和实体字段回收。
教育自动批改纠错任务如何设计 seq2seq 方案,并在最少人力下构造正负样本?
这道题考察教育批改纠错任务如何从“文本生成”落到可训练、可评估的纠错系统。回答要把 seq2seq 的输入输出、正负样本来源、低人力标注策略、过度纠错控制和机器翻译差异讲成一个闭环。
NLP 模型接入搜索排序链路时,特征接口和上线评测指标如何设计?
这道题考察 NLP 模型从离线效果走向搜索排序链路的工程化边界。回答要覆盖特征接口、排序接入、延迟降级、日志闭环和离线/在线评测,而不是只介绍某个 NLP 模型。
对话摘要生成任务如何设计评估指标,并处理长度控制、角色呼应和数据增强?
这题考对话摘要生成的评估和训练细节,答案要同时覆盖内容覆盖、事实一致、角色归因、长度控制、ROUGE 局限和数据增强风险。
给定包含目标实体的文本,如何把实体链接到知识库,主要难点是什么?
这题考实体链接到知识库的完整链路,回答要覆盖 mention 规范化、候选召回、上下文排序、歧义消解、NIL 处理、知识库更新和评估指标。
训练长文本翻译模型时,数据集应如何构建以保证上下文一致性和译文质量?
这题考开放场景下的 document-level translation 数据构建。回答重点是文档级平行语料、分段对齐、上下文窗口、术语一致性、质量过滤和长文评估。
NLP 中 EDA 数据增强有哪些操作,什么时候会伤害语义和标签一致性?
这道题考察 NLP 数据增强的边界意识。EDA 的同义词替换、随机插入、交换和删除只在标签保持不变时有价值;对否定词、实体、数字、时间、领域术语、槽位和逻辑关系敏感的任务,盲目增强会制造噪声标签,导致验证和线上效果变差。
BERT 通常如何做分词,WordPiece 如何处理未登录词,特殊 token 在输入构造中有什么作用?
这题考 BERT 输入构造的基础细节。答案要说明 BERT 通常先做 BasicTokenizer,再做 WordPiece 子词切分;WordPiece 用最长匹配处理词表内子词,无法拆解时用 [UNK];同时讲清 [CLS]、[SEP]、[MASK]、[PAD]、attention mask 和 token type ids 的作用。