已解析题目
算法工程师相关题目
XGBoost 如何实现正则化和并行化?
XGBoost 的正则化体现在目标函数和树结构约束中,并行化主要体现在特征分裂候选和直方图统计等计算过程,而不是每棵树完全独立并行。
如何在给定字符串中输出出现频率最高的字母?
字符串最高频字母题的核心是一次遍历统计频次,再按题目规则处理并列、大小写、非字母字符和字符集范围。
分词算法有哪些?
分词算法解决的是把连续文本切成有意义的词或子词单位。中文没有天然空格,因此分词既要处理词典匹配,也要处理歧义、未登录词、新词、专名、领域词和下游任务适配。常见算法包括基于词典的正向/逆向/双向最大匹配、DAG 加动态规划、HMM/CRF 序列标注、统计语言模型、深度学习序列标注,以及 BPE、WordPiece、SentencePiece 等子词切分方法。
同题还出现在 2 个公司岗位
SVD 和 SVD++ 有什么区别?
推荐系统里的 SVD 通常指矩阵分解,将用户和物品映射到隐向量,用内积预测评分或偏好。SVD++ 在此基础上引入用户的隐式反馈物品集合,把用户交互过的物品隐向量聚合进用户表示,因此能利用浏览、点击、收藏等未显式评分行为,缓解评分稀疏问题。
LDA 是什么,Dirichlet 分布和共轭分布在主题模型中有什么作用?
LDA 是 Latent Dirichlet Allocation,用文档-主题分布和主题-词分布解释文本集合。Dirichlet 分布为多项分布参数提供先验,控制主题和词分布的稀疏程度;共轭性质让后验更新和 Gibbs 采样、变分推断更容易处理。
教育自动批改纠错任务如何设计 seq2seq 方案,并在最少人力下构造正负样本?
这道题考察教育批改纠错任务如何从“文本生成”落到可训练、可评估的纠错系统。回答要把 seq2seq 的输入输出、正负样本来源、低人力标注策略、过度纠错控制和机器翻译差异讲成一个闭环。