对哪些分类算法有研究？｜阿里巴巴算法面经解析

60 秒回答模板

回答这类开放题时，可以先给出分类算法的整体知识框架：分类任务本质上是在特征空间中学习从样本到离散标签的映射，不同算法的差异主要体现在决策边界形态、模型假设、训练目标、可解释性、对特征工程的依赖和工程部署成本上。常见分类算法可以分为几类：第一类是线性模型，例如逻辑回归、线性SVM、感知机，优点是训练和预测效率高、可解释性强，特别适合高维稀疏特征，例如文本分类中的词袋、TF-IDF或离散化特征；局限是表达能力依赖特征交叉和非线性变换。第二类是树模型和集成模型，例如决策树、随机森林、GBDT、XGBoost、LightGBM、CatBoost，它们擅长处理非线性关系、特征交互和表格型数据，通常在结构化特征分类中表现很强，但需要注意过拟合、类别不均衡和推理延迟。第三类是核方法，以SVM为代表，通过核函数在隐式高维空间构造非线性分类边界，小中规模数据上效果稳定，但大规模训练和参数选择成本较高。第四类是概率生成模型，例如朴素贝叶斯、LDA、HMM、CRF等，它们强调条件独立、联合概率或序列依赖建模，朴素贝叶斯在短文本分类和强先验场景中很有用，CRF常用于序列标注而不是普通单标签分类。第五类是神经网络分类器，包括MLP、CNN、RNN/LSTM、Transformer和预训练语言模型，它们能自动学习深层语义表示，适合语义理解、意图识别、情感分类、多标签文本分类等场景，但需要更多数据、算力和调参经验，也要关注可解释性与线上成本。最后，真正的算法选型不能只看模型名字，还要结合数据规模、特征类型、标签噪声、类别分布、业务目标、评价指标、可解释性和部署约束。比如高维稀疏文本的强基线可以从逻辑回归或线性SVM开始；结构化特征优先考虑GBDT类模型；语义表达要求高且有足够数据时考虑预训练模型微调；类别极不均衡时需要关注PR-AUC、召回率、F1、阈值调优和代价敏感学习。

考点 分类问题的核心

主线 线性模型：强基线与可解释性

易错点 只背算法名称，不能解释每类算法的建模假设、优缺点和适用…

深入解析

分类问题的核心

分类算法解决的是将输入样本映射到离散类别的问题，可以是二分类、多分类、多标签分类，也可以扩展到层级分类、序列分类和文本分类。面试中应先说明分类模型通常包含特征表示、决策函数、损失函数、优化方法和评估指标几个部分。这样回答会比直接罗列算法更有层次，也能体现对分类任务本质的理解。

线性模型：强基线与可解释性

线性分类器包括逻辑回归、线性SVM、感知机、最大熵模型等。逻辑回归用 sigmoid 或 softmax 输出类别概率，常用交叉熵训练，优点是简单、稳定、可解释、易部署；线性SVM通过最大间隔提升泛化能力，适合高维稀疏特征。在线广告、文本分类、意图识别的传统特征体系中，线性模型常作为强基线。缺点是只能学习线性边界，复杂非线性关系需要依赖特征工程、交叉特征或核方法。

树模型与集成方法

树模型包括决策树、随机森林、GBDT以及XGBoost、LightGBM、CatBoost等梯度提升框架。决策树通过特征划分构造规则，解释性较好但容易过拟合；随机森林通过Bagging降低方差；GBDT类方法通过逐轮拟合残差或梯度提升表达能力，对结构化数据、数值特征、类别特征和非线性特征交互非常有效。回答时可以强调，树模型通常对特征缩放不敏感，但对类别不均衡、噪声标签、深度、叶子数、学习率和正则化参数比较敏感。

核方法：小中规模非线性分类

核方法的代表是SVM。其核心思想是在不显式构造高维特征的情况下，通过核函数计算样本在高维空间中的相似度，从而得到非线性分类边界。常见核函数有线性核、多项式核、RBF核。SVM适合样本规模不大、特征维度较高、边界较清晰的任务，但训练复杂度较高，超参数C、gamma和核函数选择会显著影响效果，因此在超大规模在线场景中通常不如线性模型或树模型易用。

概率模型：先验与不确定性

概率分类模型包括朴素贝叶斯、贝叶斯网络、LDA主题模型相关分类、隐马尔可夫模型和条件随机场等。朴素贝叶斯假设特征条件独立，虽然假设较强，但在文本分类、垃圾识别、短文本初筛等场景中速度快、样本效率高、可作为稳健基线。概率模型的优势是能表达不确定性和先验知识，缺点是建模假设可能过强，特征相关性复杂时效果受限。对于序列任务，HMM和CRF更适合建模标签依赖，其中CRF常用于命名实体识别、分词、词性标注等序列标注任务。

神经网络分类器

神经分类器包括MLP、CNN、RNN、LSTM、GRU、Transformer以及预训练语言模型微调。MLP适合通用稠密特征；CNN能捕获局部模式，在早期文本分类中常用于 n-gram 语义特征；RNN/LSTM适合序列建模；Transformer依靠自注意力机制处理长距离依赖，配合预训练模型可以显著提升语义分类、情感分析、意图识别、自然语言推理、多标签分类等任务表现。神经模型的短板是训练成本高、对数据和调参敏感、解释性弱，线上部署还需考虑延迟、显存、量化、蒸馏和批处理策略。

文本分类的特殊关注点

文本分类不仅是选择分类器，还要处理文本表示。传统方案通常使用分词、n-gram、TF-IDF、词袋、词向量加线性模型或树模型；深度学习方案使用Word2Vec、FastText、CNN/RNN/Transformer；当前更常见的是预训练模型微调或向量表示加轻量分类头。文本场景还要关注OOV、长文本截断、短文本歧义、类别层级、多标签共现、训练集偏差、标注噪声、领域迁移和推理成本。简单任务先用强基线验证上限和数据质量，语义复杂任务再引入更重的预训练模型。

评估与选型

分类模型不能只比较准确率。类别均衡时可以看Accuracy；类别不均衡时更应关注Precision、Recall、F1、PR-AUC、ROC-AUC、混淆矩阵和业务代价；需要概率输出时还要看校准程度，如Brier Score、可靠性曲线和阈值稳定性。选型时应综合数据规模、特征类型、解释性、训练成本、预测延迟、更新频率、样本不均衡、标注噪声和线上监控。一个成熟回答应体现从基线模型到复杂模型、从离线指标到线上收益、从平均效果到错误分布分析的完整思路。

易错点

只背算法名称，不能解释每类算法的建模假设、优缺点和适用场景。
把准确率当作唯一评价指标，忽略类别不均衡、召回率、精确率、F1和PR-AUC。
认为复杂模型一定优于简单模型，忽略数据规模、特征质量、延迟成本和可解释性。
混淆生成式模型和判别式模型，例如不能说明朴素贝叶斯和逻辑回归的目标差异。
只讲深度学习，不提逻辑回归、SVM、GBDT等经典强基线。
没有结合文本/NLP分类的特殊问题，如高维稀疏、长文本截断、标注噪声、多标签和领域迁移。
不能说明过拟合控制方法，如正则化、剪枝、早停、交叉验证、类别权重和阈值调优。
回答过于个人化或泛泛而谈，缺少可复用的分类算法选型框架。

面试官追问

逻辑回归和线性SVM有什么区别？

逻辑回归直接建模类别概率，常用交叉熵损失，输出可解释的概率分数，适合需要阈值调节、概率校准和线上排序的场景。线性SVM优化最大间隔，常用hinge loss，更强调分类边界的间隔，对高维稀疏数据也很有效，但原始SVM输出不是概率，需要额外校准。

为什么文本分类中朴素贝叶斯有时效果不错？

文本特征通常是高维稀疏的词或n-gram特征，很多类别会有明显的关键词分布差异。朴素贝叶斯虽然条件独立假设不完全成立，但估计简单、样本效率高、对小数据较稳健，因此常作为短文本分类、垃圾识别和快速基线方法。

GBDT和随机森林的核心差别是什么？

随机森林属于Bagging思想，训练多棵相对独立的树，通过平均或投票降低方差，抗过拟合能力较好。GBDT属于Boosting思想，每一轮模型都试图修正前一轮的错误或梯度方向，偏差降低能力强，通常在结构化数据上效果更优，但对参数和噪声更敏感。

类别不均衡时如何处理分类问题？

首先不能只看准确率，应关注Precision、Recall、F1、PR-AUC和混淆矩阵。方法上可以使用重采样、类别权重、focal loss、代价敏感学习、阈值调优、困难样本挖掘和分层评估。还需要结合具体错误代价决定更重视召回还是精确率。

什么时候选择预训练语言模型而不是传统模型？

当任务依赖深层语义理解、上下文关系、语义泛化或领域迁移时，预训练语言模型通常更有优势。例如意图识别、情感分析、语义分类和多标签文本分类。但如果数据规模小、特征强、延迟要求极高，逻辑回归、FastText或轻量模型可能更适合作为线上方案。

如何评价一个分类模型是否真正可上线？

除了离线指标，还要看推理延迟、吞吐、资源占用、稳定性、概率校准、阈值稳定性、错误分布、类别漂移、线上监控和回滚方案。成熟做法是先建立强基线，再通过A/B测试或灰度实验验证模型对真实目标的提升。