图分割是什么？以 Normalized Cut 为例如何介绍？｜阿里巴巴算法面经解析

60 秒回答模板

我会先定义图分割任务：给定一幅图像或一般图结构，将节点划分为若干组，使组内节点在颜色、纹理、空间位置或特征表示上尽量相似，组间差异尽量大。在图像分割里，节点可以是像素或超像素，边表示邻接关系或特征相似性，边权越大表示两个节点越应该被分到同一类。如果具体介绍一种方法，我会选 Normalized Cut。它的基本思想是把图像看成一个加权无向图，每个节点代表像素或超像素，边权描述节点之间的相似度。常见相似度会同时考虑外观和空间距离，例如颜色差越小、空间距离越近，边权越大；距离很远的点可以不连边，以降低计算量。普通 Cut 只最小化被切断边的权重之和，容易得到一个很小的孤立区域，因为切掉一个小区域通常代价很低。Normalized Cut 在割代价里加入区域规模的归一化项：不仅要求两个区域之间的连接弱，还要求每个区域和整体图的连接比例合理。直观上，它希望找到内部联系紧密、外部联系稀疏且规模不过分失衡的划分。求解上，Normalized Cut 的离散优化是 NP-hard，实际会进行谱松弛，把问题转化为广义特征值问题。通常取第二小特征值对应的特征向量，根据阈值把节点分成两类；如果需要多类分割，可以递归二分或取多个特征向量后再聚类。实际工程中一般先用超像素降维，或者只建立局部邻接边，否则像素级全连接图的计算和存储成本会很高。评价效果时，可以从无监督和有监督两类指标看。没有标注时关注区域内部一致性、边界贴合度、分割数量是否合理；有标注时可以用 IoU、Dice、Boundary F-score、Pixel Accuracy 等指标。Normalized Cut 的优点是全局建模能力强，能利用整体相似性，不完全依赖局部梯度；缺点是复杂度较高，对相似度函数、尺度参数、节点构建方式敏感，而且它本质上更偏底层视觉分割，遇到复杂语义类别时通常不如深度学习语义分割方法。

考点 任务定义

主线 图建模

易错点 只说算法名字，不解释节点、边、边权和优化目标，导致回答…

深入解析

任务定义

图分割不是简单地把视觉内容切成几块，而是基于节点间关系进行划分。目标是让同一子集内部相似、不同子集之间差异明显。节点可以是像素、超像素、点云点、社交网络用户或任意图节点，边权表达相似度或连接强度。

图建模

以图像场景为例，先把像素或超像素作为节点，再根据空间邻接、颜色距离、纹理特征或深度特征建立边。边权通常由相似度函数给出，例如颜色差越小、位置越近，权重越大。全连接图表达能力强但成本高，局部邻接图更适合大规模计算。

核心方法

Normalized Cut 关注被切断边权占各自区域总体连接强度的比例。它修正了普通最小割容易产生小孤立区域的问题，使分割结果更均衡。核心思想是同时最小化区域间连接，并保持区域内部与整体连接的合理比例。

优化求解

原始离散划分难以直接精确求解，常用谱松弛处理，将分割问题转化为广义特征值问题。二分类时常取第二小特征向量进行阈值划分，多分类时可以递归二分或结合多个特征向量做聚类。回答时要说明这是近似求解，不是把离散最优问题完全精确地算出来。

效果评估

评估不能只看视觉效果。若有标注，可使用 IoU、Dice、Boundary F-score、Pixel Accuracy 等指标；若无标注，可关注区域紧凑性、边界贴合度、过分割与欠分割程度、对噪声和尺度变化的鲁棒性。

适用边界

Normalized Cut 适合解释性强、需要全局相似关系的底层分割任务。它不适合直接承担复杂语义理解任务，且在大图上计算成本较高。实际使用时常结合超像素、稀疏图构建、近似特征分解等方式降低开销。

易错点

只说算法名字，不解释节点、边、边权和优化目标，导致回答停留在概念层。
把图分割和语义分割混为一谈，没有说明底层视觉一致性与类别语义之间的区别。
忽略相似度建模，未说明颜色、纹理、空间距离等因素如何影响边权。
只说最小化 Cut，没有指出普通 Cut 容易产生小孤立区域，也没有解释 Normalized Cut 的归一化意义。
把谱方法说成精确求解，没有说明离散问题通常需要松弛近似。
只谈原理不谈复杂度，忽略像素级图的存储和特征分解成本。
只谈视觉效果，不给出 IoU、Dice、Boundary F-score 等可量化评估方式。
没有说明适用边界，给人一种传统图分割可以直接解决复杂语义理解任务的误解。

面试官追问

为什么不用普通最小割，而要用 Normalized Cut？

普通最小割只看被切断边权总和，切出一个很小的孤立区域往往代价最低，因此容易得到不均衡划分。Normalized Cut 会把割边代价除以区域与整体图的连接强度，倾向于得到区域内部联系更充分、规模更合理的划分。

边权应该怎么设计？

边权要表达两个节点属于同一区域的可能性。图像中常结合颜色差、纹理差、空间距离和深度特征。常见原则是外观越相似、空间越接近，权重越大；距离太远的节点可以不连边，以减少噪声和计算量。

Normalized Cut 的复杂度问题怎么解决？

像素级图规模很大，直接特征分解成本高。常见优化包括先生成超像素、只连接局部邻居、构造稀疏矩阵、使用近似特征分解，或者把它作为传统基线而不是大规模实时系统的主方法。

它和 K-means 分割有什么区别？

K-means 更像是在特征空间里做聚类，通常不显式建模图结构和邻接关系。Normalized Cut 显式考虑节点之间的边权关系，可以利用空间连续性和全局连接结构，因此更适合表达区域划分问题，但计算成本也更高。

它和 GrabCut 有什么区别？

GrabCut 通常需要用户提供前景背景初始化，通过颜色 GMM 和图割迭代优化前景背景分离，更适合交互式抠图。Normalized Cut 更偏无监督图划分，通过相似度矩阵和谱方法寻找自然分组，不一定需要人工指定前景背景。

为什么传统图分割在语义分割中不再是主流？

传统图分割主要基于颜色、纹理、位置等低层特征，很难理解物体类别和上下文。深度语义分割模型可以学习高层语义特征，对复杂场景更强。但传统方法仍适合作为可解释基线、后处理、交互式分割或小数据场景方案。