真实面经题目 · 原创解析
卷积层为什么能抽取图像特征,如何从局部连接、权重共享、感受野、平移等变性和多层组合解释?
卷积层能抽取图像特征,核心在于用局部连接和权重共享把同一个模式检测器滑过整张图,再通过多通道卷积、非线性、多层感受野扩张和下采样,把边缘、纹理、部件逐步组合成更高层语义特征。
真实面经题目 · 原创解析
卷积层能抽取图像特征,核心在于用局部连接和权重共享把同一个模式检测器滑过整张图,再通过多通道卷积、非线性、多层感受野扩张和下采样,把边缘、纹理、部件逐步组合成更高层语义特征。
我会从卷积层的归纳偏置讲起。图像有很强的局部性,边缘、角点、纹理这些基础模式通常先出现在局部邻域里,所以卷积核只看一个小窗口,就能学习局部模式检测器。卷积核在整张图上滑动并共享权重,意味着同一种边缘或纹理不管出现在左上角还是右下角,都可以被同一个检测器识别,这带来参数更少、样本效率更高和平移等变性。每个卷积核会输出一张特征图,多个卷积核对应不同类型的局部特征;再经过 ReLU 等非线性,模型可以组合更复杂的模式。随着层数加深,后层神经元的感受野不断扩大,第一层可能看边缘和颜色,较深层可以组合成局部形状、部件甚至类别相关语义。池化或步幅卷积会降低空间分辨率,让表示对小范围平移更稳健,但要注意卷积本身主要是平移等变,不是天然完全平移不变。训练时这些卷积核不是人工指定的,而是通过反向传播从任务损失中学出来。回答时还要补边界:CNN 擅长局部纹理和空间层级,但对长距离关系、旋转尺度变化和全局结构不一定天然擅长,需要更深网络、数据增强、注意力或其他结构补充。
图像相邻像素高度相关,很多低层视觉线索都来自局部区域,比如水平边缘、垂直边缘、颜色突变、纹理重复和角点。卷积层让一个神经元只连接输入图像中的局部窗口,而不是像全连接层那样连接所有像素。这样既减少参数,也把“局部模式优先”的假设写进模型结构。
同一个卷积核会在图像不同位置重复使用,等价于拿同一个模式检测器扫描整张图。这样模型不需要为每个位置单独学习一套边缘检测参数。权重共享带来的结果是参数量更小、泛化更好,并且如果输入中的目标发生平移,特征图也会相应平移,这就是平移等变性。
一个卷积核只能学习一种局部响应,多个卷积核会学习不同模式,例如不同方向的边缘、不同频率的纹理、颜色组合或局部形状。在彩色图像中,卷积核会同时作用在多个输入通道上;在深层网络中,它会作用在上一层产生的多张特征图上,因此后层不是直接看像素,而是在组合已有特征。
单层线性卷积只能做局部线性匹配,ReLU、归一化和多层堆叠让网络可以表示复杂非线性模式。典型层级是:浅层检测边缘、颜色和纹理,中层组合成角点、局部形状和部件,高层进一步组合成类别相关结构。这个层级组合是 CNN 能从低级视觉信号走向语义识别的关键。
每个卷积层只看局部,但层数加深后,一个高层神经元间接覆盖的原图区域会变大,这个区域就是感受野。小卷积核堆叠可以用较少参数获得较大有效感受野,同时保留非线性组合能力。面试中要说明:感受野理论上会变大,但有效感受野可能集中在中心区域,因此网络深度、残差连接、下采样策略都会影响实际特征质量。
池化或步幅卷积会降低特征图尺寸,减少计算量,并让表示对小范围位移、噪声和局部形变更稳健。但下采样也可能丢失小目标、精确位置和边界信息,所以检测、分割等任务常用跳连、特征金字塔或更精细的上采样结构补回空间细节。
全连接会为每个像素位置学习独立参数,参数量大且不利用空间结构。卷积利用局部连接和权重共享,把同一个局部模式检测器应用到不同位置,更符合图像统计规律。
卷积本身主要是平移等变:输入平移,特征图也平移。分类任务中的近似平移不变通常来自池化、步幅下采样、全局平均池化、数据增强和最终分类头。
因为后层不是直接从像素识别物体,而是组合前层的边缘、纹理和局部形状。层数越深,感受野越大,能够把局部特征组合成部件和整体语义。
CNN 的局部归纳偏置很强,但对长距离依赖、全局关系、旋转尺度变化、小目标细节不一定天然稳健。可以通过更深网络、空洞卷积、注意力、特征金字塔和数据增强改善。