60 秒回答模板

YOLOv3 是一阶段目标检测器,核心结构可以按 backbone、特征融合和检测头回答。backbone 是 Darknet-53,用残差结构提取特征;检测时在 3 个尺度特征图上预测,分别负责大、中、小目标,每个网格结合 anchor 输出边框偏移、objectness 和类别概率。损失一般包括边框回归损失、目标置信度损失和分类损失。YOLOv4 相比 YOLOv3 的改进可以概括为更强 backbone 和 neck、更多训练技巧和更好的框回归损失,例如 CSPDarknet53、SPP、PANet、Mosaic 数据增强、CIoU loss、DropBlock、SAT 等,使速度和精度更平衡。

考点 一阶段检测
难度 真实面经题
回答目标 讲清原理、实现和边界

深入解析

01

YOLOv3 整体结构

YOLOv3 是单阶段检测器,不先生成候选框再分类,而是直接在特征图网格上预测边框、置信度和类别。Darknet-53 用残差块提取图像特征,兼顾深度和计算效率。

02

多尺度预测

YOLOv3 使用 3 个尺度的检测头。高分辨率特征图更适合小目标,低分辨率特征图感受野更大,适合大目标。通过上采样和特征拼接,模型能融合语义信息和细粒度位置信息。

03

Anchor 和输出

每个网格位置会基于多个 anchor 预测边框偏移、宽高、objectness 和类别概率。训练时根据真实框与 anchor 的匹配关系分配正负样本,推理时再通过置信度阈值和 NMS 去除重复框。

04

损失函数组成

YOLOv3 的损失通常由定位损失、objectness 损失和分类损失组成。定位衡量预测框和真实框差异,objectness 判断 anchor 是否负责目标,分类判断目标类别。回答时要说明三者分别优化什么。

05

YOLOv4 改进

YOLOv4 更像是一组有效组件的组合:CSPDarknet53 降低计算冗余,SPP 增强多尺度感受野,PANet 强化特征融合,Mosaic 和其他训练技巧提升泛化,CIoU 改善边框回归目标。

易错点

  • 只背 YOLO 很快,没有拆 backbone、特征融合和检测头。
  • 把多尺度预测说成简单缩放图片,忽略不同特征图负责不同目标尺度。
  • 只说损失函数是分类和回归,没有讲 objectness。
  • 把 YOLOv4 改进只归因于一个模块,忽略训练技巧和损失改进。

面试官追问

为什么多尺度预测能改善小目标?

小目标在深层低分辨率特征图上容易丢失细节,高分辨率特征图保留更多空间信息,更适合定位小目标。

objectness 和分类概率有什么区别?

objectness 判断该 anchor 是否包含目标,分类概率是在有目标的前提下判断类别,两者相乘常用于最终置信度。

YOLOv4 的 CIoU loss 改进在哪里?

CIoU 不只考虑重叠面积,还考虑中心点距离和宽高比,使边框回归目标更全面。

YOLOv3 和两阶段检测器怎么比较?

YOLOv3 速度快、端到端直接预测,适合实时场景;两阶段方法通常候选框质量更精细,但计算链路更重。