真实面经题目 · 原创解析

OCR 输出为什么要保留 bbox 和 spatial layout,后续如何给多模态理解模型使用?

这道题考察 OCR 结果如何从纯文本升级为可供多模态理解使用的结构化表示。回答重点不是检测识别算法,而是 text、bbox、reading order、confidence 和视觉区域如何一起进入下游模型。

出现于:字节跳动 · 算法

60 秒回答模板

如果只是把图片中的文字拼成一段字符串,很多视觉语义会丢掉。OCR 输出至少应保留文本片段、bbox 坐标、置信度、层级粒度、阅读顺序和页面尺寸归一化信息,因为表格、票据、海报、截图、题目排版里的语义常常由位置关系决定。给多模态模型使用时,可以把每个 OCR token 或文本块表示成 text embedding 加 2D layout embedding,再和对应视觉区域的图像特征做对齐;也可以构建 block-level 序列或邻接图,让模型知道哪些词在同一行、同一列、同一 key-value 区域或相邻区域。工程上要处理多列阅读顺序、旋转文本、跨行框、低置信 OCR 和 tokenization 对齐。评估时应该看下游信息抽取、视觉问答或排序任务效果,并做去掉 bbox 的消融,证明 layout 信息确实有用。

考点 结构化输出
难度 真实面经题
回答目标 讲清原理、实现和边界

深入解析

01

OCR 不是只输出字符串

面试题里的关键是 OCR 结果表示。完整输出通常包括文字内容、bbox 或 polygon、识别置信度、行/块层级、阅读顺序、图片尺寸和必要的旋转角。纯文本只能保留词面顺序,无法表达文字在图片里的相对位置,也无法让下游模型回到对应视觉区域。

02

bbox 保留空间语义

很多图片文字理解依赖空间关系,例如表格的行列、票据的 key-value、海报标题和说明、截图按钮和文案、题目中选项的相对位置。bbox 让模型知道文本在哪里、和谁相邻、属于哪一块区域、是否在同一行或同一列。没有 bbox,文本会被压平成字符串,结构语义会严重损失。

03

设计结构化 representation

实际可以按 word、line 或 block 粒度保存 OCR 单元,每个单元包含 text、normalized bbox、confidence、block id、line id 和 reading order。bbox 最好归一化到图片宽高,方便不同分辨率输入共用;复杂版可以保留 polygon、旋转角和层级关系,支持倾斜文本、表格和多列版式。

04

接入多模态模型

下游模型可以把 OCR 文本走文本 embedding,把 bbox 走 2D position/layout embedding,把对应视觉区域走 CNN/ViT region feature,再通过拼接、加和、cross-attention 或图结构融合。这样模型既能理解词义,也能利用“左上角标题”“右侧价格”“同一行答案”等布局线索。

05

处理工程边界

OCR token 和语言模型 tokenizer 的粒度不一定一致,长词拆分后需要继承或切分 bbox。多列文档的 reading order 不能只按 y 坐标排序,表格和表单要保留行列关系。低置信 OCR 可以作为置信度特征或被 mask,避免错误文字在下游模型里被当作强证据。

06

用下游任务验证价值

保留 bbox 的价值要用任务效果证明。可以比较纯文本 OCR、文本加 bbox、文本加 bbox 加视觉区域三种输入,在信息抽取、文档问答、截图理解或图文检索上的差异。指标之外还要看长尾排版、旋转文本、表格和多列样本的错误案例。

易错点

  • 把回答展开成 DBNet、CTC 等 OCR 基础流程,忽略题目问的是输出表示和下游使用。
  • 只保留 OCR 文本,不保存 bbox、置信度和阅读顺序,导致多模态模型无法利用排版信息。
  • 把 bbox 当作可视化字段,而不是可训练的 2D layout 特征或区域对齐线索。
  • 不做去掉 bbox 的消融,无法证明空间信息对下游任务有贡献。

面试官追问

bbox 应该按字、词、行还是块保存?

取决于下游任务。细粒度抽取适合 word/token 级,文档理解常用 line/block 级,复杂任务可以保留层级结构,让模型同时看到局部和全局布局。

为什么不能只靠文本顺序?

文本顺序无法表达二维布局。表格、表单、截图和海报里,语义常常来自“左右”“上下”“同一行列”等空间关系,纯字符串会丢失这些关系。

OCR 置信度有什么用?

置信度可以帮助下游模型降低低质量文字的权重,也可以用于过滤、mask 或错误分析,防止识别错误被当成可靠语义。

bbox 缺失时如何降级?

可以退化为纯文本输入或用粗略 reading order,但要在模型特征里显式标记 layout 缺失,并在评估中单独看缺失样本表现。