OCR 输出为什么要保留 bbox 和 spatial layout，后续如何给多模态理解模型使用？｜字节跳动算法面经解析

60 秒回答模板

如果只是把图片中的文字拼成一段字符串，很多视觉语义会丢掉。OCR 输出至少应保留文本片段、bbox 坐标、置信度、层级粒度、阅读顺序和页面尺寸归一化信息，因为表格、票据、海报、截图、题目排版里的语义常常由位置关系决定。给多模态模型使用时，可以把每个 OCR token 或文本块表示成 text embedding 加 2D layout embedding，再和对应视觉区域的图像特征做对齐；也可以构建 block-level 序列或邻接图，让模型知道哪些词在同一行、同一列、同一 key-value 区域或相邻区域。工程上要处理多列阅读顺序、旋转文本、跨行框、低置信 OCR 和 tokenization 对齐。评估时应该看下游信息抽取、视觉问答或排序任务效果，并做去掉 bbox 的消融，证明 layout 信息确实有用。

考点 结构化输出

难度 真实面经题

回答目标 讲清原理、实现和边界

深入解析

OCR 不是只输出字符串

面试题里的关键是 OCR 结果表示。完整输出通常包括文字内容、bbox 或 polygon、识别置信度、行/块层级、阅读顺序、图片尺寸和必要的旋转角。纯文本只能保留词面顺序，无法表达文字在图片里的相对位置，也无法让下游模型回到对应视觉区域。

bbox 保留空间语义

很多图片文字理解依赖空间关系，例如表格的行列、票据的 key-value、海报标题和说明、截图按钮和文案、题目中选项的相对位置。bbox 让模型知道文本在哪里、和谁相邻、属于哪一块区域、是否在同一行或同一列。没有 bbox，文本会被压平成字符串，结构语义会严重损失。

设计结构化 representation

实际可以按 word、line 或 block 粒度保存 OCR 单元，每个单元包含 text、normalized bbox、confidence、block id、line id 和 reading order。bbox 最好归一化到图片宽高，方便不同分辨率输入共用；复杂版可以保留 polygon、旋转角和层级关系，支持倾斜文本、表格和多列版式。

接入多模态模型

下游模型可以把 OCR 文本走文本 embedding，把 bbox 走 2D position/layout embedding，把对应视觉区域走 CNN/ViT region feature，再通过拼接、加和、cross-attention 或图结构融合。这样模型既能理解词义，也能利用“左上角标题”“右侧价格”“同一行答案”等布局线索。

处理工程边界

OCR token 和语言模型 tokenizer 的粒度不一定一致，长词拆分后需要继承或切分 bbox。多列文档的 reading order 不能只按 y 坐标排序，表格和表单要保留行列关系。低置信 OCR 可以作为置信度特征或被 mask，避免错误文字在下游模型里被当作强证据。

用下游任务验证价值

保留 bbox 的价值要用任务效果证明。可以比较纯文本 OCR、文本加 bbox、文本加 bbox 加视觉区域三种输入，在信息抽取、文档问答、截图理解或图文检索上的差异。指标之外还要看长尾排版、旋转文本、表格和多列样本的错误案例。

易错点

把回答展开成 DBNet、CTC 等 OCR 基础流程，忽略题目问的是输出表示和下游使用。
只保留 OCR 文本，不保存 bbox、置信度和阅读顺序，导致多模态模型无法利用排版信息。
把 bbox 当作可视化字段，而不是可训练的 2D layout 特征或区域对齐线索。
不做去掉 bbox 的消融，无法证明空间信息对下游任务有贡献。

面试官追问

bbox 应该按字、词、行还是块保存？

取决于下游任务。细粒度抽取适合 word/token 级，文档理解常用 line/block 级，复杂任务可以保留层级结构，让模型同时看到局部和全局布局。

为什么不能只靠文本顺序？

文本顺序无法表达二维布局。表格、表单、截图和海报里，语义常常来自“左右”“上下”“同一行列”等空间关系，纯字符串会丢失这些关系。

OCR 置信度有什么用？

置信度可以帮助下游模型降低低质量文字的权重，也可以用于过滤、mask 或错误分析，防止识别错误被当成可靠语义。

bbox 缺失时如何降级？

可以退化为纯文本输入或用粗略 reading order，但要在模型特征里显式标记 layout 缺失，并在评估中单独看缺失样本表现。