医疗手写表格场景中，如何提升多模态模型对字段和值的识别准确度？｜滴滴算法面经解析

60 秒回答模板

医疗手写表格要提升识别准确度，我会把问题拆成图像质量、版面结构、文字识别、字段-值配对和后处理校验。第一步是图像预处理，处理倾斜、模糊、阴影、低对比度、裁切和透视变形，保证表格线、单元格和手写区域可见。第二步是版面和表格结构识别，先定位表格、行列、单元格、字段名和值区域，避免把 OCR 做成无结构的整页文字识别。第三步是手写内容识别，可以结合 VLM、OCR、检测模型和领域词表，对姓名、日期、检验指标、剂量、单位等不同字段采用不同约束。第四步是字段和值配对，把识别出的文本绑定到正确表头或字段，处理跨行、合并单元格、漏写和涂改。第五步是数据闭环，用人工复核、主动学习和 badcase 分类补齐难样本。评估上不能只看整页准确率，要按字段级 precision、recall、编辑距离、关键字段准确率和字段-值配对准确率评估。

考点 结构化目标

难度 真实面经题

回答目标 提升表格字段识别准确度

深入解析

先把任务拆成结构化识别

医疗手写表格不是普通 OCR。最终目标通常是得到结构化字段和值，例如字段名、数值、单位、日期和备注。因此第一步要把任务定义成表格结构理解加字段值抽取，而不是整页文字转写。

图像预处理提升可读性

手写表格常见问题包括拍摄倾斜、阴影、反光、模糊、低分辨率、裁切不完整、表格线断裂和背景噪声。预处理可以做去噪、纠偏、增强对比度、透视校正、区域裁剪和质量筛选，先减少模型面对的视觉噪声。

版面检测决定字段归属

如果不知道表头、行列和单元格边界，模型很容易把值配到错误字段。需要先做表格检测、行列识别、单元格定位、合并单元格处理和阅读顺序恢复。对于手写挤压、跨格书写或表格线缺失，还要结合视觉布局和语义关系判断。

识别模型要结合领域约束

手写识别可以结合 VLM、OCR 检测识别、字段分类器和语言约束。医疗场景里字段类型差异很大，日期、性别、年龄、指标名、剂量、单位和自由文本备注可以使用不同的候选集、格式规则和置信度阈值，降低相似字和无效值错误。

字段值配对比单字识别更关键

很多错误不是某个字识别错，而是值归属错。例如把右侧单元格的数值配到上一行字段，或把单位和数值拆开。需要把文本框、单元格、表头、相邻关系和领域语义一起建模，输出结构化结果而不是松散文本。

人机闭环和字段级评估

关键字段可以设置人工复核和低置信度回退，把修正样本沉淀为主动学习数据。评估时要看字段级 precision、recall、关键字段准确率、编辑距离、字段-值配对准确率和人工复核负担。整页准确率太粗，不能定位问题。

易错点

把问题答成普通 OCR 提升，没有讲表格结构和字段值配对。
只说加大模型或换更强 VLM，没有分析图像质量、版面和领域约束。
用整页准确率作为唯一指标，无法定位关键字段错误。
忽略手写、涂改、跨格、单位和表头归属这些真实难点。
没有人工复核和 badcase 回流，难以持续提升关键字段质量。

面试官追问

为什么不能只用通用 OCR 做这件事？

通用 OCR 主要输出文本，医疗手写表格需要结构化字段和值，还要处理表格布局、字段归属、单位和领域格式约束。只做 OCR 很容易配错字段。

字段级准确率和整页准确率有什么区别？

整页准确率很粗，可能被大量无关文字影响。字段级指标能告诉你关键字段是否识别正确、有没有漏召回、是否配错值，更适合业务验收。

如何处理低置信度或涂改字段？

可以输出置信度和候选结果，对关键字段触发人工复核，并把人工修正回流到 badcase 集和主动学习数据中。

领域词表会不会限制模型泛化？

会有这个风险，所以领域词表适合用于候选约束、格式校验和后处理，不应完全替代视觉识别。自由文本字段要保留开放识别能力。

字段和值配对错误怎么定位？

检查表格检测、行列切分、文本框坐标、阅读顺序、表头识别和相邻关系建模。很多配对错误来自版面结构而不是字符识别。