真实面经题目 · 原创解析
医疗手写表格场景中,如何提升多模态模型对字段和值的识别准确度?
这题考医疗手写表格的多模态识别链路,重点是图像预处理、版面检测、字段和值配对、领域词表、人机校正和字段级评估。
真实面经题目 · 原创解析
这题考医疗手写表格的多模态识别链路,重点是图像预处理、版面检测、字段和值配对、领域词表、人机校正和字段级评估。
医疗手写表格要提升识别准确度,我会把问题拆成图像质量、版面结构、文字识别、字段-值配对和后处理校验。第一步是图像预处理,处理倾斜、模糊、阴影、低对比度、裁切和透视变形,保证表格线、单元格和手写区域可见。第二步是版面和表格结构识别,先定位表格、行列、单元格、字段名和值区域,避免把 OCR 做成无结构的整页文字识别。第三步是手写内容识别,可以结合 VLM、OCR、检测模型和领域词表,对姓名、日期、检验指标、剂量、单位等不同字段采用不同约束。第四步是字段和值配对,把识别出的文本绑定到正确表头或字段,处理跨行、合并单元格、漏写和涂改。第五步是数据闭环,用人工复核、主动学习和 badcase 分类补齐难样本。评估上不能只看整页准确率,要按字段级 precision、recall、编辑距离、关键字段准确率和字段-值配对准确率评估。
医疗手写表格不是普通 OCR。最终目标通常是得到结构化字段和值,例如字段名、数值、单位、日期和备注。因此第一步要把任务定义成表格结构理解加字段值抽取,而不是整页文字转写。
手写表格常见问题包括拍摄倾斜、阴影、反光、模糊、低分辨率、裁切不完整、表格线断裂和背景噪声。预处理可以做去噪、纠偏、增强对比度、透视校正、区域裁剪和质量筛选,先减少模型面对的视觉噪声。
如果不知道表头、行列和单元格边界,模型很容易把值配到错误字段。需要先做表格检测、行列识别、单元格定位、合并单元格处理和阅读顺序恢复。对于手写挤压、跨格书写或表格线缺失,还要结合视觉布局和语义关系判断。
手写识别可以结合 VLM、OCR 检测识别、字段分类器和语言约束。医疗场景里字段类型差异很大,日期、性别、年龄、指标名、剂量、单位和自由文本备注可以使用不同的候选集、格式规则和置信度阈值,降低相似字和无效值错误。
很多错误不是某个字识别错,而是值归属错。例如把右侧单元格的数值配到上一行字段,或把单位和数值拆开。需要把文本框、单元格、表头、相邻关系和领域语义一起建模,输出结构化结果而不是松散文本。
关键字段可以设置人工复核和低置信度回退,把修正样本沉淀为主动学习数据。评估时要看字段级 precision、recall、关键字段准确率、编辑距离、字段-值配对准确率和人工复核负担。整页准确率太粗,不能定位问题。
通用 OCR 主要输出文本,医疗手写表格需要结构化字段和值,还要处理表格布局、字段归属、单位和领域格式约束。只做 OCR 很容易配错字段。
整页准确率很粗,可能被大量无关文字影响。字段级指标能告诉你关键字段是否识别正确、有没有漏召回、是否配错值,更适合业务验收。
可以输出置信度和候选结果,对关键字段触发人工复核,并把人工修正回流到 badcase 集和主动学习数据中。
会有这个风险,所以领域词表适合用于候选约束、格式校验和后处理,不应完全替代视觉识别。自由文本字段要保留开放识别能力。
检查表格检测、行列切分、文本框坐标、阅读顺序、表头识别和相邻关系建模。很多配对错误来自版面结构而不是字符识别。