标签题目
OCR相关面试题
OCR 检测阶段遇到相邻或重叠文字时,如何分离文字区域,并与识别和后处理链路联动?
这道题考察 OCR 检测阶段对相邻或重叠文字的实例分离能力。好的回答要从检测表示、后处理、识别反馈和业务规则联动,而不是只说调阈值。
构建大模型预训练语料时,如何用 OCR 和版面分析处理 PDF 公式、双栏排版与阅读顺序,并保证语料质量?
这题考的是把 PDF 论文、教材、技术文档转成大模型预训练语料的工程闭环。高质量回答不能只说 OCR,而要覆盖 PDF 类型识别、版面检测、公式识别与表示、双栏阅读顺序恢复、去重和质量过滤,以及用人工标注集和下游训练信号评估语料是否真正可用。