知识点标签

OCR 面试题解析

OCR 相关面试题,覆盖文字检测、文字识别、版面分析和端到端效果评估。

2 道题 1 个岗位 2 个公司

OCR相关面试题

构建大模型预训练语料时,如何用 OCR 和版面分析处理 PDF 公式、双栏排版与阅读顺序,并保证语料质量?

这题考的是把 PDF 论文、教材、技术文档转成大模型预训练语料的工程闭环。高质量回答不能只说 OCR,而要覆盖 PDF 类型识别、版面检测、公式识别与表示、双栏阅读顺序恢复、去重和质量过滤,以及用人工标注集和下游训练信号评估语料是否真正可用。