真实面经题目 · 原创解析
如果要让 Qwen 支持多篇论文上传、精准总结并输出对比表格,如何设计文档解析、RAG、结构化抽取、质量评估和部署闭环?
这道题考察多文档 RAG 与结构化生成产品/算法方案。回答要覆盖论文解析、切片检索、结构化抽取、对比表格生成、质量评估和部署闭环。
真实面经题目 · 原创解析
这道题考察多文档 RAG 与结构化生成产品/算法方案。回答要覆盖论文解析、切片检索、结构化抽取、对比表格生成、质量评估和部署闭环。
要让 Qwen 支持多篇论文上传、精准总结和输出对比表格,首先要把问题拆成文档工程、检索理解和结构化生成。文档解析要处理 PDF 版式、标题层级、摘要、方法、实验、表格、公式、引用和图注,保留页码和段落来源。切片不能只按固定长度切,要按章节、段落、表格和语义边界切,并保存 paper_id、section、page、caption 等 metadata,方便后续引用和对比。 生成链路上,用户问题可以分为单篇总结、多篇对比、指定维度抽取和开放问答。系统先检索相关 chunk,必要时按论文分组和章节 rerank,再让模型抽取结构化字段,例如研究问题、方法、数据集、指标、结果、创新点、局限和适用场景。对比表格最好先生成 JSON schema,再渲染表格,避免模型直接自由生成导致列错位。质量评估要看引用覆盖、字段准确率、表格一致性、幻觉率、遗漏率和人工满意度。部署上需要异步解析任务、文件权限、向量库版本、缓存、失败重试、长文上下文成本控制和人工反馈闭环。
PDF 解析要保留章节层级、页码、表格、公式、图注和参考信息。论文中的实验表格和方法描述是对比表格的重要来源,不能只抽纯文本。
按章节和语义边界切片,绑定 paper_id、section、page 和元素类型。多篇论文检索时要防止某一篇占满上下文,也要支持按论文分组召回。
先 query rewrite 或按维度拆问题,再向量召回、关键词召回和 reranker 精排。对表格、公式和实验结果可使用专门解析或结构化索引。
用 schema 约束输出字段,例如问题、方法、数据集、指标、结果、优势、局限。先抽取 JSON,再生成自然语言总结和对比表,稳定性更好。
评估字段准确率、引用命中、幻觉率、遗漏率、表格列对齐、跨文档一致性和人工评分。要能定位是解析错、检索漏还是生成乱编。
多论文上传需要异步任务、解析状态、失败重试、权限隔离、缓存、向量版本和反馈修正。长文档成本高,要控制 chunk 数和上下文预算。
要从解析出的表格或原文证据中抽取,字段附引用和页码。生成时要求没有证据则填未知,而不是补一个看似合理的数值。
先按问题维度分解检索,再分论文抽取结构化字段,最后汇总比较。不要把所有 chunk 直接塞进模型上下文。
可以保留截图/图注/OCR 结果,标记低置信,并在答案中提示该字段证据不足。关键论文可触发人工校对或更强解析器重试。
选取不同领域论文,人工标注摘要要点、方法、数据集、指标、结果和局限,再用字段级准确率、引用正确率和表格一致性评估。