60 秒回答模板

我会把 PPT 生成后的校验分成渲染结果校验、结构规则校验、内容一致性校验和闭环迭代四层。首先不要只检查生成的 JSON、HTML 或 PPTX 结构,而要把每页真实渲染成图片或 PDF,因为用户看到的是最终画面。规则层可以检查文本溢出、元素重叠、对齐、边距、字号层级、对比度、图片缺失、页码和主题一致性。内容层要检查大纲是否覆盖、标题和正文是否一致、图表数据是否对应、引用是否存在、是否有幻觉或不合适表述。视觉层可以结合规则引擎和多模态模型,对版式拥挤、层级不清、可读性差、风格不统一等问题打分。迭代时不要整份 PPT 盲目重生成,而是把问题定位到 slide、元素和错误类型,生成修复指令,局部重排或重写,再渲染对比,直到达到阈值或进入人工审核。线上还要沉淀 badcase、模板约束和评估集,让自动校验从一次性自检变成可观测的质量系统。

考点 真实渲染
难度 真实面经题
回答目标 讲清设计、取舍和边界

深入解析

01

先以渲染结果为准

PPT 生成链路里的中间结构看起来正确,不代表最终展示正确。校验应该把每页导出成图片或 PDF,以真实渲染结果检查字体、换行、遮挡、图片、图表和布局,因为面试题问的是展示效果。

02

规则校验覆盖硬错误

硬规则可以自动发现文本溢出、元素重叠、超出画布、低对比度、字号过小、图片加载失败、图表缺数据、页码错误和安全区不足。这类问题适合确定性检测,发现后可以直接生成修复建议。

03

内容校验保证不跑题

展示好看但内容错也不合格。需要检查用户大纲是否覆盖、每页标题和正文是否一致、图表是否对应数据、关键结论是否有依据、术语是否统一,以及是否出现模型编造的数字或来源。

04

多模态评估补充审美和可读性

版式拥挤、视觉层级弱、图片和主题不匹配等问题很难靠简单规则完全覆盖。可以用多模态模型或经过标注的评审器对截图打分,并要求给出具体问题位置和原因,而不是只给总分。

05

迭代要定位到局部

自动优化不应每次整份重生成。更稳的方式是把问题映射到 slideId、元素 id、错误类型和修复策略,例如缩短文案、调整字号、换布局、重选图片或重绘图表。局部修复后重新渲染并对比。

06

闭环依赖评估集和人工兜底

上线后要记录校验分、错误类型、修复次数、人工修改、用户采纳和导出失败。高风险或低置信页面进入人工审核,badcase 回流到模板、布局规则、提示词和评估样本,逐步提高自动通过率。

易错点

  • 只说让 Agent 再反思一遍,没有基于真实渲染结果做校验。
  • 只检查 PPTX/JSON 结构合法,忽略用户看到的视觉展示问题。
  • 只修版式不校验内容,可能生成好看的错误 PPT。
  • 完全依赖多模态模型打分,没有确定性规则和可定位错误类型。
  • 每次优化都整份重生成,导致结果不稳定且难以收敛。
  • 没有人工兜底和 badcase 回流,自动校验无法持续改进。

面试官追问

为什么不能只让 LLM 自己检查生成的 PPT 文本?

因为展示问题往往发生在渲染层,例如遮挡、溢出、对比度和图片缺失。LLM 只看文本或结构无法可靠判断最终画面。

哪些问题适合规则检测,哪些适合多模态模型?

文本溢出、重叠、越界、低对比度、图片缺失适合规则;视觉层级、风格协调、拥挤程度、图片语义匹配更适合多模态模型辅助判断。

自动迭代为什么不建议整份 PPT 重生成?

整份重生成会引入新的不确定性,可能修好一页又破坏另一页。局部定位和局部修复更可控,也更容易比较前后效果。

如何评估这个校验系统本身是否有效?

看自动发现率、误报率、漏报率、修复成功率、平均修复轮次、人工修改量、用户采纳率和导出失败率,并用人工标注样本校准。