Prompt ETL 管道如何设计？｜字节跳动后端开发面经解析

60 秒回答模板

可以把 Prompt ETL 拆成 Extract、Transform、Load 三段。Extract 阶段负责接入原始数据，做去重、权限过滤、格式统一、文本抽取和元数据保留；Transform 阶段负责切分长文本、检索补充上下文、构造 Prompt、调用模型、解析结构化结果，并做 schema 校验、事实校验、置信度判断和失败重试；Load 阶段把通过校验的数据写入数据库、搜索索引、特征表或审核队列，同时保留输入、Prompt 版本、模型版本、输出、错误码和评估结果。生产级管道还要考虑幂等、批处理与流处理、成本控制、限流、审计、隐私脱敏和回放评估。

考点 原始数据接入

主线 清洗与切分

易错点 把 Prompt ETL 理解成批量调模型，忽略清洗、…

深入解析

原始数据接入

Extract 阶段首先要明确数据来源和数据边界。来源可能是网页、客服会话、文档、日志、工单、音视频转写或数据库记录。接入时要统一编码、语言、时间、来源标识和权限范围，保留文档 ID、段落位置、用户标识的脱敏值、采集时间等元数据。没有稳定的来源标识，后续就很难做幂等、增量更新、问题追踪和结果回放。

清洗与切分

原始输入通常包含 HTML、模板噪声、重复内容、乱码、无关导航、超长文本和敏感信息。清洗要移除无价值噪声，但不能破坏语义证据；切分要兼顾模型窗口、语义完整性和后续聚合。常见策略是按章节、段落、时间片或业务对象切块，并保存 chunk 与原文位置的映射。对于长文档，单纯固定长度切块容易割裂表格、代码和跨段引用，需要更细的结构感知。

Prompt 构造与模型执行

Transform 的核心是把清洗后的输入、稳定规则、检索上下文和输出 schema 组装成 Prompt，再调用模型执行抽取、分类、摘要、改写或标签生成。工程上要区分系统规则、业务规则、动态输入和少量样例，避免输入内容越权改写指令。调用层要记录模型名、温度、最大输出、超时、重试次数、请求哈希和 Prompt 版本，保证结果可解释、可复现和可对比。

结构化解析与质量门禁

模型输出不能直接信任，必须经过解析和校验。第一层是格式校验，例如 JSON 是否合法、字段是否齐全、类型和枚举是否匹配；第二层是业务校验，例如日期范围、金额非负、实体关系是否矛盾；第三层是证据校验，例如抽取字段能否在原文中找到依据。无法通过校验的结果可以自动重试、降级到更强模型、进入人工审核或标记为低置信度。

加载、监控与回放

Load 阶段要把结果写入目标系统，同时保留完整血缘。生产管道至少要记录原始输入引用、清洗版本、Prompt 版本、模型版本、输出、校验状态、错误原因和成本耗时。这样当模型升级、Prompt 修改或业务规则变化时，可以对历史样本回放，比较质量和成本。监控指标包括成功率、格式错误率、人工通过率、字段缺失率、延迟、token 消耗和重试率。

易错点

把 Prompt ETL 理解成批量调模型，忽略清洗、切分、校验、落库和回放。
不记录 Prompt 版本和模型版本，导致质量波动时无法定位原因。
直接相信模型输出并写入业务库，没有 schema 校验和业务规则校验。
用固定长度粗暴截断长文本，造成关键信息丢失或上下文断裂。

面试官追问

Prompt ETL 和普通 ETL 最大区别是什么？

普通 ETL 多依赖确定性规则和结构化转换，Prompt ETL 引入了模型推理，能处理非结构化语义，但也带来不确定性、成本、评估和可追溯要求。

如何处理模型输出 JSON 不合法？

优先使用结构化输出能力或严格 schema；仍失败时可以做有限次数修复重试。超过阈值后应记录原始输出和错误原因，进入降级或人工审核，而不是静默写入。

长文档怎么进入 Prompt ETL？

要先做结构化切分，保留章节和位置，再对分片处理，最后按任务做聚合。不能简单把超长文本截断，否则容易丢失关键证据或造成结论偏差。

如何评估 Prompt ETL 质量？

可以建立标注集和线上抽检，统计字段准确率、召回率、格式合法率、人工通过率、证据匹配率和失败类型。还要按 Prompt 版本和模型版本分组比较。