真实面经题目 · 原创解析
Prompt ETL 管道如何设计?
Prompt ETL 管道是把原始业务输入经过清洗、切分、增强、模型处理、结构化解析、校验和落库的工程化流程。它的目标不是单次调用模型,而是稳定、可追踪、可回放地把非结构化或半结构化信息转成可用数据。
真实面经题目 · 原创解析
Prompt ETL 管道是把原始业务输入经过清洗、切分、增强、模型处理、结构化解析、校验和落库的工程化流程。它的目标不是单次调用模型,而是稳定、可追踪、可回放地把非结构化或半结构化信息转成可用数据。
可以把 Prompt ETL 拆成 Extract、Transform、Load 三段。Extract 阶段负责接入原始数据,做去重、权限过滤、格式统一、文本抽取和元数据保留;Transform 阶段负责切分长文本、检索补充上下文、构造 Prompt、调用模型、解析结构化结果,并做 schema 校验、事实校验、置信度判断和失败重试;Load 阶段把通过校验的数据写入数据库、搜索索引、特征表或审核队列,同时保留输入、Prompt 版本、模型版本、输出、错误码和评估结果。生产级管道还要考虑幂等、批处理与流处理、成本控制、限流、审计、隐私脱敏和回放评估。
Extract 阶段首先要明确数据来源和数据边界。来源可能是网页、客服会话、文档、日志、工单、音视频转写或数据库记录。接入时要统一编码、语言、时间、来源标识和权限范围,保留文档 ID、段落位置、用户标识的脱敏值、采集时间等元数据。没有稳定的来源标识,后续就很难做幂等、增量更新、问题追踪和结果回放。
原始输入通常包含 HTML、模板噪声、重复内容、乱码、无关导航、超长文本和敏感信息。清洗要移除无价值噪声,但不能破坏语义证据;切分要兼顾模型窗口、语义完整性和后续聚合。常见策略是按章节、段落、时间片或业务对象切块,并保存 chunk 与原文位置的映射。对于长文档,单纯固定长度切块容易割裂表格、代码和跨段引用,需要更细的结构感知。
Transform 的核心是把清洗后的输入、稳定规则、检索上下文和输出 schema 组装成 Prompt,再调用模型执行抽取、分类、摘要、改写或标签生成。工程上要区分系统规则、业务规则、动态输入和少量样例,避免输入内容越权改写指令。调用层要记录模型名、温度、最大输出、超时、重试次数、请求哈希和 Prompt 版本,保证结果可解释、可复现和可对比。
模型输出不能直接信任,必须经过解析和校验。第一层是格式校验,例如 JSON 是否合法、字段是否齐全、类型和枚举是否匹配;第二层是业务校验,例如日期范围、金额非负、实体关系是否矛盾;第三层是证据校验,例如抽取字段能否在原文中找到依据。无法通过校验的结果可以自动重试、降级到更强模型、进入人工审核或标记为低置信度。
Load 阶段要把结果写入目标系统,同时保留完整血缘。生产管道至少要记录原始输入引用、清洗版本、Prompt 版本、模型版本、输出、校验状态、错误原因和成本耗时。这样当模型升级、Prompt 修改或业务规则变化时,可以对历史样本回放,比较质量和成本。监控指标包括成功率、格式错误率、人工通过率、字段缺失率、延迟、token 消耗和重试率。
普通 ETL 多依赖确定性规则和结构化转换,Prompt ETL 引入了模型推理,能处理非结构化语义,但也带来不确定性、成本、评估和可追溯要求。
优先使用结构化输出能力或严格 schema;仍失败时可以做有限次数修复重试。超过阈值后应记录原始输出和错误原因,进入降级或人工审核,而不是静默写入。
要先做结构化切分,保留章节和位置,再对分片处理,最后按任务做聚合。不能简单把超长文本截断,否则容易丢失关键证据或造成结论偏差。
可以建立标注集和线上抽检,统计字段准确率、召回率、格式合法率、人工通过率、证据匹配率和失败类型。还要按 Prompt 版本和模型版本分组比较。