AI 自动生成 SQL 数据分析代码的大概技术实现方案是什么？｜字节跳动产品面经解析

60 秒回答模板

大致方案可以分为五步。第一，建立数据语义层，包括表、字段、指标口径、维度、关联关系、样例查询、权限和数据血缘。第二，用户输入自然语言问题后，系统先做意图识别和槽位抽取，明确要查什么指标、按什么维度、什么时间范围和过滤条件。第三，通过检索增强找到相关表、字段和口径，把这些上下文和约束交给大模型生成 SQL。第四，对 SQL 做静态校验、语法检查、权限检查、成本预估和安全拦截，再在沙箱或限流环境试运行，失败时把错误信息反馈给模型修复。第五，输出查询结果、解释口径和可视化建议，并记录用户确认、修改和采纳情况，用于持续优化。

考点 语义层建设

主线 问题理解

易错点 把方案说成调用大模型接口生成 SQL，没有提语义层、权…

深入解析

语义层建设

自然语言到 SQL 的质量很大程度取决于数据语义层，而不是模型本身。系统需要知道哪些表可信、字段含义是什么、指标如何计算、时间字段用哪个、表之间如何关联、哪些口径已废弃、哪些用户有权限访问。没有语义层，模型很容易编出不存在的字段或错误关联。

问题理解

用户的问题通常不完整，例如只说看转化、活跃或收入。系统要识别指标、维度、时间范围、过滤条件、排序、粒度和对比方式，并在缺失关键条件时追问。对常见分析意图可以分类，如趋势分析、分群对比、漏斗分析、留存分析、异常定位和明细查询。

检索增强生成

生成 SQL 前，系统要从元数据、指标库、样例库和历史查询中检索相关上下文，减少模型凭空猜测。提示信息应包含可用表字段、指标定义、关联键、业务约束、方言类型和输出格式。模型生成的不是最终答案，而是候选查询计划，需要经过后续校验。

校验与执行

SQL 必须经过多重保护：语法解析、表字段存在性、权限校验、敏感字段拦截、行数和成本预估、超时限制、只读限制、分区条件检查和危险操作阻断。试运行失败时，可以把数据库错误、执行计划或样例数据反馈给模型进行修复，但修复次数要受控。

反馈闭环

用户最终是否采纳查询、是否手动修改、结果是否符合预期，都是重要训练信号。系统可以把高质量问题和 SQL 沉淀为样例，把错误案例加入评测集，把高频模糊表达补充到指标别名和业务词典。这样工具会随组织数据知识积累而变得更准。

易错点

把方案说成调用大模型接口生成 SQL，没有提语义层、权限和校验。
忽略业务指标口径，认为表字段匹配正确就代表分析正确。
不设计追问机制，面对模糊问题也强行生成看似合理的查询。
没有执行成本和安全控制，可能造成大表扫描、敏感数据泄露或错误决策。

面试官追问

为什么不能直接把数据库 schema 给模型生成 SQL？

schema 只能说明表字段结构，不能完整表达业务口径、指标定义、权限、常用关联和废弃逻辑。直接生成容易出现字段选错、口径不一致、关联膨胀和敏感数据越权。

如何处理不同数据库方言？

在语义层记录数据源类型，并在生成提示和 SQL 校验器中明确方言约束，例如 Hive、ClickHouse、MySQL 或 PostgreSQL 的函数、时间处理和分页写法不同。必要时用解析器做方言转换和静态检查。

生成 SQL 后要不要自动执行？

取决于风险等级。低成本、只读、权限明确的查询可以自动执行；涉及大表扫描、敏感字段或高成本任务时，应先给出预估和确认，必要时只生成查询草稿。

如何持续提升准确率？

沉淀用户采纳的 SQL、修改记录、错误原因和高频问题，更新指标词典、样例库和评测集。每次提示词、模型或语义层变更都要跑回归评测，避免局部优化造成整体退化。