大语言模型面试题解析

意图识别有哪些分类方式，如何实现？

意图识别可以按标签数量、业务层级、开放程度、是否结合槽位和决策阶段分类。实现上要从标签体系、数据标注、模型方案、置信度治理和线上闭环五个层面设计，而不是只训练一个分类器。

算法大语言模型意图识别

DPO 训练中的正反馈样例如何构造？

DPO 的正反馈样例不是单独的好回答，而是偏好对里的 chosen answer。构造时要保证同一 prompt 下正样本相对负样本更符合事实、指令、风格、安全和业务目标，并通过人工或高可信信号过滤噪声。

大语言模型 DPO 模型微调

多意图识别中如何选择单标签和多标签分类？

多意图识别选择单标签还是多标签，取决于业务动作是否互斥、用户一句话是否可能触发多个独立流程、标注是否稳定以及下游系统能否处理多结果。单标签更简单稳定，多标签表达能力更强但需要阈值、冲突消解和更复杂评估。

算法大语言模型意图识别

SFT 之后做 DPO，DPO 和 RLHF/PPO 有什么区别？

SFT 之后做 DPO，是先让模型学会基本任务格式和能力，再用偏好对调整回答倾向。DPO 直接用偏好数据优化策略与参考模型的概率比，RLHF/PPO 通常先训练奖励模型，再通过强化学习在线优化奖励，工程复杂度和稳定性差异很大。

算法大语言模型 SFT 模型微调 DPO RLHF

RAG 在意图识别中有什么作用？

RAG 在意图识别中的作用，是把相似历史表达、标签定义、业务文档和动态规则检索出来，辅助模型缩小候选、消除歧义、识别长尾和处理新业务。它不是替代分类器，而是给分类决策提供可更新的外部证据。

算法大语言模型 RAG 意图识别

vLLM 有哪些技术优势，为什么推理性能高？

vLLM 推理性能高，核心来自围绕大模型解码瓶颈做系统优化：PagedAttention 降低 KV cache 内存碎片并提升复用，连续批处理提高 GPU 利用率，再结合高效调度、前缀缓存和并行能力提高吞吐。

大语言模型 vLLM 大模型推理

字节跳动 / 前端

Prompt 优化有哪些常见方法？

Prompt 优化的核心是降低任务歧义、补齐上下文、明确输出约束，并建立可评估的迭代过程。常见方法包括明确目标和受众、给出背景材料、拆解任务步骤、规定输出格式、提供正反例、使用分隔符、约束边界条件、要求模型列出假设和不确定性，以及通过测试集持续比较效果。

大语言模型 Prompt 工程

字节跳动 / 前端

AI 无法处理复杂业务逻辑时如何做人工干预？

当 AI 无法稳定处理复杂业务逻辑时，人工干预不是简单地让人兜底，而是把系统设计成可识别不确定性、可暂停高风险动作、可交给合适人员决策、可追踪结果并反哺模型的闭环。核心是明确哪些场景自动化、哪些场景必须升级、人工结果如何沉淀成规则、样本和评测。

字节跳动 / 后端开发

Cursor 上下文过长时为什么可能出现效果下降？

Cursor 上下文过长时效果下降，通常不是因为模型突然失效，而是有效注意力、检索质量、指令优先级和噪声比例同时变差。上下文窗口越大，越需要选择性提供信息，否则相关代码被无关内容稀释，模型更容易漏掉关键约束或沿用错误线索。

大语言模型 AI 编程

聊天 AI 应用中如何减少大模型幻觉？

减少聊天 AI 应用中的大模型幻觉，需要同时处理知识来源、提示约束、检索增强、工具调用、输出校验、拒答策略、评测监控和用户体验。核心原则是让模型少凭空补全，多基于可验证证据回答，并在证据不足时明确不确定。

同题还出现在 1 个公司岗位

大语言模型大模型幻觉

调用大模型服务时需要关注哪些核心指标？

调用大模型服务时，核心指标不能只看接口是否成功，还要同时关注效果、成本、性能、稳定性和安全。典型指标包括请求成功率、错误率、首 token 延迟、总延迟、吞吐、Token 用量、单次成本、质量评分、幻觉率、拒答率、重试率、限流率和用户满意度。

大语言模型业务指标大模型推理

字节跳动 / 后端开发

大模型输出不符合指令时如何处理？

大模型输出不符合指令时，应该先判断是指令不清、上下文冲突、能力不足、格式约束不强、还是后处理缺失，再选择提示词修正、结构化约束、示例引导、检索补充、模型切换、自动校验、重试修复或人工介入。成熟做法是把不合规输出当作工程质量问题，而不是只责怪模型。

做 AI 项目时如何选择和使用大模型？

做 AI 项目选择和使用大模型，不能只看榜单或单次体验，而要从业务目标、任务类型、质量要求、成本预算、延迟约束、上下文长度、工具能力、数据安全、供应商稳定性和可观测性综合评估。正确姿势是小范围评测、多模型分层、持续监控和可替换架构。

同题还出现在 1 个公司岗位

Prompt 编写有哪些关键注意点？

Prompt 编写的核心不是堆砌提示词，而是把目标、上下文、约束、输入输出格式、推理边界和评估标准表达清楚。好的 Prompt 能降低模型歧义，稳定输出结构，减少幻觉和无关内容，并让结果更容易被程序消费和人工复核。

大语言模型 Prompt 工程

字节跳动 / 后端开发

Prompt ETL 管道如何设计？

Prompt ETL 管道是把原始业务输入经过清洗、切分、增强、模型处理、结构化解析、校验和落库的工程化流程。它的目标不是单次调用模型，而是稳定、可追踪、可回放地把非结构化或半结构化信息转成可用数据。

大语言模型 Prompt 工程

Transformer 中 Q、K、V 分别表示什么？

Transformer 中的 Q、K、V 分别是 Query、Key、Value，是注意力机制对输入向量做三组线性变换得到的表示。Q 用来发起查询，K 用来被匹配，Q 与 K 的相似度决定关注权重，V 承载最终被加权汇聚的信息。

大语言模型 Transformer 注意力机制

什么是 TTFT，如何降低大模型首字延迟？

TTFT 是 Time To First Token，表示从请求发出或服务端接收请求到模型返回第一个 token 的时间。它直接影响用户对大模型应用是否“响应快”的感知，优化要覆盖排队、网络、鉴权、Prompt 构造、预填充计算、调度和流式返回。

大语言模型 TTFT 大模型推理

将内部验证过的大模型数据标注工具推向外部市场时，需要做哪些适配？

把内部验证过的大模型数据标注工具推向外部市场，不能只是开放登录入口，而要完成从内部工具到商业化产品的系统适配。重点包括客户分层、场景包装、多租户与权限、安全合规、交付部署、计费套餐、使用体验、服务支持、数据隔离、可观测性和客户成功闭环。内部可依赖组织流程补齐的部分，外部都要产品化。

产品管理大语言模型 AI 产品

AI 自动生成 SQL 数据分析代码的大概技术实现方案是什么？

AI 自动生成 SQL 数据分析代码的技术实现，通常不是让模型直接自由输出 SQL，而是构建一个受约束的自然语言到查询系统。核心流程包括理解用户问题、识别指标和维度、检索数据表与字段、结合业务口径生成 SQL、做语法和权限校验、试运行与错误修复、返回结果解释，并把用户反馈沉淀为语义层和评测集。

SQL 分析大语言模型数据产品产品指标 AI 产品产品管理

如果你是产品 owner，这款 AI 自动生成 SQL 工具要解决的核心业务问题是什么？

作为产品 owner，这款 AI 自动生成 SQL 工具要解决的核心业务问题，是降低数据分析门槛和提升组织决策效率。它让不熟悉 SQL 的业务人员能自助获取可信数据，也让数据分析师从重复取数中解放出来，把时间投入到更高价值的诊断、建模和策略分析。最终目标不是生成代码本身，而是更快、更准、更低成本地回答业务问题。

SQL 分析大语言模型数据产品 AI 产品产品管理 AI 生成 SQL

如果要实现 AI 自动生成 SQL 数据分析代码，它的核心难点是什么？

AI 自动生成 SQL 的核心难点不只是模型会不会写语法，而是能否在复杂业务语义、分散数据资产、权限安全、执行成本和用户意图不完整的情况下，稳定生成可信查询。最难的是把业务语言准确映射到正确指标、表、字段、过滤条件和关联关系，并通过校验和反馈机制避免看似正确但实际口径错误的结果。

SQL 分析大语言模型数据产品产品指标 AI 产品产品管理

AI 生成 SQL 工具的核心优势是什么？主要用户会是谁？

AI 生成 SQL 工具的核心优势是把业务问题到数据答案的链路缩短：降低 SQL 和数据仓库理解门槛，提升临时分析效率，统一指标口径，减少数据团队重复取数，并让数据探索更自然。主要用户包括业务运营、产品经理、增长人员、销售运营、数据分析师、管理者和具备数据需求但不熟悉表结构的 B 端客户。

SQL 分析产品管理大语言模型 AI 产品

设计 AI 搜索功能时，灵感来源和用户痛点如何说明？

AI 搜索功能的灵感可以来自用户在生活决策中的真实行为：他们并不是想看更多结果，而是想把碎片信息快速变成可行动选择。它解决的痛点包括搜索结果过载、视频信息分散、结论难比较、真实感与效率难兼得、用户需要在多个平台之间反复跳转，以及个性化约束无法被传统关键词搜索充分理解。

大量用户反馈 AI 的回答正确但没有抖音味儿、很无聊，你如何分析并优化？

用户说 AI 回答正确但没有抖音味儿，说明问题不在事实准确性，而在内容表达、场景理解、情绪价值和生态连接上。优化方向不是牺牲正确性去追求花哨，而是在可信答案之上加入更鲜活的本地语感、短视频内容证据、达人视角、用户评论洞察、强选择理由和可互动的探索路径。

你会建立怎样的 AI 搜索效果评测体系？

AI 搜索效果评测体系要同时覆盖事实正确、意图满足、内容生态融合、答案可用性、用户满意和业务增长。它不能只看模型离线分数，也不能只看点击率，而要把离线评测、人工评审、在线实验、用户反馈和长期生态指标组合起来，形成从 Query 到答案、从答案到行动、从行动到生态反哺的闭环。

如何科学衡量一个 AI 搜索结果的用户满意度？

科学衡量 AI 搜索结果满意度，要把“用户喜欢”拆成任务是否完成、答案是否可信、交互是否省力、内容是否有吸引力以及后续是否产生正向行动。单一点击率或停留时长都不可靠，必须结合显性反馈、隐性行为、复搜信号、分意图指标、离线标注和延迟后反馈，建立可解释的满意度模型。

同题还出现在 1 个公司岗位

如何理解 AI 大模型和抖音内容生态结合会给抖音搜索带来新增长动力？

AI 大模型与抖音内容生态结合，会给搜索带来新的增长动力，因为它把海量碎片视频转化为可理解、可组合、可决策的答案，提升用户在复杂场景中的搜索成功率。同时，AI 搜索能创造新的内容消费入口、激活长尾内容、提高搜索留存和转化，并通过用户反馈反哺内容生产与排序。

MMDiT 的核心不是把文本和图像粗暴拼成一种特征，而是先保留两种模态各自的处理路径，再在注意力层里做联合交互。文本 token 和图像 latent patch token 通常有各自的投影、归一化、调制和前馈网络；进入注意力时分别生成 Q/K/V，再拼接到同一个注意力计算中，让文本与图像能够双向通信。部分架构还会在前面的双流阶段之后进入单流阶段，用统一 Transformer block 继续处理拼接后的 token，但仍通过位置、类型、掩码或前后处理保留模态身份。

大语言模型 Transformer 模型训练

DPO 训练中的梯度爆炸问题如何解决？

DPO 训练中的梯度爆炸通常不是单一超参数问题，而是由偏好对 reward margin 过大、beta 设置不合适、学习率过高、混合精度溢出、reference model 使用不稳定、数据噪声和长序列 log probability 累积共同触发。回答时要先从 DPO 损失和梯度来源讲清机制，再给出从数值稳定、训练超参、数据治理、模型约束到监控排查的系统解决方案。

Prompt 优化模块的 A/B 测试方案如何设计？

Prompt 优化模块的 A/B 测试考察的不是简单会不会分流，而是能否把生成式能力放到真实业务链路中评估。高质量回答需要同时讲清实验目标、用户随机化、指标体系、统计检验、版本控制、冷启动影响、离线评测和线上实验的衔接，以及异常情况下的灰度和回滚机制。

同题还出现在 1 个公司岗位

业务指标数据分析大语言模型

如果用attention的话，q和k分别是什么？

在 attention 里，Q 表示当前位置发出的“查询需求”，K 表示所有候选位置提供的“匹配索引”，二者通过点积计算相关性；相关性经过缩放和 softmax 变成权重，再用这些权重对 V 做加权求和，得到当前位置的上下文表示。Q/K 不是数据库里的固定字段，而是由输入向量经过不同线性变换投影出来的语义子空间表示。

为什么要用RLHF而不用SFT？

RLHF 通常不是用来替代 SFT，而是在 SFT 之后进一步把模型从“会模仿答案”推向“更符合人类偏好和使用场景”。SFT 依赖人工示范数据，让模型学习在给定指令下应该怎么回答；RLHF 通过偏好比较训练奖励模型，再用 PPO 等强化学习方法，或用 DPO 等直接偏好优化方法，让模型针对人类偏好、对齐目标和整体回答质量进行优化。

SFT 数据清洗的具体流程是什么？

SFT 数据清洗的核心目标，是把来自标注、业务日志、开源语料、专家撰写和模型生成改写的数据，整理成可训练、可评估、可追责的指令响应样本。流程不只是删脏数据，而是围绕来源可信、格式统一、语义一致、质量可控、安全合规、覆盖均衡和评估闭环，持续筛掉会让模型学坏、学偏或学乱的样本，同时保留有训练价值的复杂样本。

多轮对话中 Attention 为什么可能导致历史信息衰减？

多轮对话中历史信息衰减，不是 Attention 单一机制的错误，而是注意力权重竞争、上下文窗口容量、位置距离、长文本噪声、摘要压缩、KV cache 截断等因素叠加后的结果。核心现象是：随着新轮次不断加入，早期信息虽然可能仍在上下文中，但在模型计算当前 token 时获得的有效影响力下降，甚至被截断、压缩或检索失败，从而表现为遗忘、答非所问或前后不一致。

同题还出现在 1 个公司岗位

RAG 的 chunk 优化策略有哪些？

RAG 的 chunk 优化本质是在“可召回、可理解、少噪声、低成本”之间做工程权衡。好的 chunk 既不能太小导致语义不完整、召回碎片化，也不能太大导致 embedding 表达被稀释、上下文噪声增加。面试回答应覆盖 chunk size、overlap、语义切分、结构化文档处理、metadata 增强、层级召回、重排与评估闭环，并说明不同文档类型和业务目标下策略会动态调整。

GraphRAG 底层是如何去构建出实体以及实体之间的关系的？

GraphRAG 构建实体和关系，本质上是把非结构化文档经过切分、抽取、消歧、归一、证据绑定和图谱建模，转成可查询的知识图。它不是简单把文本丢给大模型，而是通过分块、实体识别、关系抽取、共指消解、置信度校验、图存储、社区摘要和检索融合，形成既能做语义召回又能做结构化推理的检索增强系统。

Attention 机制的本质是什么？

Attention 机制的本质，是让模型在处理某个当前位置或某个查询时，动态地从一组候选信息中判断“哪些内容更相关”，并按相关性分配权重后做加权汇总。它不是简单的固定窗口、固定规则或人工指定特征选择，而是一种可学习的内容寻址机制：通过 Q/K/V 表示、相似度打分、softmax 归一化和加权求和，把上下文信息按当前需求重新组织起来。

美团 / 算法

大模型微调方法有哪些？

大模型微调可以从“训练目标”和“参数更新方式”两条线回答：训练目标包括继续预训练、监督微调、偏好对齐和任务适配；参数更新方式包括全参数微调和参数高效微调。面试中要说清每类方法解决什么问题、用什么数据、优化什么损失，以及成本和风险。

同题还出现在 1 个公司岗位

大语言模型模型微调 SFT RLHF

百度 / 算法

普通模型的query fine tuning和SFT有什么区别？

如果这里的 query fine tuning 指普通模型围绕查询输入做下游任务微调，它和大模型 SFT 的主要区别在于数据形态、优化目标和输出形式。前者通常学习 query 到标签、分数、向量或候选排序的任务映射；SFT 则训练自回归大模型在给定指令后生成期望回答。

大语言模型模型微调 SFT

快手 / 算法

大模型预测token的损失是怎么算的？

大模型预测 token 的损失通常是自回归 next-token 交叉熵。训练时用 teacher forcing，把真实前缀作为上下文，模型在每个位置输出词表 logits，经 softmax 得到下一个 token 的概率，再对真实 token 取负对数似然，最后在有效 token 上求平均或求和。

大语言模型模型训练

滴滴 / 算法

大模型里的temperature参数能控制复读、增强多样性，背后的原理是什么？

temperature 的本质是调节 softmax 分布的尖锐程度。温度低会放大高概率 token 的优势，使输出更确定、更保守，也更容易陷入高概率重复模式；温度高会拉平概率分布，提高熵和采样多样性，但过高会引入低质量 token，导致语义漂移或不稳定。

大语言模型大模型推理

滴滴 / 算法

一个模型对prompt会生成多种回答，那么DPO的pair数据如何选取？

DPO 的 pair 数据不是简单地从同一个 prompt 的多个回答里任意两两组合，而是要构造“同一上下文下，偏好方向明确、质量差异可学习、噪声可控”的 chosen/rejected 对。核心目标是让模型学习相对偏好，同时避免把无意义差异、标注偏差或长度偏置放大。

大语言模型 DPO RLHF

mask attention是如何实现的？

Mask attention 的核心是在计算 attention 权重前，对不允许关注的位置加上一个极小值，使这些位置经过 softmax 后权重接近 0。它常用于因果语言建模、padding 屏蔽、局部注意力和结构化可见性约束。

同题还出现在 1 个公司岗位

大语言模型注意力机制 Transformer

百度 / 算法

Self attention的公式是什么，为什么要除以sqrt(dk)？

Self-attention 的常见公式是 Attention(Q,K,V)=softmax(QK^T/sqrt(dk))V。除以 sqrt(dk) 是为了控制点积分数的方差，避免维度较大时 logits 过大导致 softmax 饱和、梯度变小、训练不稳定。

注意力机制 Transformer 大语言模型

美团 / 算法

模型性能如何评估？

模型性能评估不能只报一个 accuracy。更稳的回答是先确定任务类型和业务目标，再区分离线指标、线上指标、鲁棒性指标和成本指标，最后说明数据切分、统计显著性和误差分析如何保证评估可信。

同题还出现在 1 个公司岗位

模型评估统计学大语言模型