标签题目
大语言模型相关面试题第 2 页
在一个文档中,如何筛选出对一个综合场景大模型的微调数据?
从单个文档筛选综合场景大模型微调数据,关键是把原始内容变成高质量、多任务、可验证、去噪去重的指令样本。回答要覆盖场景定义、片段切分、样本构造、质量过滤、分布配比和评测闭环。
如何生成词向量?
生成词向量可以从共现统计、预测式训练和上下文化表示三条线回答。经典方法包括 one-hot、共现矩阵加 SVD、Word2Vec、GloVe、FastText,以及 BERT 这类上下文相关 embedding。
编码解码模型具体怎么实现的?
编码解码模型的实现核心是编码器把输入序列压成上下文表示,解码器基于上下文和已生成 token 逐步输出目标序列。不同实现可以是 RNN seq2seq、attention seq2seq 或 Transformer encoder-decoder。
如果需要为特定领域的文本训练一套 Embedding,你会怎么做?
为特定领域文本训练 Embedding,要从语料构建、分词策略、训练目标、负样本、评估和部署更新全链路设计。关键不是只训练一个向量表,而是让向量能服务领域检索、分类、聚类或推荐任务。
大模型使用向量数据库的诉求是什么?
大模型使用向量数据库的核心诉求是把外部知识、私域文档和长尾内容以语义检索方式接入模型,弥补上下文长度、知识时效和幻觉问题。它通常服务于 RAG、记忆、相似检索和推荐召回。
Agent 和传统大模型有什么区别?
Agent 和传统大模型的核心区别在于是否具备面向目标的规划、工具调用、状态管理和执行闭环。回答时要把 LLM 说成能力底座,把 Agent 说成围绕任务运行的系统。
数据集是如何构建和评测的?
数据集构建和评测题考察的是训练数据闭环。高质量回答要覆盖目标定义、数据采集、清洗标注、划分、质量评估、偏差检查、基线验证和持续迭代。
同题还出现在 1 个公司岗位
如何通过后端和大模型实现司机智能接单助手?
司机智能接单助手可以按网约车接单辅助的后端系统设计题回答,重点不是只调用大模型,而是把订单特征、司机状态、规则风控、模型推理和可解释建议串成稳定闭环。
Claude Code 使用 grep 检索与 RAG 检索有什么区别?
grep 检索和 RAG 检索的区别在于前者是确定性的文本匹配工具,后者是面向语义召回、上下文组织和生成回答的检索增强流程。
Self-Attention 中为什么需要 Softmax?
Self-Attention 中 Softmax 的作用是把相似度分数转换成归一化注意力权重,让模型用概率分布对 value 做加权聚合。
Self-Attention 中为什么要做 QKV 线性变换?
QKV 线性变换让同一个输入表示分别投影到查询、键和值三个语义空间,使 Attention 能学习匹配关系和被聚合内容,而不是用原始 embedding 直接相乘。
大模型产出的向量或相似度可用于推荐链路的哪些环节?
大模型产出的向量或相似度可以用于推荐链路的召回、粗排、精排特征、重排和解释环节,但不能把整条链路都交给大模型直接排序。
Transformer 的主要结构和流程是什么?
Transformer 的主线是把序列输入转为 token embedding 和位置编码,经过多层 self-attention 与前馈网络建模上下文,最后输出上下文表示或逐 token 生成结果。
大模型使用的损失函数是什么?
大模型预训练最常见的损失函数是 next-token prediction 的交叉熵损失;对齐阶段还会出现 SFT 交叉熵、奖励模型损失、RLHF 或 DPO 这类偏好优化目标。
RAG 可以做哪些优化?
RAG 优化要覆盖切分、索引、召回、重排、上下文组装、生成约束和评估闭环,不能只停留在换 embedding 模型。
是否遇到过大模型定位错误代码的幻觉问题?
大模型定位错误代码的幻觉通常来自上下文不完整、检索错误、调用链理解偏差或模型过度生成,需要用证据约束、引用校验和工具闭环来控制。
堆栈分析到代码定位链路中,大模型调用应采用单轮还是多轮?
堆栈分析到代码定位适合采用受控多轮流程:单轮适合简单摘要,多轮适合逐步检索、验证和收敛,但必须限制步骤和工具输出。
计算机视觉模型与 ChatGPT 这类大模型的网络有什么区别?
计算机视觉模型和 ChatGPT 类大模型的差异主要在输入形态、主干结构、训练目标、上下文建模方式和推理生成范式。
多模态模型中的模态对齐方法有哪些?
多模态对齐方法包括对比学习、投影到共享空间、跨注意力融合、指令微调、图文匹配损失和细粒度 token/patch 对齐。
Qwen-VL 如何压缩图片 token,多模态大模型中图像 token 和文本 token 的处理链路有什么差异?
这道题考察多模态大模型里视觉 token 的压缩和图文 token 进入 LLM 前的差异。回答要说清图片先变成连续视觉特征再压缩投影,文本则经过离散 tokenizer 直接得到词向量,两者在融合前的链路不同。
LLM 微调项目里新数据加入后离线评估掉点,应该如何排查数据、训练和评估口径?
这道题考察 LLM 微调项目的掉点诊断能力。回答重点不是背 SFT 或 LoRA 方法名,而是把新数据引入后的数据 pipeline diff、质量和格式漂移、分布混合比例、训练 schedule、评估集回归、指标切片、Recall/Precision 取舍和上线决策串成一套可执行排查流程。
大模型微调后出现不遵循指令、复读和错误答案,如何定位原因并判断 CoT 是否有效?
这题考察大模型微调后行为退化的定位方法:要把不遵循指令、复读和错误答案拆成可复现的错误类型,分别从数据、训练配置、解码参数和评估切片定位,并用对照实验判断 CoT 是否真正改善推理或事实正确率。
多用户并发 Agent 中,记忆模块如何做隔离并保证线程安全?
这题考察多用户并发 Agent 的状态边界设计:记忆必须按 tenant、user、session 或 conversation 隔离,外部化存储并避免进程内共享可变状态,同时用原子写入、锁、版本号和异步上下文传递保证并发安全。
RAG 处理 PDF 知识库时,如何设计切片、分页元数据和检索链路来减少答非所问?
这题考察 PDF 知识库 RAG 的端到端设计:要用结构化解析保留标题、页码和版面语义,按文档结构切 chunk 并带 page span metadata,通过召回、重排和上下文组装减少答非所问,并用 badcase 闭环持续修正切片与检索链路。
同公司岗位有 2 条面经记录
企业协作场景的 AI 智能伙伴如何设计评测集和指标体系?
这题考察企业协作 AI 助手的评测体系设计:评测集要覆盖真实协作任务、权限边界和长尾场景,指标要分层衡量任务完成、事实性、安全合规、效率、体验满意度和线上反馈闭环。
MCP 客户端调用服务端工具的完整交互流程是什么?
这题考 MCP 工具调用协议的端到端理解,回答时要按连接握手、工具发现、模型决策、客户端分发、服务端执行、结果回传和安全边界展开。
RAG 知识库如何做定期维护,什么时候应选 RAG 而不是 SFT?
这题考 RAG 知识库生命周期治理和 RAG/SFT 方案选择,回答要把数据更新、质量评估、检索效果和模型改造边界分开。
Agent 多工具调度模块如何做冲突检测与解决?
这题考 Agent 多工具并发调度的工程治理,回答要说明冲突类型、预检查、执行中仲裁、补偿和审计闭环。
Agent 工具调用超时后如何设计降级方案?
这题考 Agent 工具调用可靠性设计,回答要围绕超时预算、重试、降级答案、异步继续、熔断和用户可见状态展开。
同题还出现在 1 个公司岗位
LLM 服务用 vLLM 和 Streaming 输出时,如何在首 token、总延迟和吞吐之间折中?
这题考 LLM 推理服务的性能取舍,回答要把 vLLM/KV-cache、Streaming、TTFT、总延迟、吞吐和 batching 之间的矛盾讲清楚。
长上下文扩展技术如 YaRN 应如何评测效果,而不只看最大上下文长度?
这题考长上下文扩展的评测方法,回答重点是不能只看最大 token 长度,还要验证检索、推理、稳定性、成本和短上下文回归。
Agent 系统中的 skill(能力模块)应如何设计和实现?
这题考 Agent 能力模块的工程抽象,回答要说明 skill 的边界、契约、工具绑定、权限、测试、版本和失败处理。
同题还出现在 1 个公司岗位
向量数据库和传统数据库在查询方式、索引结构和事务能力上有什么区别?
这题考向量数据库和传统数据库的边界,回答要围绕查询目标、索引结构、事务一致性和工程搭配展开。
从 MHA 到 MLA,注意力机制为什么要改进,DeepSeek MLA 解决什么问题?
这题考注意力机制从效果优先到推理效率优先的演进,重点是 KV cache 压力、MHA/MQA/GQA/MLA 的取舍和工程评估。
同题还出现在 1 个公司岗位
MoE 一般加在大模型哪里,从训练和推理角度有什么收益与代价?
这题考 LLM MoE 的位置和训练推理取舍,回答要讲清 FFN 专家、router、稀疏激活、负载均衡和服务成本。
同题还出现在 1 个公司岗位
大模型推理中 Prefill/Decode(PD)分离部署为什么能提升处理速度?
这题考 LLM serving 的工作负载拆分,回答要讲清 prefill 和 decode 的差异、分离部署收益、KV cache 交接和适用边界。
Agent 系统 Prompt 如何设计迭代,并处理用户请求不完整的意图补全?
这题考 Agent system prompt 的工程化设计,以及用户请求不完整时如何识别缺口、澄清、假设和补全。
Agent 场景下 Prompt 自动优化应如何工程化设计?
这题考 Agent Prompt 自动优化的工程化闭环,回答要聚焦候选生成、离线评测、安全门禁、灰度实验和回滚。
文生 3D 任务中,Stable Diffusion 输出如何与 NeRF / SDF 重建方法结合?
这题考文生 3D 中 2D diffusion 先验和 3D 表示优化的结合,回答要讲清 SDS、多视角一致性、NeRF/SDF 取舍和评估。
视频生成中,时序信息对齐和空间对齐哪个更重要,如何取舍?
这题考视频生成中的一致性取舍,回答要说明时序对齐和空间对齐分别解决什么、何时更重要、如何训练和评估。
AIGC 模型持续迭代时如何设计质量回归守护和灰度机制?
这题考 AIGC 模型持续迭代后的质量守护,回答要把离线回归、灰度分流、线上监控、回滚阈值和复盘机制连成闭环。
大模型能力超出边界时,AI 产品应如何识别风险并触发兜底流程?
这题考大模型产品的能力边界管理,回答要说明如何识别超能力风险、触发兜底、降低伤害并把失败样本回流。
人工介入提升 AI 准确率时,如何平衡成本和收益?
这题考 AI 产品引入人工介入时的成本收益判断,核心是按风险分层、算边际收益、控制人审成本并持续降低依赖。
办公套件引入 AI 功能时如何平衡智能化和用户掌控感?
这题考办公套件 AI 的体验边界,回答要说明哪些地方让 AI 自动做,哪些地方必须保留用户确认、编辑、回退和权限控制。
AI 多轮对话如何在轮数、任务完成率和用户体验之间取舍?
这题考多轮对话产品的轮数取舍,回答要围绕任务完成率、信息收集成本、用户耐心和主动澄清策略展开。
AI 聊天产品如何评估好坏,哪些指标能衡量对话体验?
这题考 AI 聊天产品的指标体系,回答要把用户任务、对话体验、模型质量、系统性能、安全和 badcase 闭环串起来,而不是只说满意度或留存。
办公协作 LLM 新功能如何从用户痛点切入,并验证产品价值?
这题考办公协作 LLM 新功能的产品发现和价值验证,回答要从用户痛点、工作流、原型、定性定量验证和灰度护栏展开。示例只作为通用说明。
AI 产品需求什么时候应该做 Agent,什么时候应该做确定性工作流?
这题考 AI 产品需求中 Agent 和确定性工作流的边界判断,回答要用不确定性、自治程度、失败成本、可观测性和混合架构来决策。