标签题目
大语言模型相关面试题
意图识别有哪些分类方式,如何实现?
意图识别可以按标签数量、业务层级、开放程度、是否结合槽位和决策阶段分类。实现上要从标签体系、数据标注、模型方案、置信度治理和线上闭环五个层面设计,而不是只训练一个分类器。
为什么选择 Qwen 作为评测裁判,如何做消融实验和指标评估?
选择 Qwen 作为评测裁判,核心理由通常是中文语义能力、开源可控、成本可控、可本地部署和版本可复现。消融实验要证明裁判选择、提示词、评分规则、样例、检索上下文和投票策略分别带来什么影响,并用人类一致性、排序相关性、稳定性、偏置和成本指标评估。
DPO 训练中的正反馈样例如何构造?
DPO 的正反馈样例不是单独的好回答,而是偏好对里的 chosen answer。构造时要保证同一 prompt 下正样本相对负样本更符合事实、指令、风格、安全和业务目标,并通过人工或高可信信号过滤噪声。
多意图识别中如何选择单标签和多标签分类?
多意图识别选择单标签还是多标签,取决于业务动作是否互斥、用户一句话是否可能触发多个独立流程、标注是否稳定以及下游系统能否处理多结果。单标签更简单稳定,多标签表达能力更强但需要阈值、冲突消解和更复杂评估。
SFT 之后做 DPO,DPO 和 RLHF/PPO 有什么区别?
SFT 之后做 DPO,是先让模型学会基本任务格式和能力,再用偏好对调整回答倾向。DPO 直接用偏好数据优化策略与参考模型的概率比,RLHF/PPO 通常先训练奖励模型,再通过强化学习在线优化奖励,工程复杂度和稳定性差异很大。
RAG 在意图识别中有什么作用?
RAG 在意图识别中的作用,是把相似历史表达、标签定义、业务文档和动态规则检索出来,辅助模型缩小候选、消除歧义、识别长尾和处理新业务。它不是替代分类器,而是给分类决策提供可更新的外部证据。
vLLM 有哪些技术优势,为什么推理性能高?
vLLM 推理性能高,核心来自围绕大模型解码瓶颈做系统优化:PagedAttention 降低 KV cache 内存碎片并提升复用,连续批处理提高 GPU 利用率,再结合高效调度、前缀缓存和并行能力提高吞吐。
Prompt 优化有哪些常见方法?
Prompt 优化的核心是降低任务歧义、补齐上下文、明确输出约束,并建立可评估的迭代过程。常见方法包括明确目标和受众、给出背景材料、拆解任务步骤、规定输出格式、提供正反例、使用分隔符、约束边界条件、要求模型列出假设和不确定性,以及通过测试集持续比较效果。
AI 无法处理复杂业务逻辑时如何做人工干预?
当 AI 无法稳定处理复杂业务逻辑时,人工干预不是简单地让人兜底,而是把系统设计成可识别不确定性、可暂停高风险动作、可交给合适人员决策、可追踪结果并反哺模型的闭环。核心是明确哪些场景自动化、哪些场景必须升级、人工结果如何沉淀成规则、样本和评测。
Claude Code 的 memory 分层设计是什么?
Claude Code 的 memory 可以理解为面向长期协作的分层上下文机制:用户级记忆保存跨项目偏好,项目级记忆保存仓库约定,子目录级记忆补充局部规则,本地级记忆保存个人临时偏好。模型在执行任务时会读取这些记忆,并和当前对话、文件上下文一起决定行为。
Cursor 上下文过长时为什么可能出现效果下降?
Cursor 上下文过长时效果下降,通常不是因为模型突然失效,而是有效注意力、检索质量、指令优先级和噪声比例同时变差。上下文窗口越大,越需要选择性提供信息,否则相关代码被无关内容稀释,模型更容易漏掉关键约束或沿用错误线索。
聊天 AI 应用中如何减少大模型幻觉?
减少聊天 AI 应用中的大模型幻觉,需要同时处理知识来源、提示约束、检索增强、工具调用、输出校验、拒答策略、评测监控和用户体验。核心原则是让模型少凭空补全,多基于可验证证据回答,并在证据不足时明确不确定。
调用大模型服务时需要关注哪些核心指标?
调用大模型服务时,核心指标不能只看接口是否成功,还要同时关注效果、成本、性能、稳定性和安全。典型指标包括请求成功率、错误率、首 token 延迟、总延迟、吞吐、Token 用量、单次成本、质量评分、幻觉率、拒答率、重试率、限流率和用户满意度。
大模型输出不符合指令时如何处理?
大模型输出不符合指令时,应该先判断是指令不清、上下文冲突、能力不足、格式约束不强、还是后处理缺失,再选择提示词修正、结构化约束、示例引导、检索补充、模型切换、自动校验、重试修复或人工介入。成熟做法是把不合规输出当作工程质量问题,而不是只责怪模型。
做 AI 项目时如何选择和使用大模型?
做 AI 项目选择和使用大模型,不能只看榜单或单次体验,而要从业务目标、任务类型、质量要求、成本预算、延迟约束、上下文长度、工具能力、数据安全、供应商稳定性和可观测性综合评估。正确姿势是小范围评测、多模型分层、持续监控和可替换架构。
CLOSE_WAIT 和 TIME_WAIT 分别是什么?
CLOSE_WAIT 和 TIME_WAIT 都是 TCP 连接关闭过程中的状态,但含义完全不同。CLOSE_WAIT 出现在被动关闭方,表示对端已经发来 FIN,本端已经确认,但应用还没有调用 close 结束连接;TIME_WAIT 出现在主动关闭方,表示本端完成主动关闭后仍保留连接一段时间,用于处理延迟报文和保证对端收到最后的 ACK。
Prompt 编写有哪些关键注意点?
Prompt 编写的核心不是堆砌提示词,而是把目标、上下文、约束、输入输出格式、推理边界和评估标准表达清楚。好的 Prompt 能降低模型歧义,稳定输出结构,减少幻觉和无关内容,并让结果更容易被程序消费和人工复核。
Prompt ETL 管道如何设计?
Prompt ETL 管道是把原始业务输入经过清洗、切分、增强、模型处理、结构化解析、校验和落库的工程化流程。它的目标不是单次调用模型,而是稳定、可追踪、可回放地把非结构化或半结构化信息转成可用数据。
Transformer 中 Q、K、V 分别表示什么?
Transformer 中的 Q、K、V 分别是 Query、Key、Value,是注意力机制对输入向量做三组线性变换得到的表示。Q 用来发起查询,K 用来被匹配,Q 与 K 的相似度决定关注权重,V 承载最终被加权汇聚的信息。
什么是 TTFT,如何降低大模型首字延迟?
TTFT 是 Time To First Token,表示从请求发出或服务端接收请求到模型返回第一个 token 的时间。它直接影响用户对大模型应用是否“响应快”的感知,优化要覆盖排队、网络、鉴权、Prompt 构造、预填充计算、调度和流式返回。
将内部验证过的大模型数据标注工具推向外部市场时,需要做哪些适配?
把内部验证过的大模型数据标注工具推向外部市场,不能只是开放登录入口,而要完成从内部工具到商业化产品的系统适配。重点包括客户分层、场景包装、多租户与权限、安全合规、交付部署、计费套餐、使用体验、服务支持、数据隔离、可观测性和客户成功闭环。内部可依赖组织流程补齐的部分,外部都要产品化。
AI 自动生成 SQL 数据分析代码的大概技术实现方案是什么?
AI 自动生成 SQL 数据分析代码的技术实现,通常不是让模型直接自由输出 SQL,而是构建一个受约束的自然语言到查询系统。核心流程包括理解用户问题、识别指标和维度、检索数据表与字段、结合业务口径生成 SQL、做语法和权限校验、试运行与错误修复、返回结果解释,并把用户反馈沉淀为语义层和评测集。
如果你是产品 owner,这款 AI 自动生成 SQL 工具要解决的核心业务问题是什么?
作为产品 owner,这款 AI 自动生成 SQL 工具要解决的核心业务问题,是降低数据分析门槛和提升组织决策效率。它让不熟悉 SQL 的业务人员能自助获取可信数据,也让数据分析师从重复取数中解放出来,把时间投入到更高价值的诊断、建模和策略分析。最终目标不是生成代码本身,而是更快、更准、更低成本地回答业务问题。
如果要实现 AI 自动生成 SQL 数据分析代码,它的核心难点是什么?
AI 自动生成 SQL 的核心难点不只是模型会不会写语法,而是能否在复杂业务语义、分散数据资产、权限安全、执行成本和用户意图不完整的情况下,稳定生成可信查询。最难的是把业务语言准确映射到正确指标、表、字段、过滤条件和关联关系,并通过校验和反馈机制避免看似正确但实际口径错误的结果。
AI 生成 SQL 工具的核心优势是什么?主要用户会是谁?
AI 生成 SQL 工具的核心优势是把业务问题到数据答案的链路缩短:降低 SQL 和数据仓库理解门槛,提升临时分析效率,统一指标口径,减少数据团队重复取数,并让数据探索更自然。主要用户包括业务运营、产品经理、增长人员、销售运营、数据分析师、管理者和具备数据需求但不熟悉表结构的 B 端客户。
用户搜索“周末去北京哪里玩”,传统搜索返回视频列表;如果由你设计,如何利用 AI 大模型提供革命性而非改良性的搜索体验?
把“周末去北京哪里玩”做成革命性的 AI 搜索,不是把视频列表换成一段总结,而是把搜索从找内容升级为生成可执行的周末方案。系统要理解用户的出行意图、时间预算、同行人、位置、天气、兴趣和消费约束,结合真实短视频内容、达人经验、POI、排队热度和用户反馈,给出可调整、可验证、可收藏、可导航、可继续对话的行程答案。
这个 AI 搜索功能的灵感来源是什么?它解决了用户什么痛点?
AI 搜索功能的灵感可以来自用户在生活决策中的真实行为:他们并不是想看更多结果,而是想把碎片信息快速变成可行动选择。它解决的痛点包括搜索结果过载、视频信息分散、结论难比较、真实感与效率难兼得、用户需要在多个平台之间反复跳转,以及个性化约束无法被传统关键词搜索充分理解。
大量用户反馈 AI 的回答正确但没有抖音味儿、很无聊,你如何分析并优化?
用户说 AI 回答正确但没有抖音味儿,说明问题不在事实准确性,而在内容表达、场景理解、情绪价值和生态连接上。优化方向不是牺牲正确性去追求花哨,而是在可信答案之上加入更鲜活的本地语感、短视频内容证据、达人视角、用户评论洞察、强选择理由和可互动的探索路径。
你会建立怎样的 AI 搜索效果评测体系?
AI 搜索效果评测体系要同时覆盖事实正确、意图满足、内容生态融合、答案可用性、用户满意和业务增长。它不能只看模型离线分数,也不能只看点击率,而要把离线评测、人工评审、在线实验、用户反馈和长期生态指标组合起来,形成从 Query 到答案、从答案到行动、从行动到生态反哺的闭环。
如何科学衡量一个 AI 搜索结果的用户满意度?
科学衡量 AI 搜索结果满意度,要把“用户喜欢”拆成任务是否完成、答案是否可信、交互是否省力、内容是否有吸引力以及后续是否产生正向行动。单一点击率或停留时长都不可靠,必须结合显性反馈、隐性行为、复搜信号、分意图指标、离线标注和延迟后反馈,建立可解释的满意度模型。
如何理解 AI 大模型和抖音内容生态结合会给抖音搜索带来新增长动力?
AI 大模型与抖音内容生态结合,会给搜索带来新的增长动力,因为它把海量碎片视频转化为可理解、可组合、可决策的答案,提升用户在复杂场景中的搜索成功率。同时,AI 搜索能创造新的内容消费入口、激活长尾内容、提高搜索留存和转化,并通过用户反馈反哺内容生产与排序。