电商 App 中的 AI 穿搭推荐功能应如何设计整体流程，并从数据来源、模型链路和效果评估上落地？｜Cider 算法面经解析

60 秒回答模板

我会把 AI 穿搭推荐拆成数据、候选生成、排序决策、展示反馈和评估闭环。数据层需要商品图像、标题描述、类目、颜色、材质、版型、尺码、价格、库存、季节场景，以及用户点击、收藏、加购、购买、退货和不喜欢等行为。模型层先用图文多模态 embedding 表示单品，再通过相似款、互补品、用户偏好、场景天气和流行趋势做多路召回；随后用排序模型或兼容性模型判断“这几件能不能搭”“用户会不会喜欢”“业务上能不能卖”。线上要加入库存、尺码、价格带、重复曝光、探索比例和解释文案约束。评估不能只看 CTR，还要看加购率、转化率、客单价、成套购买率、多样性、覆盖率、退货率、人工审美评审和 A/B 实验。

考点 三类数据底座

难度 真实面经题

回答目标 讲清数据从哪里来、模型如何推荐、业务约束如何落地、效果如何证明。

深入解析

先定义推荐目标和业务边界

穿搭推荐不是普通的单品“猜你喜欢”。它同时包含用户偏好、单品相似性和组合兼容性：用户可能喜欢什么风格，哪些上衣、下装、鞋包可以组成合理 outfit，哪些结果当前有库存、尺码可买且符合价格带。好答案要把目标从“推荐商品”升级为“推荐一组可购买、可解释、符合用户场景的搭配”。

数据来源要覆盖商品、用户和穿搭知识

商品侧包括结构化属性、图像、文本描述、达人搭配图、类目层级、价格、库存和历史销售；用户侧包括浏览、点击、收藏、加购、购买、退货、搜索词、尺码偏好、价格敏感度和负反馈；知识侧可以来自人工搭配规则、时尚标签、场景标签、LookBook 和历史成套购买。穿搭兼容性标签通常稀缺且主观，因此可以用达人套装、购物篮共现、连续浏览序列和人工小样本构造弱监督标签，但要防止把“共同曝光”误当成真实搭配关系。涉及身材、尺码和风格偏好的数据还要注意隐私、授权和最小化使用。

模型链路适合多路召回加约束排序

召回阶段可以并行做用户偏好召回、相似风格召回、互补品召回、场景召回和新品探索召回。图像模型提取颜色、纹理、版型和风格 embedding，文本模型提取商品描述和场景语义，行为模型学习长期与短期偏好。排序阶段融合用户特征、商品特征、组合特征和业务特征，输出点击、加购、购买、搭配兼容性等多目标分数。最后重排处理多样性、去重、价格梯度、库存、尺码和解释一致性。

评估要同时看效果、审美和工程稳定性

离线可看 AUC、NDCG、Recall@K、兼容性分类准确率、多样性、覆盖率、novelty 和新商品曝光；线上看 CTR、加购率、转化率、成套购买率、GMV、客单价、退货率、停留时长、满意度和负反馈率。由于穿搭有强主观性，还应抽样做人审，检查颜色冲突、季节错误、场景不符、体型/尺码不匹配、库存季节漂移和推荐过窄。A/B 实验要按新老用户、不同价格带、不同品类和冷启动商品分层分析，并同时观察服务延迟。

易错点

只说“用协同过滤或深度推荐”，没有解释穿搭组合兼容性。
忽略库存、尺码、价格、季节和场景，导致推荐不可购买或不合时宜。
只看 CTR，不看成套购买、退货率、多样性和人工审美。
把弱共现数据直接当真实穿搭标签，造成训练噪声。
没有冷启动和探索机制，新品、新用户和小众风格长期得不到反馈。
忽略身材尺码、季节库存和隐私授权，导致推荐可用性和合规风险。

面试官追问

如果没有高质量穿搭标签怎么办？

可以先用达人套装、LookBook、购物篮共现、连续行为和人工小样本构造弱监督标签，再用人工抽检控制噪声。上线早期不要完全依赖弱标签，应把规则约束和人审结果纳入重排，并用线上反馈逐步修正兼容性判断。

冷启动用户怎么推荐？

可以利用入口场景、搜索词、地域天气、当前季节、热门搭配和流行趋势建立初始候选。新用户前几轮要增加探索和多样性，用点击、停留、收藏、跳过和不喜欢行为快速更新画像，而不是一开始就做很窄的个性化。

规则和模型怎么取舍？

规则适合硬约束，例如库存、尺码、禁配颜色、季节和价格边界；模型适合学习复杂偏好和审美兼容性。生产中通常不是二选一，而是模型负责打分，规则负责守底线，重排负责业务和体验平衡。

为什么退货率也要纳入评估？

穿搭推荐可能提高点击和购买，但如果尺码、材质、场景或风格不匹配，会带来更高退货和长期不满意。退货率、差评和负反馈能补充 CTR/CVR 看不到的体验质量。