真实面经题目 · 原创解析
公开群聊搜索排序如何设计,如何结合群名称/内容相关性、活跃度、用户兴趣、质量安全和多样性信号决定排名?
这题考搜索排序系统设计:候选人要能从召回、相关性、质量安全、个性化、多样性和评估指标出发,设计公开群聊搜索的排名策略。
真实面经题目 · 原创解析
这题考搜索排序系统设计:候选人要能从召回、相关性、质量安全、个性化、多样性和评估指标出发,设计公开群聊搜索的排名策略。
我会先把公开群聊搜索拆成召回、过滤、粗排、精排和重排五层。召回阶段根据用户 query 从群名、群简介、话题标签、历史公开内容和成员兴趣标签中找候选群,既可以用倒排索引做关键词匹配,也可以用向量召回补语义相关。过滤阶段先去掉不公开、低质量、违规、疑似 spam、人数异常或近期投诉高的群。排序信号分几类:第一是相关性,包括 query 与群名、简介、标签、公开内容的文本匹配和语义匹配;第二是活跃度,包括近期发言人数、消息量、成员增长、留存和响应速度,但要防刷;第三是质量安全,包括群主信誉、投诉率、违规历史、内容健康度、成员稳定性和审核状态;第四是用户兴趣,包括用户关注、观看、搜索、加入过的群、互动主题和地理或语言偏好;第五是多样性和公平性,避免结果全是同类大群或重复主题。最终可以用一个多目标排序模型或分阶段打分,将相关性作为硬底线,再融合质量、兴趣和业务约束;重排阶段做去重、多样性、安全兜底和新群探索。评估上不能只看点击率,还要看加入率、加入后留存、搜索成功率、举报率、退群率、长期活跃和结果多样性。
公开群聊搜索不是单纯把点击率最高的群排前面,而是要让用户找到相关、活跃、安全、愿意加入且加入后有价值的群。目标指标可以包括搜索点击率、入群率、入群后留存、会话活跃、举报率和退群率。约束包括只展示公开群、合规内容、未被处罚群,以及对未成年人、敏感话题和 spam 的安全处理。
召回可以分多路:群名称和简介的倒排召回、标签召回、公开内容召回、热门主题召回、向量语义召回,以及基于用户兴趣的个性化召回。关键词召回适合精确 query,语义召回适合同义词和模糊表达。召回阶段要保证覆盖率,但也要限制候选规模,并对不公开或违规候选提前过滤。
群聊搜索的第一性信号仍是 query 与群的匹配程度。可以计算群名完全匹配、分词匹配、BM25、标签匹配、简介匹配、公开内容匹配、query 和群向量相似度,以及历史搜索中该 query 对该群的点击和加入行为。群名相关性通常权重要高于长内容,因为用户搜索时更希望结果主题明确。
活跃度包括近 1 天、7 天、30 天消息量、发言人数、活跃成员占比、新成员留存、群主响应和成员增长。但消息量高不一定代表质量高,可能是刷屏或广告。质量信号要加入投诉率、违规率、退群率、禁言处罚、重复内容比例、广告比例、成员稳定性和群主信誉,用来抑制低质高活跃群。
同一个 query 对不同用户可能含义不同。用户兴趣可以来自关注内容、浏览互动、搜索历史、已加入群、好友关系、地域语言和近期意图。个性化要作为加权信号,而不是覆盖相关性底线;如果 query 很明确,相关性更重要,如果 query 较泛,例如游戏、考研、摄影,兴趣和社交关系可以帮助排序。
精排后还需要重排。安全规则要兜底拦截敏感或低置信候选;多样性要避免前几位全是同主题、同运营主体或同质大群;探索机制可以给新群和长尾优质群少量曝光,但要受质量阈值限制。最终排序通常是相关性、质量、个性化、活跃度、多样性和安全约束的多目标折中。
不应该。相关性应是基础门槛,活跃度只能在相关候选之间加权。否则用户搜索会变成热门推荐,短期点击可能上升,长期搜索信任会下降。
可以使用群名、简介、标签、群主信誉、初始成员画像和早期互动作为冷启动特征,并在质量阈值内给少量探索曝光。等积累点击、入群和留存后再进入正常排序。
活跃度要用去重发言人数、活跃成员占比、有效互动、留存和投诉率综合判断,并识别重复消息、异常增长、广告内容和小号行为。对刷量嫌疑群降权或进入审核。
关键词召回保证精确匹配和可解释性,向量召回补充同义词、口语化和语义相近需求。融合时可以多路召回去重,再用统一排序模型比较相关性和质量。
除了搜索点击率,还要看结果点击深度、入群率、入群后 1 日或 7 日留存、发言率、举报率、退群率、无结果率和 query 级覆盖,避免只优化短期点击。