大模型在华为推荐场景中的探索和应用
演讲人:陈渤
华为诺亚方舟实验室高级算法工程师;
CONTENTS;
背景;
推荐系统背景
信息过载时代下的推荐系统
l为用户推荐感兴趣的资讯,提升用户体验
l广告主精准投放,挖掘潜在客户
l提供更好的服务,建设平台生态,提升平台收益;
大模型时代下的推荐系统
l引入外部开放世界知识,丰富语义信号√
l具备跨域推荐能力,适合冷启动场景√
l协同信号缺失×
l计算复杂度高,难以处理海量样本×;
LLM4Rec在工业推荐链路中的应用:
l特征工程:对原始数据进行加工、增强,得到结构化特征,包括用户/物品维度和样本维度的特征
l特征编码:对结构化特征进行编码,得到对应的稠密向量表示,如用户/物品表征
l打分/排序:对候选物品进行打分排序,包括物品打分(精排)和物品直接生成(召回/重排)
l用户交互:对话式推荐中用户和系统交互过程中,通过理解用户对话和意图,给用户提供物品推荐
l流程控制:控制推荐系统的整体流程,如对排序阶段的控制;
根据训练和推理两个阶段,将现有LLM4Rec工作分为四个象限:
l横坐标:在训练阶段,大语言模型是否需要微调
l纵坐标:在推理阶段,是否需要引入传统推荐模型
LLM4Rec呈现出两个趋势:语义+协同;
LLMforFeature;;
知识适配
n所生成的文本信息内容复杂多面,且存在幻觉问题,推荐模型难以直接理解和利用
n设计多专家网络进行知识提取、压缩、映射,适配至推荐空间,输出结果鲁棒;
实验效果
n在9个SOTA的推荐模型上,平均AUC显著提升1%+,显示出较好的兼容性和有效性;
进一步探索
n进一步探索1:用户和物品规模大,所需推理次数多,且协同信息缺失
?方法:利用协同信息对用户/物品聚类,对每一个聚类用户/物品集进行LLM推理
?效果:华为音乐场景线上A/B,播放歌曲次数+1.99%,播放歌曲设备数+1.73%,播放时长+2.04%
n进一步探索2:用户兴趣变迁快,需周期性更新
?方法:采用流式知识提取,感知用户兴趣变迁,学习增量兴趣
?效果:华为音乐场景全量上线??相比固定提取,流式提取离线AUC+0.27%
n进一步探索3:embedding表征精细化使用
?方法:对原始embedding表征进行离散化,如聚类
?效果:相比直接使用embedding,使用离散化ID方法离线AUC+0.3%;
n大语言模型蕴含着丰富的开放世界知识(物品语义知识),具备超强的逻辑推理能力(用户意图、兴趣演变)
nLLM作为推荐知识生成器提供给传统推荐模型,已带来显著商业收益
nLLM是高资源消耗模型,用于推荐知识生成任务会面临调用次数多,单次调用时延长,所需推理机器多等问题
?推荐场景中海量的用户(亿级)和物品(千万级)规模
?用户兴趣变迁快,需要周期性刷新
?大模型解码耗时长(数秒)
?推理机器成本高,电量资源消耗多;
解码加速发现
n基于检索的投机解码
?从历史知识中检索相关文本,并复制到新知识末尾,从而跳过LLM解码过程实现加速解码
?串行解码-并行验证
n解码加速发现
?RetrievalInefficiency:检索的耗时占比会随着检索池规模的增长而上涨明显
?DiversityTolerance:解码时从top-k的tokens中采样以增加文本多样性,下游推荐任务高容忍度;
技术方案
n个性化检索
?构建个性化检索池(基于协同和基于属性),控制检索池大小和增加文本分布一致性
n模糊校验
?校验阶段放松验证条件,接受更多token,提升加速比
?可配置接收门槛概率,避免LLM发散生成;
实验结果
n在4个LLM知识生成框架中,取得3-5x的加速效果,显示出显著的兼容性和有效性,以及近乎无损的下游预测效果;
实验结果
n在5个不同类型LLM中,取得一致的加速效果,显示出较好的兼容性
n在华为广告场景落地,利用LLM对目标广告可能吸引的人群,产品特点,竞争优势,品牌定位和形象等知识进行生成,相比原始解码方式,在AUC持平的情况下解码加速3.45x;
LLMforRanking;
n用户行为序列建模对推荐系统预测效果至关重要
?用户行为序列长(~106),兴趣多样
?