基本信息
文件名称:大模型在华为推荐场景中的探索和应用.pptx
文件大小:8.77 MB
总页数:32 页
更新时间:2025-05-20
总字数:约5.71千字
文档摘要

大模型在华为推荐场景中的探索和应用

演讲人:陈渤

华为诺亚方舟实验室高级算法工程师;

CONTENTS;

背景;

推荐系统背景

信息过载时代下的推荐系统

l为用户推荐感兴趣的资讯,提升用户体验

l广告主精准投放,挖掘潜在客户

l提供更好的服务,建设平台生态,提升平台收益;

大模型时代下的推荐系统

l引入外部开放世界知识,丰富语义信号√

l具备跨域推荐能力,适合冷启动场景√

l协同信号缺失×

l计算复杂度高,难以处理海量样本×;

LLM4Rec在工业推荐链路中的应用:

l特征工程:对原始数据进行加工、增强,得到结构化特征,包括用户/物品维度和样本维度的特征

l特征编码:对结构化特征进行编码,得到对应的稠密向量表示,如用户/物品表征

l打分/排序:对候选物品进行打分排序,包括物品打分(精排)和物品直接生成(召回/重排)

l用户交互:对话式推荐中用户和系统交互过程中,通过理解用户对话和意图,给用户提供物品推荐

l流程控制:控制推荐系统的整体流程,如对排序阶段的控制;

根据训练和推理两个阶段,将现有LLM4Rec工作分为四个象限:

l横坐标:在训练阶段,大语言模型是否需要微调

l纵坐标:在推理阶段,是否需要引入传统推荐模型

LLM4Rec呈现出两个趋势:语义+协同;

LLMforFeature;;

知识适配

n所生成的文本信息内容复杂多面,且存在幻觉问题,推荐模型难以直接理解和利用

n设计多专家网络进行知识提取、压缩、映射,适配至推荐空间,输出结果鲁棒;

实验效果

n在9个SOTA的推荐模型上,平均AUC显著提升1%+,显示出较好的兼容性和有效性;

进一步探索

n进一步探索1:用户和物品规模大,所需推理次数多,且协同信息缺失

?方法:利用协同信息对用户/物品聚类,对每一个聚类用户/物品集进行LLM推理

?效果:华为音乐场景线上A/B,播放歌曲次数+1.99%,播放歌曲设备数+1.73%,播放时长+2.04%

n进一步探索2:用户兴趣变迁快,需周期性更新

?方法:采用流式知识提取,感知用户兴趣变迁,学习增量兴趣

?效果:华为音乐场景全量上线??相比固定提取,流式提取离线AUC+0.27%

n进一步探索3:embedding表征精细化使用

?方法:对原始embedding表征进行离散化,如聚类

?效果:相比直接使用embedding,使用离散化ID方法离线AUC+0.3%;

n大语言模型蕴含着丰富的开放世界知识(物品语义知识),具备超强的逻辑推理能力(用户意图、兴趣演变)

nLLM作为推荐知识生成器提供给传统推荐模型,已带来显著商业收益

nLLM是高资源消耗模型,用于推荐知识生成任务会面临调用次数多,单次调用时延长,所需推理机器多等问题

?推荐场景中海量的用户(亿级)和物品(千万级)规模

?用户兴趣变迁快,需要周期性刷新

?大模型解码耗时长(数秒)

?推理机器成本高,电量资源消耗多;

解码加速发现

n基于检索的投机解码

?从历史知识中检索相关文本,并复制到新知识末尾,从而跳过LLM解码过程实现加速解码

?串行解码-并行验证

n解码加速发现

?RetrievalInefficiency:检索的耗时占比会随着检索池规模的增长而上涨明显

?DiversityTolerance:解码时从top-k的tokens中采样以增加文本多样性,下游推荐任务高容忍度;

技术方案

n个性化检索

?构建个性化检索池(基于协同和基于属性),控制检索池大小和增加文本分布一致性

n模糊校验

?校验阶段放松验证条件,接受更多token,提升加速比

?可配置接收门槛概率,避免LLM发散生成;

实验结果

n在4个LLM知识生成框架中,取得3-5x的加速效果,显示出显著的兼容性和有效性,以及近乎无损的下游预测效果;

实验结果

n在5个不同类型LLM中,取得一致的加速效果,显示出较好的兼容性

n在华为广告场景落地,利用LLM对目标广告可能吸引的人群,产品特点,竞争优势,品牌定位和形象等知识进行生成,相比原始解码方式,在AUC持平的情况下解码加速3.45x;

LLMforRanking;

n用户行为序列建模对推荐系统预测效果至关重要

?用户行为序列长(~106),兴趣多样

?