大模型在华为推荐场景中的探索和应用.pptx

基本信息

文件名称：大模型在华为推荐场景中的探索和应用.pptx

文件大小：8.77 MB

总页数：32 页

更新时间：2025-05-20

总字数：约5.71千字

文档摘要

大模型在华为推荐场景中的探索和应用

演讲人：陈渤

华为诺亚方舟实验室高级算法工程师;

CONTENTS;

背景;

推荐系统背景

信息过载时代下的推荐系统

l为用户推荐感兴趣的资讯，提升用户体验

l广告主精准投放，挖掘潜在客户

l提供更好的服务，建设平台生态，提升平台收益;

大模型时代下的推荐系统

l引入外部开放世界知识，丰富语义信号√

l具备跨域推荐能力，适合冷启动场景√

l协同信号缺失×

l计算复杂度高，难以处理海量样本×;

LLM4Rec在工业推荐链路中的应用：

l特征工程：对原始数据进行加工、增强，得到结构化特征，包括用户/物品维度和样本维度的特征

l特征编码：对结构化特征进行编码，得到对应的稠密向量表示，如用户/物品表征

l打分/排序：对候选物品进行打分排序，包括物品打分（精排）和物品直接生成（召回/重排）

l用户交互：对话式推荐中用户和系统交互过程中，通过理解用户对话和意图，给用户提供物品推荐

l流程控制：控制推荐系统的整体流程，如对排序阶段的控制;

根据训练和推理两个阶段，将现有LLM4Rec工作分为四个象限：

l横坐标：在训练阶段，大语言模型是否需要微调

l纵坐标：在推理阶段，是否需要引入传统推荐模型

LLM4Rec呈现出两个趋势：语义+协同;

LLMforFeature;;

知识适配

n所生成的文本信息内容复杂多面，且存在幻觉问题，推荐模型难以直接理解和利用

n设计多专家网络进行知识提取、压缩、映射，适配至推荐空间，输出结果鲁棒;

实验效果

n在9个SOTA的推荐模型上，平均AUC显著提升1%+，显示出较好的兼容性和有效性;

进一步探索

n进一步探索1：用户和物品规模大，所需推理次数多，且协同信息缺失

?方法：利用协同信息对用户/物品聚类，对每一个聚类用户/物品集进行LLM推理

?效果：华为音乐场景线上A/B，播放歌曲次数+1.99%，播放歌曲设备数+1.73%，播放时长+2.04%

n进一步探索2：用户兴趣变迁快，需周期性更新

?方法：采用流式知识提取，感知用户兴趣变迁，学习增量兴趣

?效果：华为音乐场景全量上线??相比固定提取，流式提取离线AUC+0.27%

n进一步探索3：embedding表征精细化使用

?方法：对原始embedding表征进行离散化，如聚类

?效果：相比直接使用embedding，使用离散化ID方法离线AUC+0.3%;

n大语言模型蕴含着丰富的开放世界知识（物品语义知识），具备超强的逻辑推理能力（用户意图、兴趣演变）

nLLM作为推荐知识生成器提供给传统推荐模型，已带来显著商业收益

nLLM是高资源消耗模型，用于推荐知识生成任务会面临调用次数多，单次调用时延长，所需推理机器多等问题

?推荐场景中海量的用户（亿级）和物品（千万级）规模

?用户兴趣变迁快，需要周期性刷新

?大模型解码耗时长（数秒）

?推理机器成本高，电量资源消耗多;

解码加速发现

n基于检索的投机解码

?从历史知识中检索相关文本，并复制到新知识末尾，从而跳过LLM解码过程实现加速解码

?串行解码-并行验证

n解码加速发现

?RetrievalInefficiency：检索的耗时占比会随着检索池规模的增长而上涨明显

?DiversityTolerance：解码时从top-k的tokens中采样以增加文本多样性，下游推荐任务高容忍度;

技术方案

n个性化检索

?构建个性化检索池（基于协同和基于属性），控制检索池大小和增加文本分布一致性

n模糊校验

?校验阶段放松验证条件，接受更多token，提升加速比

?可配置接收门槛概率，避免LLM发散生成;

实验结果

n在4个LLM知识生成框架中，取得3-5x的加速效果，显示出显著的兼容性和有效性，以及近乎无损的下游预测效果;

实验结果

n在5个不同类型LLM中，取得一致的加速效果，显示出较好的兼容性

n在华为广告场景落地，利用LLM对目标广告可能吸引的人群，产品特点，竞争优势，品牌定位和形象等知识进行生成，相比原始解码方式，在AUC持平的情况下解码加速3.45x;

LLMforRanking;

n用户行为序列建模对推荐系统预测效果至关重要

?用户行为序列长（~106），兴趣多样