推荐系统进入“大模型时刻”：昇腾NPU如何支撑千亿级生成式推荐落地流派

审核｜Kimmy

在推荐系统跨入大模型时代的当下，如何利用国产算力底座支撑起千亿级参数模型的训推，

全球人工智能开发与应用大会·北京站》，他深度复盘了华为在推荐技术演进中的前沿探索——从早期对特征工程与模型结构螺旋式上升的探索，到生成式推荐时代的全面转向。文章详尽披露了 FuXi-α、β系列模型的设计思路，揭示了如何通过系统优化，解决大规模分布式训练和低时延推理难题。

更具工程参考价值的是，以及针对推荐系统定制的 Perfornce Law（能定律）。该定律通过引入“真实熵”度量，精准修正了传统 Scaling Law 在推荐场景下的预测偏差，为低成本下的参数寻优提供了科学依据。

背景介绍

2024 年之前的深度学习推荐技术，主要沿两大路径演进：

特征交叉建模，以 DeepFM、DCN 等为代表，核心依托特征交叉模块，自动挖掘或人工构造高阶交叉特征，实现特征间复杂依赖关系的建模；二是，早期研究聚焦短序列场景，借助 DIN 模型的目标注意力机制及 Tranormer 结构刻画用户短期兴趣。2021 至 2022 年，长序列建模成为行业研究热点，普遍采用两阶段检索方式，从超长行为序列中萃取关键信息，完成用户兴趣表征。

进入生成式推荐系统阶段后，技术演进依旧分化为两条核心路径。

条为 端到端模型 Scaling Law，以探索模型规模上限为核心，依托生成式架构对用户全量行为序列进行统一建模，以单一大模型替代传统推荐系统召回、粗排、精排、重排多环节架构，达成推荐全流程端到端建模；第二条自 2025 年下半年起逐步获得业界重视，搭建用户行为与大模型的对齐表征空间，借助大模型的逻辑推理能力赋能推荐效果升级。

如图所示，展示了 2025 年业界生成式推荐技术的全景概览。可以看到，2025 年是生成式推荐技术快速爆发的一年：不仅有十余家机构相继发布标志成果，相关研究工作也呈现出持续涌现的态势。

整体来看，该领域已经形成较为清晰的技术演进脉络，并可以归纳为三大趋势。

首先，模型结构的持续创新。技术演进路径从早期的 HSTU 序列规模化（Scaling），逐步发展到 RankMixer 所代表的特征交互规模化，演进至近期 OneTrans 与 Meta GEM 等模型所采用的融合规模化方案。华为在此领域也贡献了华为 FuXi- α 、β 及 DLF 等工作。

其次，。随着模型参数规模的扩大及其表征能力的增强，业界开始尝试利用单一模型统一推荐系统中的多个阶段，推动了从单阶段建模向多阶段联合训练的范式转变。这一趋势的典型代表包括华为的 UniGRF、的 OneRec-V1 与 OneRec-V2，以及腾讯近期推出的 GPR。

最后，。该方向的代表工作包括谷歌 PLUM 以及 OneRec-Think。该范式的核心优势在于引入 LLM 的通用知识与推理能力，从而增强模型对用户行为序列与意图语义的理解能力，并提升整体推荐质量与泛化能力。

首先从模型结构的探索展开，重点介绍 FuXi- α 、β 模型。自 2024 年 2 月 Meta 发布 HSTU 以来，业界发现推荐系统同样具备 Scaling Law。

我们深入开展了基于自回归 Tranormer 的序列建模研究。通过对 GPT、Lla、SASRec 以及 HSTU 等典型模型结构，进行复现与对比分析。实验结果表明，传统的 SASRec 和 GPT 在推荐系统场景中不具备规模化效应，而 Lla 和 HSTU 则能够呈现出该效应。

通过分析其核心原因，我们发现模型结构中的残差连接方式与归一化策略起着关键作用。以 Lla 和 HSTU 为代表的结构，将归一化置于注意力机制之前，使特征分布更加稳定与均匀，从而更好支持大规模模型训练。

基于上述分析，我们对经典的 SASRec 模型进行了优化，通过改进其残差结构，并引入时间建模，使其成功展现出规模化效应。这一研究结果表明，规模化效应的核心在于通过合理的结构设计约束表征空间，从而实现模型的更好收敛。

在对现有结构进行充分评估后，我们发现了新的研究挑战：其一，Lla 虽在语言建模任务中表现优异，却缺失了推荐系统中至关重要的时间信息；其二，以 HSTU 为代表的架构虽融合了语义、时间与位置信息，但由于其处理方式较为简单，导致特征交互深度不足，且关键特征的重要易被掩盖。此外，HSTU 为追求的加果，舍弃了 FFN 模块，进而忽略了特征之间的隐式交互。

针对上述限，华为提出 FuXi-Alpha 架构，其核心设计理念为 特征交互增强，具体设计方案如下：

引入自适应多通道显式特征交互增强机制。相较于 HSTU 通过简单叠加语义、位置及时间信息所导致的信息丢失问题，FuXi-Alpha 通过构建三个通道分别开展特征交叉操作，后续进行拼接处理，可更完整地保留多维特征的表达能力。

其二，设计并引入多阶段前馈

该两阶段 FFN 结构的具体功能的为：阶段负责多通道信息的深度融合，第二阶段则执行隐式特征的交叉建模。上述设计具备优势：一方面能够确保特征交叉建模的充分；另一方面，由于 FFN 的核心操作主要基于矩阵乘法，具有高的硬件计算亲和，可有效提升模型的 MFU。

。实验数据进一步验证，显式特征交互与隐式特征交互两项技术创新，能够增强模型整体效果。基于大规模真实工业数据集的评测结果，我们观察到 Fuxi Alpha 具备优异的 Scaling 潜力，模型效果随深度增加呈持续提升趋势，目前已成功验证至 32 层。

在进一步扩展至 64 层的过程中，由于当时显存优化方案尚未完全成，训练过程中出现 NPU 显存溢出（OOM）问题，但整体能演进趋势依然清晰且稳定。

目前，该模型已在召回场景实现全量上线，并取得业务收益。具体数据显示，歌曲播放次数提升 4.67%，播放时长增长 5.1%。

为了更深入地理解 Fuxi Alpha 的内部机制，我们对其 Attention Map 进行了。在热力图矩阵中，横轴与纵轴分别对应注意力计算中的 Query 与 Key，其数值大小用于表征不同特征之间的交互强度。

分析结果显示，语义通道的注意力权重仅为 0.07，而时间与位置通道分别达到 0.15 与 0.25。其中，时间通道呈现出较为的全高权重分布特征，而位置通道的注意力分布则相对稀疏，但在部区域表现出更强的集中。

其一，不同通道之间的注意力分布存在差异，进一步验证了分通道建模的必要与有效；

其二，在推荐场景中，时间与位置信息相较于语义信息展现出更高的贡献度与影响力。尽管当前可视化结果中仍包含更复杂的潜在行为模式有待进一步挖掘，但上述结论已充分支持多通道增强架构的设计合理，并为后续模型结构迭代提供了重要依据。

基于 Fuxi Alpha 的可视化结论，我们对各通道的必要进行了进一步系统分析。

由于语义通道具有 (O(n^2)) 的计算复杂度，当序列长度扩展至千级甚至万级时，其计算开销将迅速放大，并成为制约模型扩展能力的关键瓶颈。结合前述分析中语义通道注意力权重相对较低的现象，我们推测，在适当移除该通道的情况下，模型在降低推理时延的同时，整体效果受影响可能较小，甚至有机会通过支持更长序列建模带来额外增益。

实验结果验证了上述假设。在通道消融实验中，移除语义通道不仅未导致能下降，反而带来了轻微的效果提升；移除位置通道后，整体能基本保持稳定；而移除时间通道则会导致模型效果下降。此外，在仅保留单一通道的端设置下，模型出现明显退化。

在对推理时延要求较为严格的场景中，对其进行移除是一种具有实际价值的结构优化方向。

在进一步的工程实践中，针对基于昇腾 NPU 的生成式推荐系统，我们观察到相对时间编码在计算路径中存在能瓶颈。

该编码的传统实现方式通常包括：首先计算序列中任意两个位置之间的时间戳差值，其次进行分桶映射处理，再通过索引操作获取对应的注意力偏置，最终将其注入注意力计算模块。由于该过程涉及大量非连续内存访问与索引操作，其内存访问开销较高，在整体推理耗时中的占比接近 40%。

考虑到推荐系统对推理延迟通常具有 50–100ms 级别的严格约束，我们进一步尝试以轻量化函数近似替代复杂的相对时间编码计算流程，从而降低计算与内存访问复杂度，并提升整体推理效率与系统吞吐能力。

为此，我们开展了系统的实验验证，重点探索以连续函数替代传统“分桶 + 索引”机制的可行。在研究过程中，我们对线函数、神经、三角函数、指数函数及幂函数等九类函数形式进行了对比实验。

通过对拟合曲线的细致分析可以发现，幂函数在刻画相对位置偏置（RAB, Relative Attention Bias）时与原始分桶分布最为接近，尤其在序列后段的长尾区域，其拟合效果表现出更好的稳定与一致。

进一步的实验结果表明，在推荐任务评测中，基于幂函数的建模方式整体效果与原始分桶函数持平，甚至在部分指标上呈现轻微提升。该结果说明，连续函数在一定程度上能够有效近似离散分桶机制，同时具备更好的表达平滑与潜在泛化能力。

基于上述发现，我们将原有的 RAB 计算逻辑替换为幂函数形式拟合，将其作为模型架构中的第二项关键优化。

实验结果显示，Fuxi Beta 在大规模工业数据集及公开数据集上均实现了与效率的平衡。在保持甚至优化推理效率的基础上，其表现优于 Fuxi Alpha 及 HSTU，且在降低推理时延方面效果。消融实验进一步验证了架构设计的合理。移除语义通道能够有效降低计算开销，且对无负面影响，甚至带来轻微提升；而时间通道与位置通道对于维持模型能具有不可替代的作用。

训练范式探索

目前推荐系统普遍采用由召回、粗排及精排组成的多阶段流水线结构，该模式存在两个核心问题：其一，；其二，由于各阶段模型结构与优化目标不统一，在候选集传递过程中不可避免产生信息损失。

借鉴生成式大模型的多任务处理能力，我们尝试利用生成式推荐统一召回与精排等多个传统推荐阶段。通过持续扩展模型规模，实现单一大模型覆盖多环节、多场景建模。这一方法不仅有助于降低系统复杂度与维护成本，同时具备潜力获得更优的整体推荐效果。

尽管统一建模构想具有优势，但在工程实现层面仍面临严峻挑战。首要障碍在于模型结构的本质差异：召回阶段通常采用双塔架构（如 DS），而精排阶段则多采用单塔结构。此外，两者在优化目标上亦存在分歧，召回环节多以 BPR 等 Pairwise Loss（成对损失）为核心，而精排环节则普遍采用 Pointwise Loss（逐点损失）。这种在架构设计与目标函数上的不一致，构成了统一建模过程中难以直接逾越的技术屏障。

随着生成式推荐技术的兴起，为解决传统推荐系统的阶段冲突提供了新的契机。

其核心思路在于将原本异构的召回与精排环节统一建模为 “Next Item Prediction” 任务。在召回阶段，模型基于用户历史行为，从全量词表中预测并检索潜在的下一个交互物品；在精排阶段，则在给定候选集范围内，利用相同的预测机制对用户点击或偏好概率进行精细建模与打分。

这种任务形式的归一化，使得原本在结构与目标上存在鸿沟的两个阶段，能够在同一生成式架构下形成逻辑闭环。通过这一方式，我们构建了能够同时覆盖召回与精排任务的统一模型结构。在完成架构设计后，我们进一步基于真实业务数据集展开了系统的训练与验证。

我们在 2024 年 6 月启动该项研究。在初期实验过程中，遇到了一个具挑战的障碍，即推荐系统中的“单轮训练（One-Epoch）”现象。

精排任务通常在完成一个训练轮次后，模型即达到峰值，随后进入过拟合状态，能持续下降。与之相反，召回任务的训练行为完全不同，其随训练轮次增加而稳步提升，即使经过数百甚至上千次迭代，仍保持持续上升趋势。

这种训练动态的差异，其根本原因在于损失函数的不一致。召回阶段主要采用基于 InfoNCE 的对比学习损失，而精排阶段则以对数损失（Log Loss）为主。两类目标函数在优化方向与收敛特上的差异，使得多阶段联合优化面临冲突，成为统一建模过程中难以直接消解的关键技术障碍。

对召回与精排阶段进行统一对齐。

具体而言，我们将召回阶段评分较高但精排评分较低的样本，将精排评分高但用户实际未交互的样本作为正样本，引入下一轮次的召回训练。我们在数据分布层面初步建立了两个阶段的关联。

然而，仅靠样本空间的统一尚不足以填补损失函数间的巨大鸿沟。

借鉴谷歌在多任务学习中关于梯度正则化的研究思路，我们进一步引入了梯度引导的自适应权重机制。该机制能够实时监控训练过程中召回与精排损失的梯度动态，并据此自动调整各任务在总损失中的权重比例。通过这种方式，最终使统一建模的生成式推荐模型实现了理想的收敛效果。

如实验数据图表所示，在未引入损失函数正则化机制前，召回与精排任务难以在统一架构下实现稳定收敛；

而在引入数据一致策略与损失正则化后，模型不仅能够成功进行联合训练，且其能表现随训练轮次的增加呈现出稳步上升的趋势。

实验结果表明，该统一建模方案在召回与精排各项指标上，均优于传统的单阶段模型。

在对比分析中，我们发现传统的深度学习多阶段联合建模方案（如等）在生成式推荐范式下的表现并不理想。尽管 2025 年业界出现了利用 强化学习实现召回精排一致建模的方案，但在 2024 年开展该项工作时，我们通过尝试发现，强化学习存在的训练不稳定和收敛难度，因此最终选择了多任务正则化的路径。

在完成了对模型结构与训练范式的探索后，接下来的核心挑战在于如何针对大规模模型（如 1B 或 10B 参数量级）进行最优超参数配置。

如 32 层架构或 4096 维嵌入，但由于推荐系统与语言建模之间存在差异，直接复用相关参数往往难以取得理想收益。

这种差异主要体现在两个维度：首先是 信息量的不均。推荐系统中的用户行为序列在信息量上存在差异，若不考虑这种信息量的波动而单纯套用 token 建模逻辑，会导致规模化效应失效；其次是，而推荐系统涉及词表达到千万甚至亿级。

此外，现有的 Scaling Law 在应用中也存在限。传统的 Scaling Law 主要拟合损失函数（Loss）与参数规模的关系，但在推荐场景下，低的损失值往往可能源于过拟合，并不一定能转化为实际业务效果的提升。

实验观察表明，Loss 下降与效果提升之间并非线关系。针对这一预测偏差，我们提出了一套针对推荐系统优化的 Scaling Law 方案，旨在更精准地通过模型规模预测业务能。

我们引入了数据质量度量机制，通过量化数据的“真实熵”（Real-world Entropy）来提升拟合。该方法的核心在于通过分析序列模式的分布差异，捕捉序列内部的结构化特征与冗余度，进而实现对数据质量的量化评估。

在具体实践中，我们利用 Lempel-Ziv (LZ) 压缩算法估算真实熵，通过统计序列中非重复子序列的数量来表征信息量；熵值越高，代表数据的信息密度与质量越高。基于这一度量标准，我们对通用的规模化定律进行了公式重构。不同于仅依赖词元数量 D 的传统模型，新公式引入了综合考量数据质量的有效数据量参数 D'，将真实熵作为核心变量整合进规模化预测模型中。

”的假设，在推荐系统领域并不完全成立，因为损失函数与实际业务能之间，并非简单的线关系。当模型参数过度增加时，往往会触发过拟合导致能下滑。为修正这一偏差，我们创新地在 Scaling Law 中引入了衰减项。

实验表明，未引入该衰减项及数据质量度量时，18；而在整合衰减项与数据真实熵后，拟合系数大幅提升至 0.92。

具体数据对比显示，引入真实熵后，曲线的 R^2 从 0.8776 提升至 0.9881，实现了对模型损失与实际效果的高拟合，该研究也诞生了推荐系统领域，能够准确衡量模型效果与参数关系的工具——Perfornce Law。

Perfornce Law 的提出为大模型时代的参数寻优提供了具价值的路径。在面对数十亿级参数与千亿级样本时，全量调参的成本难以承受，我们通过在小规模数据集上利用小参数模型拟合出 Perfornce Law 曲线，进而外推并锁定部最优解，从而以低的成本确定大模型的参数配置，并确保模型在扩展过程中维持最优能。

然而，单纯追求算法并不足以满足工业级部署需求，因为硬件算子对参数形状（Shape）具有高的敏感。例如，当参数维度从 32 调整为 28 时，由于非 16 的倍数导致无法充分利用 NPU 的并行计算能力，推理时延可能成倍增加。目前的 Perfornce Law 仍主要侧重于预测，忽略了计算效率的维度。因此，如何将算子粒度的硬件与建模相结合，成为了下一阶段具挑战的研究方向。

在确立了模型架构、训练范式与最优参数后，系统层面的全链路优化成为生成式推荐落地的关键。由于推荐系统对推理时延有着 50 至 100 毫秒的严苛约束，为此我们联合昇腾打造了深度亲和的推荐训推系统。

在训练侧，我们并开源了包括 Hstu、Fuxi、RAB 在内的 融合算子；同时，针对 PB 级稀疏 Embedding 与百亿级稠密参数并存的特征，实现了。此外，考虑到推荐序列长度分布不均匀（峰值 1000 而均值仅 200），我们构建了从特征处理到模型计算的全链路 Jagged 计算架构，彻底消除填充冗余，使有效计算占比大幅提升。

在推理侧，为了平衡能与存储成本，我们针对长序列场景引入了 P/D 分离部署架构。鉴于海量用户产生的缓存，可能达到 PB 级。我们采取了差异化计算策略，仅针对高活跃及长序列用户启用缓存机制，而短序列用户则采用实时计算方案；其次，我们引入了混合技术，来有效降低推理过程中的计算成本与响应时延；最后，针对序列长度差异化导致的计算不均，我们采用了动态 Batching 策略，通过自适应调整批大小来化解长尾分布带来的负载失衡。

目前，基于昇腾 910B 构建的 128 卡集群在训练时的模型算力利用率（MFU）已超过 40%，线加速比优于 0.9。

面向未来，昇腾推荐系统将聚焦于“超节点”架构的演进。该架构的核心优势在于拥有超大容量的共享内存池与卓越的 AI 算力。

针对 TB 级稀疏 Embedding 带来的巨信挑战，超节点凭借超高带宽与低时延特，彻底消除了跨机多卡分布式架构的能瓶颈；同时，生成式推荐在预填充与解码阶段均属于 计算密集型任务，混合点凭借其充沛的 AI 算力，能够有效支撑高并发与低时延的推理需求，成为下一代生成式推荐的关键底座。

总结和展望

基于昇腾 NPU 全栈构建的生成式推荐模型，我们已在华为内部的召回与精排等多个核心场景实现全量落地，并取得了的应用成效。

回顾推荐系统的技术演进，其发展路径呈现出具规律的特征。早期以逻辑回归为代表，技术核心在于复杂的特征工程与简单的模型结构。随着深度学习的兴起，行业开始尝试通过模型结构的创新来减少对人工特征工程的依赖，在 2017 至 2018 年间涌现出 DeepFM、DCN 等多样化架构，形成了百花齐放的态势。然而到 2021 年前后，模型结构边际效益递减。

这促使技术路线再次向精细化特征工程回归，通过 ETA 或 CAN 等技术，利用两阶段检索或笛卡尔积等手段处理长序列与复杂交叉特征，来寻求效果突破。

在深度学习阶段之后，推荐系统步入了生成式推荐的新纪元。

其核心思想在于通过简单的特征工程与统一的模型结构，利用模型自主学习能力替代繁琐的人工特征处理。随着模型规模的扩大，这种范式展现出了卓越的能，并逐步演进为生成式推荐。

我认为，生成推荐范式的出现标志着技术路径的收敛，它告别了过去“特征工程”与“模型结构”互为拉锯、螺旋式上升的模式，转而走向以“强算力、强模型”为核心的单向路径。

在强算力维度，推荐系统的演进正经历从单机多卡向超节点集群的跨越，旨在通过超大规模算力支撑起模型能力的质变。能够有效承载模型参数规模从 1B 到 100B 的大幅跃升。

尽管目前多数生成推荐模型仍处于从零开始训练的阶段，但未来的核心演进方向必然是引入世界知识与推理能力，从而构建具备更强能的基础模型。

”与的深度融合。技术攻关的核心在于如何构建的训练系统以化算力价值，并在此基础上打造搜推广领域的基础大模型，以更强的模型能力驱动推荐结果的迭代升级。

谢谢大家。

郭威，华为基础大模型部主任工程师，研究方向为用户行为建模和生成式推荐系统。在 KDD，SIGIR，等高水平会议和期刊上发表论文 20 多篇。多项研究工作落地华为应用市场、广告等真实业务场景。相关工作谷歌学术引用 2000 余次，曾获 DLP-KDD best paper, KDD best student paper 等奖项。

大会8折倒计时进入最后一周，现在报名立减1160，更多详情可扫码或联系票务经理 13269078023 进行咨询。

系统

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。

推荐系统进入“大模型时刻”：昇腾NPU如何支撑千亿级生成式推荐落地流派

相关推荐

秦 L 的 DiLink 系统使用体验怎么样指南

沃尔沃 XC70 车机系统如何使用阵容

沃尔沃ES90配备的城市安全系统有哪些功能

纳博特云控系统万台落地，技巧运控自主难题

Omdia流派：分布式智能和系统级编排将成为Agent大规模普及的关键

教程企业AI操作系统“灵基”来了，金蝶要引领企业进入AI原生时代

评论区

全部评论

发表评论

推荐系统进入“大模型时刻”：昇腾NPU如何支撑千亿级生成式推荐落地流派

🔗相关推荐

秦 L 的 DiLink 系统使用体验怎么样指南

沃尔沃 XC70 车机系统如何使用阵容

沃尔沃ES90配备的城市安全系统有哪些功能

纳博特云控系统万台落地，技巧运控自主难题

Omdia流派：分布式智能和系统级编排将成为Agent大规模普及的关键

教程企业AI操作系统“灵基”来了，金蝶要引领企业进入AI原生时代

💬评论区

全部评论

发表评论

相关推荐

评论区