AI 大模型(LLM)掀起的吞噬生成式改造,正重塑各行各业 ,掀翻型起效果连咱们每天刷到的传统引荐体系也不破例。
传统引荐体系像一条多环节的引荐“流水线”(级联架构) ,简单导致算力糟蹋 、端到端模方针抵触,本钱限制了开展。双难要打破瓶颈,吞噬要害在于用 LLM 技能进行“一体化”重构 ,掀翻型起效果完成作用提高和本钱下降。传统
快手技能团队最新提出的引荐 「OneRec」 体系 ,正是端到端模这一思路的打破。它初次用端到端的本钱生成式 AI 架构 ,完全改造了引荐体系的双难全流程 ,在作用和本钱上完成了“既要又要” :
作用陡增 :有用核算量提高 10 倍!吞噬让强化学习技能在引荐场景真实“活”了起来,引荐更精准 。
本钱锐减:通过架构改造 ,练习和推理的算力使用率(MFU)别离飙升至 23.7% 和 28.8% ,运营本钱(OPEX)仅为传统计划的 10.6% !
现在 ,该体系已在快手 App / 快手极速版双端服务一切用户,接受约 25% 的 QPS(每秒恳求数量),带动 App 逗留时长提高 0.54%/1.24%,要害目标 7 日用户生命周期(LT7)明显增加,为引荐体系从传统 Pipeline 迈向端到端生成式架构供给了首个工业级可行计划。
完好技能陈述链接 :https://arxiv.org/abs/2506.13695。
(图: OneRec 体系概览)。
OneRec 根底模型分析 。
OneRec 选用端到端生成式架构 ,创始协同感知多模态分词器 :通过交融视频标题、图画等多维信息与用户行为 ,使用 RQ-Kmeans 分层生成语义 ID。其 Encoder-Decoder 结构将引荐转化为序列生成使命:
● Encoder 整合用户终身 / 短期行为序列完成多标准建模;
● MoE 增强的 Decoder 通过 Next Token Prediction 精准生成引荐成果 。
● 试验验证其遵从 Scaling Law—— 参数量增至 2.633B 时练习丢失明显下降 ,结合特征 / 码本 / 推理级优化,完成作用与算力的协同打破。
强化学习(RL)偏好对齐。
OneRec 打破传统引荐依靠前史曝光的限制,立异引进强化学习偏好对齐机制 。通过交融偏好奖赏(用户偏好)、格局奖赏(有用输出)及事务奖赏(工业需求)构建归纳奖赏体系,并使用个性化 P-Score 作为强化信号。选用改善的 ECPO 算法(严厉切断负优势梯度)提高练习稳定性,在快手场景中完成不丢失曝光量前提下明显提高用户时长