当前位置: 首页 > news >正文

【推荐算法】单目标精排模型——DIN

key word: 阿里巴巴广告推荐

Motivation: 传统的Embedding&MLP算法会在用户的不同兴趣上产生瓶颈,这些算法是通过模型输出的用户不同行为序列的特征向量,做一个池化操作最后预测点击率,这种固定的特征往往不能够反应用户不同的兴趣特征,池化操作会损失特征信息。例如在广告推荐系统中:一名游泳运动员会点击推荐的护目镜,主要是因为他买了泳衣,而不是他上周购物清单上的鞋子。因此在这篇文章中,提出了自适应计算用户的兴趣Embedding。

code:zhougr1993/DeepInterestNetwork

文章目录

      • 一、历史发展
      • 二、创新点
      • 三、DIN模型
        • Local activation unit
        • Mini-batch Aware Regularization
        • Data Adaptive Activation Function

一、历史发展

作为初学者(笔者),对一个领域发展的了解的很重要的。这篇论文对模型自动化提取特征的发展进行了介绍,笔者也对其作一个学习过程记录

  • LP-PLM & FM

这两种算法可以被看作是只包含了一层隐藏层的的网络,是首次采用embedding layer对稀疏输入进行变换的模型,旨在捕捉特征之间的联系。

  • Deep Crossing & Wide&Deep & YouTube Recommendation CTR model

通过复杂的MLP网络替换掉FM,LP-PLM的转换函数

  • PNN

实现高阶的特征交互

  • DeepFM

采用FM替换 Wide&Deep的 Wide 部分,从而不需要人工的选择稀疏向量

​ 以上推荐模型,都可以被称为:Embedding&MLP,这类推荐模型的特征处理模式一致:通过用户不同的行为序列特征向量,对不同的行为序列特征向量做一个池化操作,最后预测点击率,池化操作会丢失不同特征的信息,无法处理同一用户的不同兴趣。一般模型的架构如图所示:

image

  • Embedding Layer

embedding层的本质就是训练得到一个输入向量表达矩阵 D × K D \times K D×K,其中 D D D表示embedding层的维度, K K K表示输入的id个数,进入embedding层后根据id值的索引输出embedding向量;因此one-hot编码只有一个向量输出,而multi-hot编码有多个Embedding向量输出

学习参考链接:【词向量表示】Word2Vec原理及实现-CSDN博客

  • Pooling Layer

由于物品的multi向量的“1”个数的不同,导致embedding的向量输出个数不同,对于用户的行为序列的特征,最后进行池化操作。

【弊端】:这种池化操作会导致用户的兴趣向量是对于不同的广告来说都是一样的,无法反映出面对不同广告的兴趣。

  • Loss

交叉熵损失

二、创新点

Local activation unit:解决对于不同广告用户的向量不变的问题;

Mini-batch Aware Regularization:解决 l 2 l_2 l2正则化导致的计算量上涨的问题;

Data Adaptive Activation Function:调整激活函数自适应不同输入的分布;

三、DIN模型

image

Local activation unit

该激活单元仅用在了用户行为序列的特征上,通过给定的候选广告和历史行为序列,自适应计算用户的Embedding表征

  • 实现方式

V U ( A ) = f ( v A , e 1 , e 2 , . . . , e H ) = ∑ j = 1 H a ( e j , v a ) e j = ∑ j = 1 H w j e j V_U(A)= f(v_A,e_1,e_2,...,e_H) = \sum_{j=1}^H a(e_j,v_a)e_j= \sum_{j=1}^Hw_je_j VU(A)=f(vA,e1,e2,...,eH)=j=1Ha(ej,va)ej=j=1Hwjej

其中, w j w_j wj是通过计算候选广告 v a v_a va与用户行为向量 e j e_j ej通过前馈网络 a ( ⋅ ) a(·) a()得到的激活权重

  • NMT的区别

NMT在输出时进行了softmax归一化,而该篇文章并没有使用归一化操作,这是由于输出的分数认为是用户对于物品的兴趣程度,而归一化的结果只能比较广告和用户行为序列的相对关系,而不能表示绝对强度。

一个用户只有 30% 衣服、70% 电子,另一个用户的行为序列是 10% 衣服、90% 电子,归一化的结果是一样,归一化后无法表现出第二个用户更喜欢电子。

Mini-batch Aware Regularization

在SGD优化器下,只需要更新与当前 mini-batch非零稀疏特征相关的模型参数。但是一旦加入 l 2 l_2 l2正则化,所有的参数都需要被计算,导致大量的参数计算。这是由于加入了正则化后,每一个参数都需要增加一个损失惩罚项 λ 2 ∣ ∣ θ ∣ ∣ 2 \frac{\lambda}{2}||\theta||^2 2λ∣∣θ2,每一个参数都要计算。为此,提出一种新的正则化方式,只需要对稀疏特征进行惩罚,无需对所有参数计算。

Data Adaptive Activation Function
  • PReLU

dead ReLUReLU激活函数在训练过程中,负值的神经元永久性死亡

Leaky ReLU:输入为负数时,采用固定斜率而不是永远为0

PReLU是一种可学习的激活函数,设计目的是为了解决 ReLU 激活函数的一些局限性,尤其是输入分布不同或存在 dead ReLU 问题时的表现。通过 α \alpha α对负值动态调整,使得负值输入也能产生小的激活输出,从而避免死神经元问题,比Leaky ReLU更加灵活

​ 数学定义:
f ( s ) = { s , s > 0 α s , s ≤ 0 f(s) = \begin{cases} s,\,\,s>0\\ \alpha s,\,\,s\le0\\ \end{cases} f(s)={s,s>0αs,s0
​ 进一步可以写为:
f ( s ) = p ( s ) ⋅ s + ( 1 − p ( s ) ) ⋅ α s , p ( s ) = I f(s)=p(s)·s+(1-p(s))· \alpha s, p(s)=I f(s)=p(s)s+(1p(s))αs,p(s)=I
​ 该篇文章对 p ( s ) p(s) p(s)进行了修正,指出PReLU的零值时一个硬分割点,不适合不同分布的输入,因此,将 p ( s ) p(s) p(s)修改,最终得到DICE激活函数:
f ( s ) = p ( s ) ⋅ s + ( 1 − p ( s ) ) ⋅ α s , p ( s ) = 1 1 + e x p ( − s − E ( s ) v a r ( s ) + ξ ) 1 2 f(s)=p(s)·s+(1-p(s))· \alpha s, p(s)=\frac{1}{1+exp(-\frac{s-E(s)}{{var(s)+\xi}})^{\frac{1}{2}}} f(s)=p(s)s+(1p(s))αs,p(s)=1+exp(var(s)+ξsE(s))211
image


http://www.mrgr.cn/news/79676.html

相关文章:

  • 阿里云ack部署rabbitmq集群
  • 【sgUploadList】自定义组件:基于elementUI的el-upload封装的上传列表组件,适用于上传附件时
  • 第4章:颜色和背景 --[CSS零基础入门]
  • unity中的UI介绍
  • 外包干了5天,技术明显退步。。。。。
  • 《蓝桥杯比赛规划》
  • unity 2D像素种田游戏学习记录(自用)
  • LearnOpenGL学习(高级OpenGL --> 帧缓冲,立方体贴图,高级数据)
  • kubeadm安装K8s集群之基础环境配置
  • VCU——matlab/simulink软件建模
  • ubuntu22.04 使用可以用的镜像源获取你要的镜像
  • Redisson分布式锁
  • Win10环境vscode+latex+中文快速配置
  • Java-JMX 组件架构即详解
  • Oracle DataGuard启动与关闭顺序
  • spring 源码分析
  • SQL语句在MySQL中如何执行
  • Linux Vi/Vim使用 ⑥
  • AKE 安全模型:CK, CK+, eCK
  • 计算机网络原理之HTTP与HTTPS