CAN: Feature Co-Action Network for Click-Through Rate Prediction
Weijie Bian, Kailun Wu, Lejian Ren, Qi Pi, Yujing Zhang, Can Xiao,Xiang-Rong Sheng, Yong-Nan Zhu, Zhangming Chan, Na Mou, Xinchen Luo, Shiming Xiang, Guorui Zhou, Xiaoqiang Zhu, Hongbo Deng
Alibaba Group, Chinese Academy of Sciences
https://dl.acm.org/doi/pdf/10.1145/3488560.3498435
特征交互在机器学习中是一种重要的任务,在点击率预估中非常有必要。近年来,深度神经网络可以从原始稀疏特征中自动学习隐含的非线性交互,因此在工业界点击率预估中广泛应用。
然而,深层神经网络学到的隐含特征交互无法完全保持原始以及经验特征交互的完备表示能力,无法保证没有损失。比如,学习特征A和特征B的简单组合方式为显式笛卡尔积时,所得到的新特征效果可以优于先前隐式特征交互模型,比如基于因子分解机的模型,及其变体模型。
这表明,在显式和隐式特征交互模型中仍然有比较大的差距。但是,学习所有显式特征交互表示需要很大的样本空间,比如需要N倍原始参数的空间,在大多数工业界应用中,N可能会特别大。
这篇文章中,作者们提出了一种协同作用网络,CAN,来近似显式结对特征交互,同时不引入过多额外的参数。更具体的,给定特征A和关联特征B,二者之间的交互可以通过学习两个参数集合来得到,其中一个是特征A的embedding,还有一个是特征B的多层感知机表示。
除此之外,当多层感知机只有一层并且只有一个输出时,因子分解机可以看做CAN单元的一种特例。
在公开和工业界数据集上的实验结果表明,CAN可以超越STOA点击率预估模型以及笛卡尔积方法。此外,CAN已经部署在阿里的战士广告系统中,CTR提升了12%,千次展示收益提升8%,商业价值层面提升巨大。
特征交互图示如下
这篇文章的主要贡献如下
几种相关工作简介如下
基于图的方法简介如下
基于fm的几种方法简介如下
基于分解机的几种方法简介如下
CAN与笛卡尔积网络结构对比如下
网络整体结构图示如下
CAN的数学表示及目标函数形式如下
组合独立图示如下
数据集信息简介如下
下面是数据集信息统计
参与对比的几种方法简介如下
实现细节简介如下
在数据集Amazon和taobao上,几种方法的效果对比如下
在数据集Avazu上,几种方法的效果对比如下
不同数据集上几种方法的auc和参数量对比如下
几种方法的参数量和auc效果对比如下
特定数据集上,几个组件的作用对比如下
为了在工业界应用,作者们采用了以下优化方法
线上广告系统带来的效果提升如下
代码地址
https://github.com/CAN-Paper/Co-Action-Network
我是分割线
您可能感兴趣
WSDM2022|阿里提出合约广告自适应统一分配框架AUAF(已开源)
ICDM2019|阿里提出大规模个性化分发实时平滑算法并用于合约展示广告
KDD2021|清华联合雅虎|斯坦福大学|纽约大学提出竞价隐藏算法MEOW
KDD2021|雅虎提出高效深层分布网络竞价策略用于一阶广告拍卖竞价隐藏
KDD2021|华为联合上交提出CTR预估数值特征embedding学习框架AutoDis(已开源)
KDD2021|腾讯联合中科院北航提出人群扩展算法MetaHeac并用于推荐和广告领域(已开源)
KDD2020|阿里提出多目标优化保量算法并用于优酷视频服务平台
KDD2020|腾讯联合中科大提出请求级别保量广告计划RAP
原文始发于微信公众号(机器学习blog):WSDM2022|阿里联合中科院提出特征协同作用网络CAN用于点击率预估(已开源)