作者:赵学敏 王莉峰 王流斌 孙振龙 严浩 靳志辉 王益
如果用户最近搜索了“红酒木瓜汤”,那么应该展示什么样的广告呢?从字面上理解,可能应该返回酒水或者水果类广告。可是你知道吗?“红酒木瓜汤”其实是一个民间丰胸秘方。如果机器能理解这个隐含语义,就能展示丰胸或者美容广告——这样点击率一定很高。在广告、搜索和推荐中,最重要的问题之一就是理解用户兴趣以及页面、广告、商品等的隐含语义。
让机器能自动学习和理解人类语言中近百万种语义,以及从海量用户行为数据中归纳用户兴趣,是一个已经持续了20年的研究方向,称为主题建模(Latent Topic Modeling)。目前业界的各种系统中最为突出的是Google Rephil,在Google AdSense广告系统中发挥了重要作用。
追随Google的脚步,腾讯SNG效果广告平台部(广点通)的同学们成功的研发了Peacock大规模主题模型机器学习系统,通过并行计算可以高效地对10亿x1亿级别的大规模矩阵进行分解,从而从海量样本数据中学习10万到100万量级的隐含语义。我们把Peacock系统应用到了腾讯业务中,包括文本语义理解、QQ群的推荐、用户商业兴趣挖掘、相似用户扩展、广告点击率转化率预估等,均取得了不错的效果。
在自然语言处理和信息检索中,我们常常会遇到如下问题:给定查询词,计算查询词和文档之间的相关性。比如表1给出了2个具体例子,此时我们需要计算短文本之间的相关性。常用的计算方法就是不考虑词的相对顺序,使用BOW(Bag-Of-Words)模型把文档表示为词向量,然后计算文本之间的相似度。如果直接采用文档中词的TF-IDF构建文档特征向量,通过计算查询词特征向量和文档特征向量的余弦夹角,我们会发现Q1与D1、D2都相关,而Q2与D1、D2都不相关。显然,这与人对自然语言的理解并不相符:Q1和D2比较相关,都关于“苹果”这种水果;而Q2和D1比较相关,都关于“苹果”公司。
表1 短文本相关性
之所以会出现这种差异,是因为上述文档特征向量构建方法没有“理解”文档的具体语义信息,单纯的将文档中的词表示为一个ID而已。通过主题模型,文档可以表示为一个隐含语义空间上的概率分布向量(主题向量),文档主题向量之间的余弦夹角就可以一定程度上反映文档间的语义相似度了。
图1 用户-物品矩阵
主题模型的另一个主要应用场景是推荐系统。不管是电商网站的商品推荐,还是各大视频网站的视频推荐等,都可以简化为如下问题:给定用户-物品矩阵(图1,矩阵中用户 u 和物品 i 对应的值表示 u 对 i 的偏好,根据用户行为数据,矩阵会得到部分“初始”值),如何“填满”矩阵中没有值的部分。
图2 物品聚类
在各种眼花缭乱的推荐算法中,直接利用用户-物品矩阵进行推荐是最有效的方式(没有长年的用户、物品内容分析技术积累也一样可以快速做出效果),而这其中的两类主要算法都与主题模型有关系:
图3 用户-物品矩阵分解
实际上,从以上的讨论中我们容易发现,当使用BOW模型处理文本,把文档数据表示成文档-词(Doc-Word)矩阵的时候,其表示结构和用户-物品(User-Item)矩阵结构是完全一致的。因此这两类数据可以使用同样的算法进行处理。使用隐含主题模型处理文档-词矩阵的时候,可以理解为把词聚类为主题,并计算各个文档和词聚类之间的权重。类似地,处理用户-物品矩阵的时候,可以理解为把物品聚类为主题,然后计算每个用户和各个聚类之间的权重。图2是这个过程的一个形象描述,而这个过程如图3所示,可以理解为把原始矩阵分解为两个较小的矩阵:左下的Topic-Item矩阵描述了物品聚类,每行一个主题(Topic)表示一个聚类;而右侧的User-Topic矩阵每一行为主题权重向量,表示每个用户和每个主题的紧密关系。
从上面两个小节我们已经看到,主题模型在互联网产业中具有非常重要的应用。而Peacock系统着手开发时(2012年11月),一些开源以及学术界的主题模型训练系统 [5,6,7,8] ,要么只能处理小规模的训练语料得到“小模型”,要么模型质量不佳。基于这种状况,我们设计并开发了Peacock系统(更多有关Peacock系统的设计哲学和开发进程,可以参考王益的博客 [3] 和图灵访谈文章 [4] )。Peacock是一个大规模主题模型训练系统,它既可以从数十亿的网络语料中学习出百万级别的隐含语义(主题),也可以对数十亿乘以几亿规模的矩阵进行“分解”。我们的工作总结成论文“Peacock: Learning Long-Tail Topic Features for Industrial Applications”发表在ACM Transaction on Intelligent System and Technology (2015) [15] 。
图4 Peacock文档语义推断系统Demo
图5 Peacock文档语义推断示例1:“苹果”
图6 Peacock文档语义推断示例2:“苹果 梨子”
图7 Peacock文档语义推断示例3:“苹果大尺度”
下面我们分别给定一些具体的例子,让大家对Peacock有一些直观上的认识:
图8 基于QQ-QQ群Peacock矩阵分解示例:炒股类主题
图9 基于QQ-QQ群Peacock矩阵分解示例:塔防三国游戏类主题
图10 基于QQ-QQ群Peacock矩阵分解示例:济南母婴类主题
通过一些具体的例子直观的介绍了主题模型之后,接下来第二章将主要从算法的角度来回答“什么是主题模型”这个问题,第三章介绍对主题模型并行化的一些思考以及Peacock的具体做法,最后第四章介绍主题模型在腾讯业务中的具体应用。
下面以文档建模为例,简单介绍一下主题模型。
主题模型一般包含了三个重要的过程:生成过程、训练过程以及在线推断。生成过程定义了模型的假设以及具体的物理含义,训练过程定义了怎样由训练数据学习得出模型,在线推断定义了怎样应用模型。下面分别进行简要介绍。
一般来说,主题模型是一种生成模型(生成模型可以直观的理解为给定模型,可以生成训练样本)。给定模型,其生成过程如图11:
图11 主题模型的生成过程 [9]
现实的情况是我们没有模型,只有海量的互联网文档数据,此时我们希望有机器学习算法可以自动的从训练文档数据中归纳出主题模型(如图12),即得到每个主题在词表上的具体分布。通常来说,训练过程还会得到一个副产品——每篇训练文档的主题向量。
图12 主题模型的训练过程 [9]
有了主题模型,给定新的文档,通过在线推断,我们就可以得到文档的主题向量(如图13)。图5、6、7给出了一些具体的例子。
图13 主题模型的在线推断
三个过程中,训练过程是难点,后文将进行重点介绍。
LDA(Latent Dirichlet Allocation) [10] 作为一种重要的主题模型,自发表以来就引起了学术界和产业界的极大关注,相关论文层出不穷。LDA的训练算法也多种多样,下面以吉布斯采样 [11,12] 为例,进行简要介绍。
图14 LDA训练过程
跳过复杂的数学推导,基于吉布斯采样的LDA训练过程如图14所示(每个词用 w 表示,每个词对应的主题用 z 表示,图中节点 z 的不同颜色表示不同的主题):
Step2中重新采样词 w 对应主题 z 时,采样公式为
/begin{equation}/label{eq:sampling}
/begin{aligned}
P(z=t|w,*) &= /frac{N^{/neg}_{wt} + /beta}{N^{/neg}_t + /beta V} /cdot /frac{N^{/neg}_{td} + /alpha_t}{L_d – 1 + /sum_t /alpha_t} //
&/propto /frac{N^{/neg}_{wt} + /beta}{N^{/neg}_t + /beta V} (N^{/neg}_{td} + /alpha_t) //
/end{aligned}
/end{equation}
其中$/alpha_t$和$/beta$是超参数,分别表示对$N_{td}$和$N_{wt}$中的频率计数进行概率平滑; V 为词表大小,$L_d$表示文档 d 长度,$N_{wt}$表示训练语料中主题 t 中词 w 的出现次数,$N_{t}$表示训练语料中主题 t 的出现次数,$N_{td}$表示文档 d 中主题 t 的出现次数,上角标$/neg$表示剔除当前采样词 w 的影响(比如$N^{/neg}_{td}$表示减去当前采样词对应的主题后,文档 d 中主题 t 的出现次数)。
图15 文档$d_1$中词 w 主题重新采样
事实上,以上对文档 d 中词w的主题z进行重新采样的公式有非常明确的物理意义,表示P(w|z)P(z|d),可以如图15直观的表示为一个“路径选择”的过程:
图16 单机版LDA训练过程
在训练模型时,为了包含尽可能多的隐含语义(主题)同时保证效果,通常会使用海量的训练语料。这些互联网原始文档语料经过切词、停用词过滤、文档过滤(长度)等预处理步骤后(通常会分块进行存储),就可以作为LDA训练器的输入了。图14描述的LDA训练过程,在更大范围的训练语料上来看,如图16所示:
基于吉布斯采样的LDA在线推断过程与训练过程(图14)类似:给定文档,采样更新其中每一个词 w 对应的主题 z (采样公式同上,采样过程中可以保持模型$N_{wt}$不变);重复上述过程,直到文档主题直方图$N_{td}$收敛,使用$/alpha_t$对其进行简单平滑即为文档主题向量。
从上一个小节的算法描述中,我们可以看到LDA 的训练算法貌似并不复杂,主要的工作就是在维护两个频率计数矩阵$N_{wt}$和$N_{td}$。然而在这个时代,我们要面对的是互联网的海量数据,想象一下,如果在图15中,左边的文档节点是十亿、中间的主题个数是百万、右边不同的词的个数也是百万,我们将需要处理一张多大的图!!!在实际应用中,我们希望使用更多的数据训练更大的模型,这包含了两重意思:
下面分别从数据并行和模型并行两个方面来介绍怎样解决上述两个问题。“数据并行”和“模型并行“是Google大神Jeff Dean在深度学习训练系统DistBelief [13] 中新提出的两个概念,尽管Peacock系统开发的时候,DistBelief还没有真正对外公布。随着深度学习的持续升温,大家现在已经逐渐熟悉了这两个形象的名词,此处请允许我们借用一下这两个概念。
“数据并行”通俗的理解:通过多任务(每个任务都包含一份完整的模型)并行的处理数据训练模型,任务之间的模型或同步或异步的进行融合。借用王益 [3] 的说法,“如果一个算法可以做数据并行,很可能就是可扩展的了”。幸运的是,David Newman团队发现基于吉布斯采样的LDA训练算法可以“数据并行”,并给这个算法取了一个名字叫AD-LDA [14] 。
注意,AD-LDA算法是吉布斯采样的近似算法,因为严格的吉布斯采样要求串行采样,不能并行。直观的理解就是语料中前一个词$w_1$采样更新后的$N_{wt}$和$N_t$应该应用于后一个词$w_2$的采样,而不是$w_1$和$w_2$的采样都基于相同状态的$N_{wt}$和$N_t$。AD-LDA算法会使得LDA的训练收敛速度变慢,但在多几轮迭代后,AD-LDA算法可以收敛到与串行吉布斯采样相同的点。
图17 AD-LDA算法
图17给出了AD-LDA算法的示意图:
AD-LDA算法的整个过程和MapReduce的执行过程非常一致,所以早期有非常多的团队使用MapReduce来实现AD-LDA算法 [5] :
因为MapReduce使用磁盘进行数据交换,同时整个训练任务需要调度几百个Jobs,所以基于MapReduce的AD-LDA实现是非常低效的。
上文提到,训练大模型时,$N_{wt}$太大而无法整体放入任务的内存,直观的解决方法如图18所示,将$N_{wt}$沿词的维度进行分片,每个采样任务只加载一个模型分片$N_{wt}^{(i)}$。相应的,语料数据块也需要做对应的词维度切分,因为单个任务 i 只能采样$N_{wt}^{(i)}$包含的词 w 。细心的童鞋可能已经发现,图18所示的模型并行方式在$N_{td}$上采用了类似AD-LDA算法的近似,$L N_{td}$间的融合与$L N_{wt}$间的融合类似,相应的算法也会减缓收敛(因为$N_{wt}$是所有训练语料上的聚合结果,而$N_{td}$只和具体文档 d 有关,后者变化比前者更加“快速”, $N_{td}$的并行近似采样更加“危险”,很容易造成训练不收敛)。
图18 模型并行1
有没有办法不进行$N_{td}$的并行近似采样,同时保持上述的模型切片方式呢?Peacock系统设计了图19所示的并行采样方式:加载了不同$N_{wt}^{(i)}$切片的任务并行的沿对角线方向对训练语料数据块 (W,T) 进行采样,一条对角线采样完成后,依次进行下一条对角线。这样在对同一个文档的不同数据块间的词进行采样时,仍然保持了“串行性”,应用了之前数据块中的词对$N_{td}$的更新。图19的模型并行采样方式收敛性同AD-LDA是一致的。
图19 模型并行2
为了“利用更多的数据训练更大的模型”,Peacock系统结合了上述的“数据并行”和“模型并行”(图20):
图20 Peacock中的数据并行和模型并行
同上一小节“模型并行”的分析类似,Peacock系统的采样方式收敛性同AD-LDA是一致的。Max Welling团队提出的Async-LDA [6] 证明了异步融合$L N_{wt}^i$方式的收敛性。当Peacock采用异步方式融合$L N_{wt}^i$时,相当于同时结合了AD-LDA和Async-LDA算法,实践证明收敛性是没有问题的。
当然,Peacock系统在具体实现上除了上述的主要设计思想,还有很多的实用技巧,比如:
在我们的论文 [15] 中,部分的解答了上述问题,更详细的Peacock解密请关注我们的博客“火光摇曳” [16] ^_^。
为了理解互联网上海量、多样化、非结构化的自然语言描述的文本,我们通常会从词法、句法、语义等维度进行分析。受限于文本字面信息量小,存在歧义现象,词法和句法分析容易遭遇 Vocabulary Gap的问题,从海量文本数据中归纳 “知识”,从语义角度帮助理解文本,是一种非常重要的途径。
图21 文本分析示例
例如,对于输入文本 “红酒木瓜汤效果怎么样?”,根据人的背景知识,很容易猜到这是一位女性用户在询问丰胸产品“红酒木瓜靓汤”的效果。对于机器而言,通常会先进行词法分析,对原始文本做切词、词性标注、命名实体识别等,然后使用词袋模型(Bag of Words,BOW)或提取关键词来表示文本。不难发现,从字面抽取的信息,很容易理解成“红酒”、“木瓜”等餐饮类语义,并非原始文本真实的意思。当然,我们可以对关键词做扩展,给出一些相似的词条,但是,更好的是直接理解语义。一种常见的方法是文本分类,由于对标注语料库的依赖,类别规模一般不会太大,粒度较粗。还有一种方法就是文本聚类,挖掘语义主题标签,更细粒度的理解文本意思,隐含语义分析技术逐渐发展成为常用的解决方案。能够从十亿级别的文档中归纳上百万语义的Peacock系统更是在腾讯广点通广告系统扮演着核心角色。这些不同维度的文本分析模块,包括词袋、关键词提取、关键词扩展、文本分类和Peacock等(图21),整合在一起构成了我们理解语言的基础文本分析平台TextMiner(图22)。
图22 文本分析平台TextMiner
4.1.1 文本分类器
文本分类是一个典型的有监督的机器学习任务,我们在做在线广告系统过程中遇到的任务就有许多,包括网页分类、广告分类、QQ群分类、用户兴趣分类等。在使用相同的标注数据集和机器学习算法情况下,如何找到有区分力的特征无疑是最为关键的。
以QQ群分类为例,使用群名称、群简介、群公告等文本描述,类别体系是二级层次结构,共100+节点,标注训练数据80,000。以BOW作为基础特征,新增Peacock主题特征后,一级行业准确率和召回率均有显著提升,达5%左右,二级行业在召回率降低不到1%的情况下,准确率提升达3.86%,达到了实际应用的需求。具体数据如图23所示。
图23 QQ群分类器效果
4.1.2 相关性计算
对给定的查询语句,搜索引擎会将检索到的网页进行排序,把相关性好的排在前面。同样的,在线广告系统应该保证展示给用户的广告与页面内容、用户兴趣相关,以尽量不影响用户体验。这里都涉及到一个共同的任务:排序学习。此问题通常被形式化为有监督的学习问题,我们会将查询、网页、用户、广告表示成语义特征向量,从而在语义空间里比较用户意图(查询、网页内容、用户历史行为)和网页、广告的相关性。
Peacock已成功应用在腾讯搜索广告和情境广告中,用于分析文本数据,归纳自然语言的语义,从而更好地匹配查询词和广告,以及页面内容和广告。在情境广告 Learning To Rank 相关性计算框架下,增加Peacock语义特征后,NDCG@5提升达8.92%,线上A/B Test实验 AdCTR 提升 8.82%。相关性评估效果图24所示。
图24 情境广告相关性(相关性标注样本包括4,000 查询,200,000对(查询, 广告),标注0~3四档打分)
广告点击率预估是预测给定场景下一个广告被点击的概率:P(click=1|ad,user,context),user表示当前用户,context表示当前的环境信息,譬如当前所在的网页。点击率预估是在线广告系统最核心的技术之一,它决定着广告的排序和计价。
业界一般做法是将广告展示、点击日志作为训练数据,抽取特征,通过机器学习方法拟合训练数据得到预估模型,进而做在线点击率预估。选取有效的特征对得到一个精准的点击率预估模型起着至关重要的作用。
Peacock是我们理解广告语义的关键技术,被引入到广告点击率预估模型中提升效果。具体的,与KDD Cup 2012 Track2的数据集产生过程类似,我们使用了腾讯情境广告系统的广告展示、点击日志,使用L1范数正则的逻辑回归训练预估模型,通过AUC评估模型精度。Baseline使用一些基础特征,优化实验分别在baseline特征集合的基础上引入主题规模为1000、10,000和100,000的Peacock Top-N语义特征。
图25 pCTR增加不同粒度topic特征模型AUC的提升
从图25可以看出,加入Peacock语义特征后AUC得到了显著提升,尤其当增加topic规模为100,000的Peacock语义特征时,AUC提升最大,约为1.8%,线上A/B Test实验AdCTR有8.82%的提升。
在腾讯效果广告平台广点通系统里,Peacock被用于理解用户行为数据,从中归纳用户兴趣,提供广告精准定向技术。
腾讯丰富的产品线拥有中国互联网公司最多的用户,有着海量、丰富的用户关系和行为数据,如QQ好友关系,QQ 群关系,电商浏览、交易,新闻浏览,查询 Query,UGC 内容(如微博、说说等),移动App 安装,微信公众号文章阅读和广告点击行为等。通过用户行为数据的挖掘可以帮助我们更好的了解用户,以推送精准的广告。而这些数据都可以形式化为用户-物品矩阵,如用户-用户、QQ-QQ群,用户-应用(Apps),用户-搜索词(或搜索Session),用户-URLs等。我们利用Peacock系统对上述用户-物品做矩阵分解(如图3),从不同数据来源,多视角理解用户兴趣,进而挖掘相似用户,提供给广告主丰富的定向策略,如用户商业兴趣定向、关键词定向和Look-Alike定向等。同时,获取到的用户特征,也可以作为广告CTR、CVR预估系统的重要特征。
图26 QQ群推荐
根据用户已加QQ群社交关系数据,利用Peacock对QQ-QQ群做矩阵分解,我们发现语义相近的QQ群被比较好的归到了相同的主题下,如图8、9、10所示。非常直观的,我们将Peacock 模型应用在QQ群消息面板推荐产品中(如图26),相比基于QQ好友关系链的推荐算法,推荐群的点击率和转化率(即点击后是否加入了该群)均有2~3倍的提升(图27)。
/begin{equation}/label{eq:resys}
P(QQGroup│user)=/sum_{topic} P(QQGroup|topic) /cdot P(topic|user)
/end{equation}
图27 QQ群推荐效果
LDA是一个简洁、优雅、实用的隐含主题模型,腾讯效果广告平台部(广点通)的工程师们为了应对互联网的大数据处理,开发了大规模隐含主题模型建模系统,并在腾讯的多个业务数据中得到了应用。本文由赵学敏、王莉峰、王流斌执笔,靳志辉、孙振龙等修订,相关工作由腾讯SNG效果广告平台部(广点通)质量研发中心Peacock团队王益、赵学敏、孙振龙、严浩、王莉峰、靳志辉、王流斌为主完成,苏州大学曾嘉教授、实习生高阳,香港科技大学杨强教授等持续大力支持,是多人合作的结果。