014|WSDM2018论文精读:看京东团队如何挖掘商品的替代信息
和互补信息
2018-02-21洪亮劼来自北京
《AI技术内参》
本周我们来精读WSDM的几篇论文,周一我们分享了一篇来自谷歌团队的文章,其核心是利
用点击模型来对位置偏差进行更加有效的估计,从而能够学习到更好的排序算法。
今天,我们来介绍WSDM2018的最佳学生论文《电子商务中可替代和互补产品的路径约束
框架》(APath-constrainedFrameworkforDiscriminatingSubstitutableand
ComplementaryProductsinE-commerce),这篇文章来自于京东的数据科学实验室。
作者群信息介绍
这篇论文的所有作者都来自京东大数据实验室,我们这里对几位主要作者做一个简单介绍。
第三作者任昭春(ZhaochunRen)目前在京东数据科学实验室担任高级研发经理。他于
2016年毕业于荷兰阿姆斯特丹大学,获得计算机博士学位,师从著名的信息检索权威马丁?德
里杰克(MaartendeRijke)。任昭春已经在多个国际会议和期刊上发表了多篇关于信息检
索、文字归纳总结、推荐系统等多方面的论文。
第四作者汤继良(JiliangTang)目前是密歇根州立大学的助理教授。汤继良于2015年从亚
利桑那州立大学毕业,获得计算机博士学位,师从著名的数据挖掘专家刘欢(HuanLiu)教
授。他于2016年加入密歇根州立大学,这之前是雅虎研究院的科学家。汤继良是最近数据挖
掘领域升起的一颗华人学术新星,目前他已经发表了70多篇论文,并且有四千多次的引用。
最后一位作者殷大伟(DaweiYin)目前是京东数据科学实验室的高级总监。2016年加入京
东,之前在雅虎研究院工作,历任研究科学家和高级经理等职务。殷大伟2013年从里海大学
(LehighUniversity)获得计算机博士学位,师从信息检索领域的专家戴维森(Davison)教
授。目前已经有很多高质量的研究工作发表。殷大伟和笔者是博士期间的实验室同学以及在雅
虎研究院期间的同事。
论文的主要贡献
我们首先来看一下这篇文章的主要贡献,梳理清楚文章主要解决了一个什么场景下的问题。
对于工业级商品推荐系统而言,一般通过两个步骤来产生推荐结果。第一步,产生候选集合,
这里主要是从海量的物品中选择出几百到几千款用户可能会购买的商品;第二步,利用复杂的
机器学习模型来对所有候选集中的产品进行排序。
这篇文章主要探讨了如何能够更好地产生候选集产品,即如何更好地产生“替代品”
(Substitutes)和“互补品”(Complements)来丰富用户的购买体验。
那么,什么是替代品和互补品呢?
根据这篇文章的定义,替代品就是用户觉得这些商品可以互相被替换的;而互补品则是用户会
一起购买的。挖掘这些商品不仅对于产生候选集具有很重要的意义,也对于某些场景下的推荐
结果有很好的帮助,比如当用户已经购买了某一件商品之后,给用户推荐其他的互补品。
虽然替代品和互补品对于互联网电商来说是很重要的推荐源,但并没有多少文献和已知方法来
对这两类商品进行有效挖掘。而且这里面一个很大的问题是数据的“稀缺”(Sparse)问题。
因为替代品或者互补品都牵扯至少两个商品,而对于巨型的商品库来说,绝大多数的商品都不
是两个商品一起被同时考虑和购买过,因此如何解决数据的稀缺问题是一大难点。
另一方面,商品的属性是复杂的。同一款商品有可能在某些情况下是替代品,而在另外的情况
下是互补品。因此,如何在一个复杂的用户行为链路中挖掘出商品的属性,就成为了一个难
题。很多传统方法都是静态地看待这个问题,并不能很好地挖掘出所有商品的潜力。
归纳起来,这篇文章有两个重要贡献。第一,作者们提出了一种“多关系”(Multi-
Relation)学习的框架来挖掘替代品和互补品。第二,为了解决数据的稀缺问题,两种“路径
约束”(PathConstraints)被用于区别替代品和互补品。作者们在实际的数据中验证了这
两个新想法的作用。
论文的核心方法
文章提出方法的第一步是通过关系来学习商品的表征(Representation)。这里文章并没有
要区分替代品和互补品。表征的学习主要是用一个类似Word2Vec的方式来达到的。
也就是说,商品之间如果有联系,不管是替代关系还是互补关系,都认为是正相关,而其他的
所有商品都认为是负相关。于是,我们就可以通过Word2Vec的思想来学习商品的表征向
量