003|精读2017年KDD最佳应用数据科学论文
2017-11-01洪亮劼来自北京
《AI技术内参》
周一我们讲了2017年KDD最佳研究论文,今天我们继续来聊今年的KDD最佳应用数据科
学论文。
与研究类论文不同的是,KDD的应用类学术论文更加强调论文所描述的方法或者系统在实际
应用中发挥的作用。比如,很多论文都是对现有的已部署的系统进行总结,对工业界的很多研
究人员和工程师往往都有不小的借鉴意义。和研究类论文一样,从阅读经典文献和学习最新研
究成果的角度,我们都应该认真分析和探讨每年的最佳应用类论文。
2017年KDD最佳应用数据科学论文题目是,《HinDroid:基于结构性异构信息网络的智能
安卓恶意软件检测系统》(HinDroid:AnIntelligentAndroidMalwareDetectionSystem
BasedonStructuredHeterogeneousInformationNetwork)。可以说2017年是信息安
全备受关注的一年,2016年美国大选过程中传出了种种关于俄罗斯利用黑客入侵大选候选人
的新闻,让整个社会对信息安全的话题变得异常敏感。这是一篇有关如何智能地分析安卓恶意
软件的论文,真是非常应景。
作者群信息介绍
文章的第一作者和第二作者都来自西弗吉尼亚大学(WestVirginiaUniversity)的计算机科
学与电气工程系。第一作者ShifuHou是该系的博士生,先后发表过多篇论文。第二作者叶
艳芳(YanfangYe)是该系的助理教授。叶艳芳2010年从厦门大学博士毕业,先后在金山公
司和科摩多(ComodoSecuritySolutions)从事信息安全方面的研究和开发工作。2013
年,她加入西弗吉尼亚大学任教。这篇KDD论文因为第一作者也是在读学生,因此也是最佳
学生论文。
第三作者宋阳秋(YangqiuSong)是来自香港科技大学的计算机系助理教授。宋阳秋有丰富
的学术和工业界经历。2016年加入香港科技大学,在这之前曾经在西弗吉尼亚大学任教。
2012年到2015年之间他曾在伊利诺伊大学香槟分校、香港科技大学、华为诺亚方舟实验室
等地访问。2009年到2012年曾在微软亚洲研究院和IBM研究院工作。2009年于清华大学
博士毕业。
最后一位作者是土耳其企业家米勒夫·阿杜勒哈尤格鲁(MelihAbdulhayo?lu)。他是科摩多
(Comodo)的CEO,于1998年创立了公司。这篇论文挂了他的名字是因为使用了科摩多
的数据。
论文的主要贡献
我们首先来看一下这篇文章的主要贡献。类似地,按照我们周一分析最佳研究论文的思路,首
先必需弄明白,这篇文章主要解决了什么场景下的问题。
这篇文章希望解决的问题描述起来很直观,那就是如何有效地监测安卓手机系统下的恶意软
件。经预测,到2019年,全球的手机市场中,77.7%将是智能手机,这里面安卓系统的市场
占有率至少是80%。由于安卓系统的开放性以及分散的各类安卓手机软件市场,对安卓软件
进行监控和分析存在很大难度。各类恶意软件在安卓生态系统中可以说层出不穷,比如
Geinimi、DroidKungfu以及Lotoor等等。更悲观的统计来自赛门铁克(Symantec)的
《互联网安全威胁报告》,认为五分之一的安卓软件是恶意软件。
之前很多恶意软件的分析和检测都是基于某种“指纹签字”技术,然而这种技术常常被恶意软
件开发者的新手段绕过。因此,寻找更加复杂有效的检测方式就成了各种信息安全公司所追逐
的目标。
这篇论文的主要贡献是根据安卓的API,提出了一种新的基于结构性异构信息网络的方法,来
对安卓程序的API模式进行更加复杂的建模,从而能够理解整个安卓程序的语义。作者们还
采用了多核学习(Multi-KernelLearning)的方法,在结构性异构信息网络的基础上对程序
语义模式进行分类。
最后,文章提出的方法在科摩多的真实数据上达到了非常高的准确度,远远优于现在的一些主
流方法。并且,科摩多已经在产品中部署了这个方法。
论文的核心方法
了解了这篇文章的目的和贡献,接下来,我就来剖析一下作者们提出的方法。
首先,需要将安卓的程序代码转换为可以分析的形式。一般来说,安卓的软件被打包为后缀名
为Dex的Dalivik执行文件,这个执行文件无法被直接分析。于是,需要把这个执行文件通
过一个叫Smali的反汇编器解析成Smali代码。这个时候,软件的语义