基本信息
文件名称:003-精读2017年KDD最佳应用数据科学论文【萌萌家】.pdf
文件大小:695.99 KB
总页数:6 页
更新时间:2025-03-14
总字数:约4.65千字
文档摘要

003|精读2017年KDD最佳应用数据科学论文

2017-11-01洪亮劼来自北京

《AI技术内参》

周一我们讲了2017年KDD最佳研究论文,今天我们继续来聊今年的KDD最佳应用数据科

学论文。

与研究类论文不同的是,KDD的应用类学术论文更加强调论文所描述的方法或者系统在实际

应用中发挥的作用。比如,很多论文都是对现有的已部署的系统进行总结,对工业界的很多研

究人员和工程师往往都有不小的借鉴意义。和研究类论文一样,从阅读经典文献和学习最新研

究成果的角度,我们都应该认真分析和探讨每年的最佳应用类论文。

2017年KDD最佳应用数据科学论文题目是,《HinDroid:基于结构性异构信息网络的智能

安卓恶意软件检测系统》(HinDroid:AnIntelligentAndroidMalwareDetectionSystem

BasedonStructuredHeterogeneousInformationNetwork)。可以说2017年是信息安

全备受关注的一年,2016年美国大选过程中传出了种种关于俄罗斯利用黑客入侵大选候选人

的新闻,让整个社会对信息安全的话题变得异常敏感。这是一篇有关如何智能地分析安卓恶意

软件的论文,真是非常应景。

作者群信息介绍

文章的第一作者和第二作者都来自西弗吉尼亚大学(WestVirginiaUniversity)的计算机科

学与电气工程系。第一作者ShifuHou是该系的博士生,先后发表过多篇论文。第二作者叶

艳芳(YanfangYe)是该系的助理教授。叶艳芳2010年从厦门大学博士毕业,先后在金山公

司和科摩多(ComodoSecuritySolutions)从事信息安全方面的研究和开发工作。2013

年,她加入西弗吉尼亚大学任教。这篇KDD论文因为第一作者也是在读学生,因此也是最佳

学生论文。

第三作者宋阳秋(YangqiuSong)是来自香港科技大学的计算机系助理教授。宋阳秋有丰富

的学术和工业界经历。2016年加入香港科技大学,在这之前曾经在西弗吉尼亚大学任教。

2012年到2015年之间他曾在伊利诺伊大学香槟分校、香港科技大学、华为诺亚方舟实验室

等地访问。2009年到2012年曾在微软亚洲研究院和IBM研究院工作。2009年于清华大学

博士毕业。

最后一位作者是土耳其企业家米勒夫·阿杜勒哈尤格鲁(MelihAbdulhayo?lu)。他是科摩多

(Comodo)的CEO,于1998年创立了公司。这篇论文挂了他的名字是因为使用了科摩多

的数据。

论文的主要贡献

我们首先来看一下这篇文章的主要贡献。类似地,按照我们周一分析最佳研究论文的思路,首

先必需弄明白,这篇文章主要解决了什么场景下的问题。

这篇文章希望解决的问题描述起来很直观,那就是如何有效地监测安卓手机系统下的恶意软

件。经预测,到2019年,全球的手机市场中,77.7%将是智能手机,这里面安卓系统的市场

占有率至少是80%。由于安卓系统的开放性以及分散的各类安卓手机软件市场,对安卓软件

进行监控和分析存在很大难度。各类恶意软件在安卓生态系统中可以说层出不穷,比如

Geinimi、DroidKungfu以及Lotoor等等。更悲观的统计来自赛门铁克(Symantec)的

《互联网安全威胁报告》,认为五分之一的安卓软件是恶意软件。

之前很多恶意软件的分析和检测都是基于某种“指纹签字”技术,然而这种技术常常被恶意软

件开发者的新手段绕过。因此,寻找更加复杂有效的检测方式就成了各种信息安全公司所追逐

的目标。

这篇论文的主要贡献是根据安卓的API,提出了一种新的基于结构性异构信息网络的方法,来

对安卓程序的API模式进行更加复杂的建模,从而能够理解整个安卓程序的语义。作者们还

采用了多核学习(Multi-KernelLearning)的方法,在结构性异构信息网络的基础上对程序

语义模式进行分类。

最后,文章提出的方法在科摩多的真实数据上达到了非常高的准确度,远远优于现在的一些主

流方法。并且,科摩多已经在产品中部署了这个方法。

论文的核心方法

了解了这篇文章的目的和贡献,接下来,我就来剖析一下作者们提出的方法。

首先,需要将安卓的程序代码转换为可以分析的形式。一般来说,安卓的软件被打包为后缀名

为Dex的Dalivik执行文件,这个执行文件无法被直接分析。于是,需要把这个执行文件通

过一个叫Smali的反汇编器解析成Smali代码。这个时候,软件的语义