深度学习和机器视觉分析.docx

基本信息

文件名称：深度学习和机器视觉分析.docx

文件大小：1.85 MB

总页数：8 页

更新时间：2025-03-29

总字数：约2.94千字

文档摘要

一、深度学习：理论和关注机制的进展（YoshuaBengio）

顾名思义，Bengio的talk主要讲了两个部分：理论进展和attentionmechanism。理论进展介绍了：

分布式表示的“指数级”优点

深度的“指数级”优点

非凸优化和局部最小值

自编码器的概率解释

Attention机制则介绍了在机器翻译、语音、图像、视频和记忆单元中的应用。

分布式表示和深度的优点Bengio，简单的说，虽然类似localpartition的方法可以得到有用的表示，浅层（2层）的神经网络也可近似任意的函数，但是分布式表示和深度的引入可以使特征表示和模型变得更加紧凑（compact），达到exponentiallymorestatisticallyefficient的效果。

接下来提到了在深度学习中凸性质（convexity）可能并不是必要的。因为在高维空间中，鞍点（saddlepoint）的存在是主要问题，而局部最小值通常都会很接近全局最小值了。这部分的内容比较陌生，有兴趣可以看看最近的论文。

Attention机制方面，讲了很多最新的进展。有很多相关的paper都非常有趣，我要找个时间好好看看这个系列了。一个基本的思路是：我们给每一层引入一个额外的输入，这个输入反应的是之前的一个加权，来表示它们的关注程度。在所谓的soft-attention中，这个加权的值可以直接通过BP训练得到。

二、深度语义学习（XiaodongHe）

来自微软研究院的报告，主要内容：

学习文本的语义性（semantic）表示

知识库和问答系统

多模态（图片——文本）语义模型

讲座开始引入了一点有趣的motivation：一般我们测试机器是否能够理解图片（其实就是训练对了），方法是给图片标记标签然后计算其错误率。然而对于含有丰富内容的复杂场景来说，很难定义所有fine-grained的类别。因此，用自然语言的描述来测试对图片的理解是比较好的方式。

从Word2Vec到Sent2Vec：DeepStructuredSemanticModel(DSSM)，虽然我们不知道该如何标记一个句子的语义，但我们知道哪些句子的语义是比较接近的，因此文章通过优化一个基于相似性的目标函数来训练模型，使具有相近语义的句子产生距离相近的向量。接着还介绍了很多模型的细节和变种（卷积DSSM、递归DSSM），在此就不赘述了。

DeepMultimodalSimilarityModel(DMSM)：将目标函数中两个句子的相似性改成句子和图片的相似性，便可以将DSSM扩展为一个多模态的模型。

MSR系统解决图片–语言问题：

图片词语检测（Imageworddetection）

句子生成（Languagegeneration）

全局语义性重排序（Globalsemanticre-ranking）

其中图片词语检测用了CNN＋MIL（MultipleInstanceLearning）的方法，个人对此比较感兴趣，文章在此。

三、深度神经网络和GPU（JulieBernauer）

换个口味，我们来看看NVIDIA关于深度学习和GPU的结合。总的来说，内容上跟NVIDIA官网上介绍深度学习的slides没什么不同。主要介绍了GPU有什么好处、GPU有多牛，还有一些支持GPU的库和工具。

一张比较好的图：

有用的工具：

Lasagne：基于theano上的开源库，能方便搭建一个深度网络。（Keras用得不太爽，可以试试这个）

四、深度视觉Keynote（RahulSukthankar）

来看看来自google的报告。这个talk里面的内容都不太熟悉，但是看起来都非常有意思。主要内容有：

用PeerPresssure方法来找highvaluemistake

结合深度学习和其他机器学习方法来更好解决视觉问题

首先来看看PeerPressure。这是Rahul组最近的一个工作：TheVirtuesofPeerPressure:ASimpleMethodforDiscoveringHigh-ValueMistakes。所谓“high-valuemistake”，指的是那些我们认为训练好的模型可以准确预测的样本，结果它却“犯傻”了。因此这些样本也叫做“hardpositive”，难以答对的样子。

从头说起，深度神经网络虽然有很多成功的应用，但同时也被发现很容易犯愚蠢的错误（比如上述的high-valuemistake）。因此作者提出了PeerPressure：集成＋对抗训练（emsembles＋adversarialtraining）的方法，来找到这些错误。简单来说就是，有一组训练于同样数据但是初始化或者结构不同的