深度学习及其视觉应用.ppt

资源描述

《深度学习及其视觉应用.ppt》由会员分享，可在线阅读，更多相关《深度学习及其视觉应用.ppt（51页珍藏版）》请在三一文库上搜索。

1、深度学习及其视觉应用,丁贵广，Guiguang Ding清华大学软件学院,深度学习及视觉应用,深度学习概述视觉应用,深度学习,神经网络是多层函数嵌套形成的模型,受到生物神经机制的启发构建多隐层的模型,深度学习,本质：通过构建多隐层的模型和海量训练数据（可为无标签数据），来学习更有用的特征，从而最终提升分类或预测的准确性。“深度模型”是手段，“特征学习”是目的。与浅层学习区别：1）强调了模型结构的深度，通常有5-10多层的隐层节点；2）明确突出了特征学习的重要性，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学

2、习特征，更能够刻画数据的丰富内在信息。,深度学习的里程碑,2006年，加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton在科学上发表论文提出深度学习主要观点：1）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；2）深度神经网络在训练上的难度，可以通过“逐层初始化”（layer-wise pre-training）来有效克服，逐层初始化可通过无监督学习实现的。,Deep Learning的效果,CNN,卷积神经网络（Convolutional Neural Networks, CNN）,深度学习的具体模型及方法,深度学习

3、的具体模型及方法,卷积波尔兹曼机（Convolutional RBM）局部感受权值共享,减少参数的方法：每个神经元无需对全局图像做感受，只需感受局部区域（Feature Map），在高层会将这些感受不同局部的神经元综合起来获得全局信息。每个神经元参数设为相同，即权值共享，也即每个神经元用同一个卷积核去卷积图像。,深度学习的具体模型及方法,卷积波尔兹曼机（Convolutional RBM）隐层神经元数量的确定,神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。例如，输入图像是1000 x1000像素，滤波器大小是10 x10，假设滤波器间没有重叠，即步长为10，这样隐层的神经元个数就

4、是(1000 x1000 )/ (10 x10)=10000个,深度学习的具体模型及方法,卷积波尔兹曼机（Convolutional RBM）多滤波器情形,不同的颜色表示不同种类的滤波器,每层隐层神经元的个数按滤波器种类的数量翻倍每层隐层参数个数仅与滤波器大小、滤波器种类的多少有关例如：隐含层的每个神经元都连接10 x10像素图像区域，同时有100种卷积核（滤波器）。则参数总个数为：（10 x10+1）x100=10100个,深度学习的具体模型及方法,卷积波尔兹曼机（Convolutional RBM）,CNN的关键技术：局部感受野、权值共享、时间或空间子采样CNN的优点：1、避免了显式的特征

5、抽取，而隐式地从训练数据中进行学习；2、同一特征映射面上的神经元权值相同，从而网络可以并行学习，降低了网络的复杂性；3、采用时间或者空间的子采样结构，可以获得某种程度的位移、尺度、形变鲁棒性；3、输入信息和网络拓扑结构能很好的吻合，在语音识别和图像处理方面有着独特优势。,对象识别CNN,5个卷积层和2个全连接层每层卷积核个数96,256,384,384,256,监督学习卷积神经网络,96个低级卷积核,监督学习卷积神经网络,网络庞大，但容易收敛唯一不需要特定初始化参数就可以训练成功比较容易并行化训练，并且可以利用GPU加速在计算机视觉（CV）领域取得成功,深度学习及视觉应用,深度学习概述深度视觉

6、应用,ClassificationDetectionSegmentation,Image Captioning & Image Generator,Image Captioning,Image Generator,CNN Model,Convolutional Neural Network Based on Caffe FrameworkBasic ModelZFNetVGGNetGoogleNetResNetDenseNetSqueezeNet,Classification,Object Detection,模型：R-CNN,Fast R-CNN, Faster R-CNN, YOL

7、O, SSD等知名框架精度：PASCAL VOC上的mAP，从R-CNN的53.3%，Fast RCNN的68.4%，Faster R-CNN的75.9%，Faster RCNN结合残差网（Resnet-101），达到83.8%速度：从最初的RCNN模型，处理一张图片要用2秒多，到Faster RCNN的198毫秒/张，再到YOLO的155帧/秒，最后出来了精度和速度都较高的SSD，精度75.1%，速度23帧/秒,Object Detection: R-CNN(2013),Object Detection: Fast R-CNN(2015),Results,Faster R-CNN,Faste

8、r R-CNN,Faster RCNN 物体检测系统,Problem： Small Object Detection,Object Recognition,Person and Car Detection Based on Faster R-CNN,Input,conv3,conv4,conv5,fc6,pooling,normalize,concatenate,convolute,IRNN,Context Information,Skip Layer Pooling,Improvement Based on Faster R-CNN,Improvement Based on Faster R

9、-CNN,扩大输入图像分辨率修改Anchor的长宽比Hard Negative Sample Mining。,Some Results,Some Results,VOC Object Detection Task,Some Results,Pedestrian Detection & Tracking,Car Detection & Tracking,Detection and Classification,Detection and Classification,行人检索与属性识别,监控视频分析原型系统系统演示,监控视频中的汽车分类,Face Detection&Re

10、cognition,Segmentation,Fully Convolutional Networks,Fully Convolutional Networks,Semantic Segmentation,检测与分割,语义分割,Image Captioning,Image Captioning,the big ben clock tower towering over the city of London,Based Structure - NIC,Encoder-decoder model NIC(Neural Image Caption) model CNN:encode the imag

11、e for sentencesLSTM:decode the image vector to a sentence,Model,GAN及Reinforcement Learning,生成器网络编码器-解码器结构NIC模型为图像生成描述解码器网络分类网络分辨句子是真实数据还是生成的有多种结构可以选择Gated-CNNText-CNN基准值网络（MLP）优化分布；减少策略梯度过程中估计的方差,Experiments,Dataset MS COCO123,287 images labeled with at least 5 captionsFollowing the evaluation API provided by the MS COCO serverThe beam size K used in the beam search is set to 10,Case Study,Image Captioning,Thanks！,

展开阅读全文