【multimedia】多媒体应用四大关键技术与深度学习

Viktor Cullen / 2023-05-15 / 原文

五、深度学习与重要模型

NNet到LeNet

Convolution:局部结构模板和图像区块匹配,提取结构相似的区域。

Activation function:给模型引入非线性,提高深度网络的表现力。激活函数要求单调、可微。通常在卷积层之后接激活。

Pooling:基于局部相关性原理进行下采样,减少数据量,保留有用信息,降低过拟合。平均震动不变性,屏蔽高通分量,提高鲁棒性。

以上三种操作把原始数据映射到隐层特征空间,而

FullConnecting:把学到的特征表示映射到样本标记空间,结合Softmax损失函数实现分类。因为FC会把feature map展开为向量,因此要求原始输入图像固定大小。

AlexNet

数据增强:。

Dropout:让数据学那些需要的特征。Dropout不影响model大小。

BatchNormalization:正则化。

ReLU

VGGNet:

八、模型可视化

背景:有的论文提出自己主观的tricks,特别设计了神经网络的结构,提出如何如何做便能够融入某些特征,但是这只是主观的认为,卷积核究竟学到了什么,并不知道,那么这些tricks便不可靠。卷积核有没有真的学到自己想让它学的特征,可以通过控制变量法来验证,但是如今神经网络规模庞大,控制变量法操作起来工作量也十分庞大,因此可以通过CNN可视化来展示。

主要有以下五大方法

可视化特征图、可视化卷积核、可视化特征空间、Network Dissection、概念解释

8.1 可视化特征图

8.1.1 直接可视化特征图,就把提取出的feature map进行可视化

8.1.2 ClassActivation Map CAM, Grad-CAM, Grad-CAM++

8.1.3 Gradient-free CAM

8.1.4 特征反演

8.2 可视化卷积核

8.2.1 直接可视化 First Layer

8.2.2 最大化激活 All Layer

8.3 可视化特征空间

临近法观察

8.5 概念解释

8.5.1 概念激活向量测试 TCAV

8.5.2 自动概念解释ACE