【multimedia】多媒体应用四大关键技术与深度学习

Viktor Cullen / 2023-05-15 / 原文

五、深度学习与重要模型

NNet到LeNet

Convolution：局部结构模板和图像区块匹配，提取结构相似的区域。

Activation function：给模型引入非线性，提高深度网络的表现力。激活函数要求单调、可微。通常在卷积层之后接激活。

Pooling：基于局部相关性原理进行下采样，减少数据量，保留有用信息，降低过拟合。平均震动不变性，屏蔽高通分量，提高鲁棒性。

以上三种操作把原始数据映射到隐层特征空间，而

FullConnecting：把学到的特征表示映射到样本标记空间，结合Softmax损失函数实现分类。因为FC会把feature map展开为向量，因此要求原始输入图像固定大小。

AlexNet

数据增强：。

Dropout：让数据学那些需要的特征。Dropout不影响model大小。

BatchNormalization：正则化。

ReLU

VGGNet：

八、模型可视化

背景：有的论文提出自己主观的tricks，特别设计了神经网络的结构，提出如何如何做便能够融入某些特征，但是这只是主观的认为，卷积核究竟学到了什么，并不知道，那么这些tricks便不可靠。卷积核有没有真的学到自己想让它学的特征，可以通过控制变量法来验证，但是如今神经网络规模庞大，控制变量法操作起来工作量也十分庞大，因此可以通过CNN可视化来展示。

主要有以下五大方法

可视化特征图、可视化卷积核、可视化特征空间、Network Dissection、概念解释

8.1 可视化特征图

8.1.1 直接可视化特征图，就把提取出的feature map进行可视化

8.1.2 ClassActivation Map CAM, Grad-CAM, Grad-CAM++

8.1.3 Gradient-free CAM

8.1.4 特征反演

8.2 可视化卷积核

8.2.1 直接可视化 First Layer

8.2.2 最大化激活 All Layer

8.3 可视化特征空间

临近法观察