【multimedia】多媒体应用四大关键技术与深度学习
五、深度学习与重要模型
NNet到LeNet
Convolution:局部结构模板和图像区块匹配,提取结构相似的区域。
Activation function:给模型引入非线性,提高深度网络的表现力。激活函数要求单调、可微。通常在卷积层之后接激活。
Pooling:基于局部相关性原理进行下采样,减少数据量,保留有用信息,降低过拟合。平均震动不变性,屏蔽高通分量,提高鲁棒性。
以上三种操作把原始数据映射到隐层特征空间,而
FullConnecting:把学到的特征表示映射到样本标记空间,结合Softmax损失函数实现分类。因为FC会把feature map展开为向量,因此要求原始输入图像固定大小。
AlexNet
数据增强:。
Dropout:让数据学那些需要的特征。Dropout不影响model大小。
BatchNormalization:正则化。
ReLU
VGGNet:
八、模型可视化
背景:有的论文提出自己主观的tricks,特别设计了神经网络的结构,提出如何如何做便能够融入某些特征,但是这只是主观的认为,卷积核究竟学到了什么,并不知道,那么这些tricks便不可靠。卷积核有没有真的学到自己想让它学的特征,可以通过控制变量法来验证,但是如今神经网络规模庞大,控制变量法操作起来工作量也十分庞大,因此可以通过CNN可视化来展示。
主要有以下五大方法
可视化特征图、可视化卷积核、可视化特征空间、Network Dissection、概念解释
8.1 可视化特征图
8.1.1 直接可视化特征图,就把提取出的feature map进行可视化
8.1.2 ClassActivation Map CAM, Grad-CAM, Grad-CAM++
8.1.3 Gradient-free CAM
8.1.4 特征反演
8.2 可视化卷积核
8.2.1 直接可视化 First Layer
8.2.2 最大化激活 All Layer
8.3 可视化特征空间
临近法观察
8.5 概念解释
8.5.1 概念激活向量测试 TCAV
8.5.2 自动概念解释ACE