AI-11. 优化算法

浪矢\n / 2023-08-04 / 原文

优化算法对于深度学习非常重要。一方面，训练复杂的深度学习模型可能需要数小时、几天甚至数周。优化算法的性能直接影响模型的训练效率。另一方面，了解不同优化算法的原则及其超参数的作用将使我们能够以有针对性的方式调整超参数，以提高深度学习模型的性能。

11.1. 优化和深度学习

对于深度学习问题，我们通常会先定义损失函数。一旦我们有了损失函数，我们就可以使用优化算法来尝试最小化损失。在优化中，损失函数通常被称为优化问题的目标函数。尽管优化提供了一种最大限度地减少深度学习损失函数的方法，但本质上，优化和深度学习的目标是根本不同的。前者主要关注的是最小化目标，后者则关注在给定有限数据量的情况下寻找合适的模型。

深度学习优化存在许多挑战。其中最令人烦恼的是局部最小值、鞍点和梯度消失。

局部最优：通过最终迭代获得的数值解可能仅使目标函数局部最优，而不是全局最优。只有一定程度的噪声可能会使参数跳出局部最小值。事实上，这是小批量随机梯度下降的有利特性之一。在这种情况下，小批量上梯度的自然变化能够将参数从局部极小值中跳出。

鞍点：鞍点（saddle point）是指函数的所有梯度都消失但既不是全局最小值也不是局部最小值的任何位置。

梯度消失：某些函数会出现梯度很小的情况，例如tanh(x)在x非常大时梯度非常小，

练习：

1考虑一个简单的MLP，它有一个隐藏层，比如，隐藏层中维度为d和一个输出。证明对于任何局部最小值，至少有！d！个等效方案。

2假设我们有一个对称随机矩阵M，其中条目Mij=Mji各自从某种概率分布pij中抽取。此外，假设pij(x)=pij(−x)，即分布是对称的（详情请参见 (Wigner, 1958)）。

证明特征值的分布也是对称的。也就是说，对于任何特征向量v，关联的特征值λ满足P(λ>0)=P(λ<0)的概率为P(λ>0)=P(λ<0)。为什么以上没有暗示P(λ>0)=0.5？

3假设你想在（真实的）鞍上平衡一个（真实的）球。为什么这很难？能利用这种效应来优化算法吗？

11.2. 凸性

凸集（convex set）是凸性的基础。简单地说，如果对于任何a,b∈X，连接a和b的线段也位于X中，则向量空间中的一个集合X是凸（convex）的。有了凸集可定义凸函数。

给定一个凸函数f，最有用的数学工具之一就是詹森不等式（Jensen’s inequality）。它是凸性定义的一种推广：换句话说，凸函数的期望不小于期望的凸函数。

凸函数还有很多很好的性质和定理，便于我们进行优化。

练习：

1假设我们想要通过绘制集合内点之间的所有直线并检查这些直线是否包含来验证集合的凸性。i.证明只检查边界上的点是充分的。ii.证明只检查集合的顶点是充分的。

2用p-范数表示半径为:math:r的球，证明Bp[r]:={x|x∈Rd and ‖x‖p≤r}，Bp[r]对于所有p≥1是凸的。

3已知凸函数f和g表明max(f,g)也是凸函数。证明min(f,g)是非凸的。

4证明Softmax函数的规范化是凸的，即f(x)=log⁡∑iexp⁡(xi)的凸性。

5证明线性子空间X={x|Wx=b}是凸集。

6证明在线性子空间b=0的情况下，对于矩阵M的投影ProjX可以写成MX。

7证明对于凸二次可微函数f，对于ξ∈[0,ϵ]，我们可以写成f(x+ϵ)=f(x)+ϵf′(x)+12ϵ2f″(x+ξ)。

8给定一个凸集X和两个向量x和y证明了投影不会增加距离，即‖x−y‖≥‖ProjX(x)−ProjX(y)‖。

AI-11. 优化算法更多相关文章

Redis持久化机制（面试考点）与位图API

爬虫--识别验证码

TZYLT's 2024CSP-S游记

「CSP2024」游记

js模拟构造函数的实现过程

命令拼接技巧

SD NAND 与 SPI NAND

C语言中的编译过程详解

step7 V5.x上的SCL

yolo --- 核心思想

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

什么是IT技术

即将到来！

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

ubuntu 24.04 部署 mysql 8.4.3 LTS

随机推荐

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

Java，启动！

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现

python bytecode解析

09-XSS键盘监听、cookie窃取&文件上传绕过

ubuntu 24.04 部署 mysql 8.4.3 LTS

国标GB28181公网平台LiteGBS国标GB28181视频平台建筑工地无线视频联网监控系统方案

imes完工下线

android 13 更改手机信号调整

BFS(Breath First Search 广度优先搜索)

Visual Studio Code（VSCode）中设置中文界面

影响黄金价格大幅波动的因素主要有哪些？

winform用Dev的TreeList滚动到指定节点的位置

Angular 18 上手开发

热门话题

Ethernaut Level 11: Elevator Attack and Blockchain Interaction

快速部署开源spug运维平台的Docker安装指南

驱动调试之printk的原理与使用

计算机思维模型及其应用

华为云发布代码大模型PanGu-Coder2，实现高效代码生成

Linux多硬盘数据存储和分区操作

构建高可用架构: 分层冗余与自动故障转移

LoRA：高效调参的大语言模型适应方法

《分布式系统的基本原理及互联网分层架构的本质》

Hadoop写流程解析

Java架构师的系统架构设计方法论中的规范要点

使用observeDOM解决BetterScroll插件在移动端无法滑动的问题

互联网一致性架构设计实践

高并发系统架构与水平扩展

混合应用的崛起：跨平台开发取代原生应用

穗舟网（www.seizhou.com）

本站除标明"本站原创"外所有文章版权归创作人所有，本站不承担任何法律责任和连带责任，如有冒犯请直接联系，我们将立即予以纠正并致歉。

Powered by WordPress · v1.0.0-alpha