李宏毅BERT笔记

fxjwind / 2023-05-03 / 原文

Self-supervised是LeCun提出的

常用于NLP，一段文字分成两部分，用第一部分来预测第二部分

BERT有两种训练的方式，

第一种是Masking Input，可以用特殊的MASK token或是Random token来替换原有的，经过BERT模型后，输出为原先的token

第二组是判断两段文字是否相接的，但是后来验证这种训练的方法不是很有效

所以BERT的主要的方式，是完形填空

BERT的架构很像Transformer的Encoder，

所以Pre-train的model无法直接使用，需要加外挂，进行Fine-tune才能用于Downstream Tasks，注意BERT fine-tune的时候是要更新参数的

GPT模型，更像decoder，更适合于生成任务，但GPT使用中，使用的in-context learning是不会改变模型参数的

用于验证BERT这样模型的标准叫GLUE

看下如何Fine tune BERT来生成可使用的模型

BERT的Pre-train是self-supervised学习，但是fine-tune是supervised学习，需要大量的训练集的

第一个例子是，情感分析

这里注意，BERT的参数是在Pre-train时init的，而Linear是随机init的

Fine-tune的时候，Linear和BERT的参数都是要进行调整的

第二个例子比较简单，n to n

第三个例子，NLI，一个前提，一个假设，判断是否符合

第四个例子比较复杂，QA

给出Document和Query，输出答案的index

李宏毅BERT笔记更多相关文章

Redis持久化机制（面试考点）与位图API

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

什么是IT技术

即将到来！

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

ubuntu 24.04 部署 mysql 8.4.3 LTS

随机推荐

step7 V5.x上的SCL

yolo --- 核心思想

【游记】CCPC 济南 2024 游记

AJAX & AXIOS-2024/11/1

验证码处理在自动化测试中的应用

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

Java，启动！

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现

python bytecode解析

09-XSS键盘监听、cookie窃取&文件上传绕过

ubuntu 24.04 部署 mysql 8.4.3 LTS

国标GB28181公网平台LiteGBS国标GB28181视频平台建筑工地无线视频联网监控系统方案

imes完工下线

李宏毅BERT笔记

李宏毅BERT笔记更多相关文章

随机推荐

热门话题