手搓大模型Task02：从零预训练一个 tiny-llama

南风 / 2024-09-24 / 原文

前言

从零开始训练 tiny-llama。Llama3 相较于 llama2 在 model 层面上主要区别是全模型使用 GQA，在分词阶段使用的与 GPT 一致的 tiktoken。

源码地址：https://github.com/lixinjie97/tiny-universe/tree/main/02.TinyLlama

1.项目目录

注：一定要创建output文件夹，否则有错误。

训练命令：

python pretrain.py

2.训练

机器：4060ti

显存消耗：8G

训练时长：24h

训练过程：

3.总结

本实验采用了 tiny_story 数据集，使用的是已经分词好的样例数据，可以先体验 pretrain 与模型推理的过程，后面会更新数据分词教程。

手搓大模型Task02：从零预训练一个 tiny-llama更多相关文章

今日报告-66

设置Windows10暂停更新3000天

AQS公平锁的流程

AMD锐龙7 7800X3D网游专项测试：竟比i9-13900KS强了15%

常用总线技术基本参数对比

探索图像数据中的隐藏信息：语义实体识别和关系抽取的奇妙之旅

设置Chrome浏览器自动升级

JavaScript – 小技巧 Tips

postgresql在插入数据后怎么获取自增id

EF Core 的基本使用

error: failed to push some refs to 'https://github.com/*******/********.github.io.git'

欧拉降幂

编程语言能力对比

基于机器视觉的小车轨迹控制软件界面展示

随机推荐

yolo --- 核心思想

【游记】CCPC 济南 2024 游记

AJAX & AXIOS-2024/11/1

验证码处理在自动化测试中的应用

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

Java，启动！

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现

python bytecode解析

09-XSS键盘监听、cookie窃取&文件上传绕过

ubuntu 24.04 部署 mysql 8.4.3 LTS

国标GB28181公网平台LiteGBS国标GB28181视频平台建筑工地无线视频联网监控系统方案

imes完工下线

android 13 更改手机信号调整