大模型训练数据统计+探索如何创建自己的数据集

不积跬步无以至千里 / 2023-05-09 / 原文

羊驼数据集52k,基于llama模型训练

此数据集是是使用llama模型自己生成数据,然后对这些生成进行过滤,以删除低质量或类似的生成,并将生成的数据添加回任务池。这个过程可以重复多次,从而产生大量的教学数据,这些数据可以用来微调语言模型,以更有效地遵循指令。此创建数据集的方法其实和目标检测任务创建高质量训练数据相似,也是用模型去审核训练数据

数据集地址: https://github.com/tatsu-lab/stanford_alpaca/blob/main/alpaca_data.json

以上数据的创建方法: https://github.com/yizhongw/self-instruct(如果需要的话重点看下这个)

创建方法的论文: https://arxiv.org/abs/2212.10560