2023/08/18 AI for science:baseline.
AI for science
目录
- AI for science
- baseline
- 数据集下载及环境构建
- 数据预处理
- 特征工程
- 模型训练
- 总结
- baseline
baseline
数据集下载及环境构建
-
由于数据集庞大以及算力问题,选择在赛事云端环境PAI-DSW部署;
-
数据集每列表示一个样本,有485512个甲基化数据特征;
-
数据读取
-
由于48w+特征太多,在预处理时需要分块读取使用以下命令分块读取,然后使用pickle压缩后保存。
pandas.read_csv(path, chunksize)
-
-
与平时的不同:
- 平时比较多自己处理数据,然后变成mat或者txt数据,少有处理大型的csv文件的经验。
数据预处理
-
缺失值处理
- 一般自己常用的做法是删除缺失样本,从而达到所有样本没有缺失值(因为平时经常做的数据比较依赖真实性,不能进行插补)。
- 常用的解决方法:回归(基于完整的数据集,建立回归方程,或利用机器学习中的回归算法。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。);多重插补;不处理缺失值。
特征工程
-
新的值
- 常用的降维方法(PCA,LDA)
-
子集
- 过滤
- 选择一种评价准则(比如t检验,互信息法等)选择一个阈值,保留大于阈值的特征。
- 封装
- 利用机器学习算法搜索最优子集,比如RFE,lasso等。
- 嵌入
- 过滤
模型训练
- 本次任务是回归问题;
- 选择十折交叉验证可以更客观的评价自己的模型优劣;
总结
- 主要和平时实验有区别的地方就在于对大规模的csv文件的读取和操作。
- 第一次提交成绩:特征5w,没有做特征筛选等,使用catboost模型。