【Datawhale】机器学习赛道-暑假学习01

阁下 / 2023-08-18 / 原文

01 赛题介绍

用户新增预测挑战赛 链接

赛题数据由约62万条训练集、20万条测试集数据组成,共包含13个字段。其中uuid为样本唯一标识,eid为访问行为ID,udmap为行为属性,其中的key1到key9表示不同的行为属性,如项目名、项目id等相关字段,common_ts为应用访问记录发生时间(毫秒时间戳),其余字段x1至x8为用户相关的属性,为匿名处理字段。target字段为预测目标,即是否为新增用户。

赛题评估指标f1_score

可以直接使用 sklearn 的库函数实现

from sklearn.metrics import f1_score

score = f1_score(y_true=train_data['target'], 
                 y_pred=clf.predict(train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1)),
                 average='macro')

02 Baseline介绍

2.1 基础版(决策树分类模型模型):跑通流程

from sklearn.tree import DecisionTreeClassifier

2.2 提升版(待完成):提高预测效果

import lightgbm as lgb

03 关于提升版的思路

3.1 使用LightGBM

LightGBM(Light Gradient Boosting Machine)
是一种梯度提升框架,它使用决策树作为基学习器。LightGBM 为高效并行计算而生,它的 Light 体现在以下几个点上:

  • 更快的训练速度
  • 更低的内存使用
  • 支持单机多线程,多机并行计算,以及 GPU 训练
  • 能够处理大规模数据

LightGBM Github库链接: 遇到问题时可以查阅
LightGBM 官方文档: 调参使用

3.2 添加更多特征