【Datawhale】机器学习赛道-暑假学习01

阁下 / 2023-08-18 / 原文

01 赛题介绍

用户新增预测挑战赛链接

赛题数据由约62万条训练集、20万条测试集数据组成，共包含13个字段。其中uuid为样本唯一标识，eid为访问行为ID，udmap为行为属性，其中的key1到key9表示不同的行为属性，如项目名、项目id等相关字段，common_ts为应用访问记录发生时间（毫秒时间戳），其余字段x1至x8为用户相关的属性，为匿名处理字段。target字段为预测目标，即是否为新增用户。

赛题评估指标f1_score

可以直接使用 sklearn 的库函数实现

from sklearn.metrics import f1_score

score = f1_score(y_true=train_data['target'], 
                 y_pred=clf.predict(train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1)),
                 average='macro')

02 Baseline介绍

2.1 基础版(决策树分类模型模型)：跑通流程

from sklearn.tree import DecisionTreeClassifier

2.2 提升版(待完成)：提高预测效果

import lightgbm as lgb

03 关于提升版的思路

3.1 使用LightGBM

LightGBM（Light Gradient Boosting Machine）
是一种梯度提升框架，它使用决策树作为基学习器。LightGBM 为高效并行计算而生，它的 Light 体现在以下几个点上：

更快的训练速度
更低的内存使用
支持单机多线程，多机并行计算，以及 GPU 训练
能够处理大规模数据

LightGBM Github库链接: 遇到问题时可以查阅
LightGBM 官方文档: 调参使用

3.2 添加更多特征

【Datawhale】机器学习赛道-暑假学习01更多相关文章

ansible ping远程主机debian11报错

RK3568开发板Openwrt文件系统构建

浅析Dockerhub API：如何优雅地从dockerhub偷rootfs镜像

C# 通过注册表、API两种方式获取显示器的分辨率尺寸

Java-中文官方教程-2022-版-二-

JavaTutorialNetwork-中文系列教程-一-

随机推荐

Fiddler抓包Android7以内版本

AJAX & AXIOS-2024/11/1

验证码处理在自动化测试中的应用

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

Java，启动！

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现