TowardsDataScience-博客中文翻译-2021-七十一-

龙哥盟 / 2024-10-22 / 原文

TowardsDataScience 博客中文翻译 2021（七十一）

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

协同过滤推荐系统中用 SVD 预测评分的一个例子

原文：https://towardsdatascience.com/predict-ratings-with-svd-in-collaborative-filtering-recommendation-system-733aaa768b14?source=collection_archive---------15-----------------------

如何将奇异值分解转换为 k 维并进行预测

来自维基的乔治-约翰的照片

我们知道 SVD 在现实中进行预测有缺点，例如，它甚至不能预测数据集中是否有 NaN，但因为这是协作过滤的起点，我想用 SVD 重现这个过程，看看它是如何工作的，并对数据集进行一些压缩。

这个故事将集中在 SVD 的代码实现上，没有离线测试(没有训练测试数据集的分割)，并且包括一些与线性代数相关的基本术语。

线性代数基础

奇异值分解是奇异值分解。详细说明见维基。在这里，我更喜欢推荐系统(RS)的这种解释:它是原始 SVD 的 k 阶近似。

来自 StackExchange 的信息[3]

潜在特征:对应于 SVD 中的σ。在数据中不能直接观察到的值，但当查看观察到的数据值之间存在的关系和趋势时，可能会识别出这些值[2]。最新特征的数量是西格玛在 SVD 中的等级。

欧氏距离:

欧几里德距离可以看作是两个向量之间的直线距离。对于两个向量 x 和 y ，我们可以计算为[2]:

我想强调的难点(至少从我的学习经验来看)是一旦我们知道了 U、σ和 Vt，如何将原始的 SVD 转换成 k 维空间，以及如何将它们与预测联系起来。榜样永远是有效的学习方式。

代码示例

数据集妥协

协作过滤(这里是基于用户项的)中的 RS 的目标是预测评级，并且在用户没有评级的情况下做出推荐。

但是 SVD 无法预测矩阵中是否有 NaN 值，用户必须存在于当前已知的费率系统中并给出费率。

我觉得有矛盾，但也许我错在这里(如果你找到原因，会感激地指出来)。

要创建数据集，这里折衷:如果用户没有给电影评分，那么用 0 填充(如果评分中有 0，就会有冲突)。

请不要在此处推荐 Funk SVD。因为我想在这个故事中了解 SVD 过程的优点和缺点。

让我们开始吧。参考代码在这里(中文)【1】。我对它做了一些修改。

该代码由以下步骤组成:

创建数据集
计算相似度
决定 k
将原始 SVD 转换为 k 维
通过预测评分(原始评分为零)为特定用户进行推荐

导入库:

创建数据集:

计算相似度

使用欧几里德距离来度量相似性:

决定 k:k 的值由前 k 个奇异值的平方和占总奇异值平方和的百分比决定。

例如，如果百分比是 0.9，那么当前 k 个单值的平方和与 sigma 的总平方和之比大于 0.9 时，我们已经占了 90%以上的权重，可以将矩阵降维到 k 维。

将原始 SVD 转换为 k 维空间:

如何将原始 SVD 转换为 k 维，下面是关键:

原始分解的维数为:

u:11x11，sigma:对角矩阵 11，vt: 11x11

结果是 k=3，则量纲为:

u:11x3，sigma:对角矩阵 3，vt: 3x11

下面的代码可以构造 k 维矩阵:

formed_items=np.around(np.dot(np.dot(u[:,:k], sigma_K),vt[:k, :]),decimals=3)

预测收视率:

运行以下命令获得结果:

testdata=loadExData()
recommend(testdata,0,sim_meas=ecludSim,est_method=svdEst, percentage=0.9)

使用具有欧几里德距离的测试数据，如果前 k 个奇异值的平方和与总奇异值的平方和的百分比大于或等于 0.9，则预测用户 0 的未分级电影的分级。

用户 0 的预测评级:

对于用户 1:

第一列显示列索引，第二列是预测评级。

在用户 0 的原始数据中，位置 0，1，2，3，4，6，7，8，9 为零，如下所示:

[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5]

为了简单起见，完整的代码如下，您可以使用上面的最后两个建议来运行它:

在今天的故事中，我介绍了一个例子，展示了如何在获得 SVD 后将 SVD 转换到 k 维空间来预测收视率，特别关注如何将 SVD 转换到 k 维空间并进行预测收视率。

感谢您的阅读。

参考文献:

https://blog . csdn . net/weixin _ 41988628/article/details/83217255
Udacity 数据科学家 Nanodegree —实验设计和建议
https://stats . stack exchange . com/questions/33142/what-happens-when-you-apply-SVD-to-a-collaborative-filtering-problem-what-is-th/35460 # 35460
【https://en.wikipedia.org/wiki/Singular_value_decomposition 号

预测 HDB 转售公寓的售价

原文：https://towardsdatascience.com/predict-the-selling-price-of-hdb-resale-flats-50530391a845?source=collection_archive---------12-----------------------

进行线性回归以预测 1990 年 1 月至 2021 年 4 月 HDB 转售单位的售价

照片由 Nguyen Thu Hoai 在 Unsplash

问题陈述

有多种因素影响 HDB 转售公寓的销售价格。因此，通过使用线性回归，我有兴趣在这个小练习中找出 HDB 转售公寓的销售价格如何基于其以下特征而变化:

它到中央商务区(CBD)的距离
到最近的捷运站的距离
它扁平的尺寸
它的楼层
剩余的租赁年数

这个小练习的参考资料可以在 my GitHub 上找到，其中包括数据集和 Python 笔记本文件——数据预处理和数据处理(包括构建线性回归)。

资料组

以下是这个小型练习中使用的数据源:

来自 Data.gov.sg 的 HDB 转售统一价格(截至 2021 年 5 月 3 日)
OneMap API

数据预处理

HDB 转售统一价格数据集中有 5 个不同时间段的逗号分隔值(CSV)文件，分别为 1990 年至 1999 年、2000 年至 2012 年、2012 年至 2014 年、2015 年至 2016 年以及 2017 年以后。

在这个小练习中，分析中考虑了所有时间段。因此，需要将所有 5 个不同的 CSV 文件组合成一个完整的数据集。

import glob
import pandas as pddf = pd.concat([pd.read_csv(f) for f in glob.glob("./data/*.csv")], ignore_index=True)

原始 HDB 转售统一价格数据集的样本行，按作者分类的图像

正如我们从数据集看到的，它还不够全面，不足以回答这个迷你练习的问题陈述。此后，需要计算今年(2021 年)以后的剩余租约，并使用 OneMap API 进行地理编码，以计算每个公寓与其最近的 MRT 站之间的距离，以及每个公寓与 CBD 之间的距离(基于莱佛士广场)。

在进行地理编码之前，原始数据集的缺失值和重复值将被移除。此外，构建每个 HDB 公寓的地址，以便检索其地理位置。

df['address'] = df['block'] + " " + df['street_name']
address_list = df['address'].unique() # to be iterated in order to retrieve the geo-location of each address

使用 JSON 请求进行地理编码，以进行查询，从而获得每个 HDB 公寓的地理位置和捷运站的地理位置，如下图所示。有了这些，我们可以计算出每套公寓和最近的捷运站之间的距离。此外，根据所有 HDB 公寓的地理位置，我们可以计算出每套公寓与中央商务区之间的距离。

以下是从 OneMap API 中检索数据的代码模板，以及用作检索其地理位置的列表的捷运站。

import json
import requestsquery_string = '[https://developers.onemap.sg/commonapi/search?searchVal='+](https://developers.onemap.sg/commonapi/search?searchVal='+'Raffles)query_address+'&returnGeom=Y&getAddrDetails=Y' # define your query_address variable (e.g. HDB address)
resp = requests.get(query_string)
data = json.loads(try_resp.content)

数据预处理地理编码中使用的新加坡捷运站(来源:陆地运输局)

我们数据集的最后一个板块是计算从今年开始每套公寓的剩余租金。HDB 租约为 99 年，为了计算剩余租约，使用了一个新变量，定义如下:

df['lease_remain_years'] = 99 - (2021 - df['lease_commence_date'])

哒哒！生成了新的已处理数据集！

带有样本行的新组合数据集，按作者列出的图像

数据争论

处理新生成的数据集的一个必要步骤是确保每个变量分别处于正确的数据类型中。

df['resale_price'] = df['resale_price'].astype('float')
df['floor_area_sqm'] = df['floor_area_sqm'].astype('float')
df['lease_commence_date'] = df['lease_commence_date'].astype('int64')
df['lease_remain_years'] = df['lease_remain_years'].astype('int64')df.dtypes

其中一个要考虑的因素是楼层。楼层变量是具有不同楼层范围的分类变量。

楼层范围，作者图像

因此，中位值用于绘制每套 HDB 公寓的楼层平面图。

import statisticsdef get_median(x):
    split_list = x.split(' TO ')
    float_list = [float(i) for i in split_list]
    median = statistics.median(float_list)
    return mediandf['storey_median'] = df['storey_range'].apply(lambda x: get_median(x))

现在是时候提取回答问题陈述的相关变量作为我们的新数据框架，用于构建线性回归模型。

#cbd_dist = CBD distance
#min_dist_mrt = Distance to the nearest MRT station
#floor_area_sqm = Flat size
#lease_remain_years = Remaing years of lease
#storey_median = Floor level
#resale_price = Selling price (dependent variable)df_new = df[['cbd_dist','min_dist_mrt','floor_area_sqm','lease_remain_years','storey_median','resale_price']]

线性回归

最新的数据集将被分成 75%的训练数据集和 25%的测试数据集。在这个小练习中，因变量(y)是转售价格变量，而其他变量是自变量(X)。

from sklearn.model_selection import train_test_splitX=scope_df.to_numpy()[:,:-1]
y=scope_df.to_numpy()[:,-1] #resale_price is at the last column of the latest datasetX_train, X_test, y_train, y_test = train_test_split(X,y,random_state=42,test_size=0.25)

现在，是时候建立线性回归模型了！

from sklearn.linear_model import LinearRegressionline = LinearRegression()
line.fit(X_train,y_train)line.score(X_train, y_train) # 0.8027920069011848

该模型的 R 平方得分为 0.803，实际上被认为相当不错！

让我们进一步检查模型的结果——均方误差(MSE)、系数的统计显著性、平均绝对误差(MAE)和均方根误差(RMSE)以及方差膨胀因子(VIF)。

def MSE(ys, y_hats): # Mean Squared Error function
    n = len(ys)
    differences = ys - y_hats
    squared_diffs = differences ** 2
    summed_squared_differences = sum(squared_diffs)
    return (1/n) * summed_squared_differencesMSE(line.predict(X_train),y_train) # 4490363021.170545

MSE 表明，平均而言，预测 HDB 转售公寓售价的误差约为 67010.171 (+/-)。

使用 MSE 预测 HDB 转售公寓销售价格的示例，图片由作者提供

MSE 可以作为一个指标来检查预测售价与实际售价的接近程度。

OLS 回归结果，图片由作者提供

从表中可以看出，模型中的 p 值为 0，小于 0.05，说明自变量与转售价格变量有统计上的显著关系。

通过回答问题陈述，该模型有助于估计影响 HDB 转售公寓售价的以下变量:

离中央商务区每远 1 米，售价下降 18.12 美元
离最近的捷运站每远 1 米，售价下降 49.04 美元
公寓面积每增加 1 平方米，售价就上涨 4353.13 美元
每剩余 1 年租约，销售价格上涨 4079.25 美元
每上升一层，售价就会上升 5065.95 美元

变量的统计摘要，按作者分类的图像

from sklearn import metricsmetrics.mean_absolute_error(scope_df["resale_price"], predictions)
# 51060.924629381385
np.sqrt(metrics.mean_squared_error(scope_df["resale_price"], predictions))
# 66948.4376270297

与数据集转售价格的平均值相比，MAE 相对非常小，大约是转售价格平均值的 1%。

对于 RMSE，与数据集的转售价格的平均值相比，该模型的预测将遗漏平均 66948.44 美元，其中包含约 15%的误差率。因此，模型的预测误差率相对较高。

多重共线性使用 VIF 值表，由作者提供的图像

从表中，我们可以看到 VIF 值都低于 4。因此，所有不应该相互关联的独立变量都是不相关的。

结论

总之，我们可以说，解释变量与 HDB 公寓的转售价格有着统计上的显著关系。这样，它有助于我们解释每个解释变量如何影响 HDB 转售公寓售价的变化。此外，与其他解释变量相比，HDB 公寓的楼层面积和转售价格之间的关系强度是最高的，具有积极的中度关系。然而，为了改进分析，可以考虑诸如 HDB 公寓的城镇(规划区)以及 HDB 公寓所在的政治边界等因素来回答问题陈述。

参考

https://www.channelnewsasia.com/singapore/ndr-2018-hdb-lease-99-years-flat-national-day-rally-804611

scikit-learn 中的 predict()和 predict_proba()有什么区别？

原文：https://towardsdatascience.com/predict-vs-predict-proba-scikit-learn-bdc45daa5972?source=collection_archive---------0-----------------------

如何对数据集使用`predict`和`predict_proba`方法来执行预测

金伯利农民在 Unsplash 拍摄的照片

介绍

当用sklearn训练模型(更精确地说是监督估值器)时，我们有时需要预测实际类别，而在其他一些场合，我们可能希望预测类别概率。

在今天的文章中，我们将讨论如何在数据集上使用predict和predict_proba方法来执行预测。此外，我们将探索这些方法之间的差异，并讨论何时使用其中一种方法。

首先，让我们创建一个示例模型，我们将在本文中引用它来演示一些概念。在我们的示例中，我们将使用虹膜数据集，它也包含在scikit-learn的sklearn.datasets模块中。这将是一项分类任务，我们需要根据花瓣和萼片的尺寸(长度和宽度)识别并正确预测三种不同类型的鸢尾，即刚毛鸢尾、杂色鸢尾和海滨鸢尾。

import numpy as np
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier # Load the Iris dataset
iris_X, iris_y = datasets.load_iris(return_X_y=True)# Split Iris dataset into train/test sets randomly
np.random.seed(0)
indices = np.random.permutation(len(iris_X))
iris_X_train = iris_X[indices[:-10]]
iris_y_train = iris_y[indices[:-10]]
iris_X_test = iris_X[indices[-10:]]
iris_y_test = iris_y[indices[-10:]]# Instantiate and fit a KNeighbors classifier
knn = KNeighborsClassifier()
knn.fit(iris_X_train, iris_y_train)

predict()方法

scikit-learn中的所有监督估计器都实现了predict()方法，该方法可以在经过训练的模型上执行，以便预测一组新数据的实际标签(或类别)。

该方法接受与将对其进行预测的数据相对应的单个参数，并返回包含每个数据点的预测标签的数组。

**predictions = knn.predict(iris_X_test)**print(predictions)
***array([1, 2, 1, 0, 0, 0, 2, 1, 2, 0])***

proba()方法

在分类任务的上下文中，一些sklearn评估器也实现了predict_proba方法，返回每个数据点的分类概率。

该方法接受与计算概率的数据相对应的单个参数，并返回包含输入数据点的类概率的列表数组。

**predictions = knn.predict_proba(iris_X_test)**print(predictions)
***array([[0\. , 1\. , 0\. ],
       [0\. , 0.4, 0.6],
       [0\. , 1\. , 0\. ],
       [1\. , 0\. , 0\. ],
       [1\. , 0\. , 0\. ],
       [1\. , 0\. , 0\. ],
       [0\. , 0\. , 1\. ],
       [0\. , 1\. , 0\. ],
       [0\. , 0\. , 1\. ],
       [1\. , 0\. , 0\. ]])***

最后的想法

在今天的文章中，我们讨论了如何使用预训练的scikit-learn模型对数据进行预测。此外，我们探讨了由scikit-learn的估计器实现的方法predict和predict_proba之间的主要差异。

predict方法用于预测实际类别，而predict_proba方法可用于推断类别概率(即特定数据点落入基础类别的概率)。

成为会员 阅读介质上的每一个故事。你的会员费直接支持我和你看的其他作家。

你可能也会喜欢

https://medium.com/geekculture/fit-vs-transform-vs-fit-transform-in-python-scikit-learn-2623d5a691e3

使用机器学习预测 2020-21 年 NBA 最有价值球员

原文：https://towardsdatascience.com/predicting-2020-21-nbas-most-valuable-player-using-machine-learning-24aaa869a740?source=collection_archive---------19-----------------------

ML 模特对 MVP 比赛有什么看法？

基思·艾利森在维基共享资源上的照片

在每个赛季结束时，全国篮球协会(NBA)的媒体成员被要求决定联盟最受欢迎的个人常规赛奖的获胜者:最有价值球员(MVP)。创立于 1955-56 赛季，旨在奖励常规赛中表现最佳和最稳定的球员。

每年都会在篮球迷和分析师中引发很多争论，MVP 竞赛通常是 NBA 赛季中最有趣(也是最激烈)的故事情节之一。虽然叙述在最终决定获胜者的过程中发挥了重要作用，但它主要归结于对其团队的成功具有最大统计影响的球员。

随着本赛季的比赛超过一半，谁是真正的 MVP 候选人变得越来越清楚。但是谁最终会赢得它呢？基于已经进行的比赛和历史数据，本文的目标是使用 ML 模型预测 MVP 的结果。

数据

对于历史数据，我们利用了运球分析的数据集，它包含了从 1979-80(三分时代的开始)到 2017-18 每个赛季 MVP 投票中前 10 名球员的数据。除此之外，我们还收集了以下两个赛季(2018-19 和 2019-2020)的相同数据。

至于本赛季，我们收集了目前在 Basketball Reference 的 2020-21 NBA MVP 奖项追踪器上的 10 名球员的数据:尼古拉·约基奇、乔尔·恩比德、扬尼斯·阿德托昆博、詹姆斯·哈登、达米恩·利拉德、勒布朗·詹姆斯、科怀·伦纳德、卢卡·东契奇、凯里·欧文和鲁迪·戈贝尔。

所有的数据都可以在篮球参考上找到。

特征选择

在提到我们模型的特性之前，定义我们的目标值是很重要的。我们试图预测的目标值是每个球员获得的 MVP 总票数的份额。

Share = (MVP votes on Player)/(Total MVP votes)

至于特性，我们从总共 16 个开始:

Games
Team Wins
Overall Seed
MP
PTS/G
TRB/G
AST/G
STL/G
BLK/G
FG%
3P%
FT%
WS
WS/48
BPM
VORP

前四个是简单的统计数据。它们分别代表每个球员参加的比赛次数，他们的球队赢了多少场，他们的球队在联盟中的位置以及每场比赛的上场时间。

PTS/G，TRB/G，AST/G，STL/G，BLK/G 代表每场比赛的得分，篮板总数，助攻，抢断和盖帽。

FG%，3P%，FT%代表投篮命中率，三分命中率，罚球命中率。

WS，WS/48，VORP 和 BPM 是高级统计。WS 和 WS/48 代表赢份额和每 48 分钟赢份额。这些数据旨在将团队的成功划分到团队的个人成员身上。

BPM 代表 Box Plus/Minus，是一个衡量球员在球场上对球队贡献的指标。

最后， VORP 代表价值超过替代，是一名球员在替代级别球员之上贡献的每 100 分球队财产的积分估计，转换为平均球队，并按比例分配到 82 场比赛的赛季。

为了帮助我们决定使用哪些特性，我们拟合了一个随机 Forrest 回归，并检查了该模型的特性重要性结果。

射频特征重要性结果

接下来，我们还找到了相关矩阵。我们希望识别它们之间高度相关的特征，并删除一个以避免给模型提供重复的信息。

在研究了相关矩阵之后，我们确定了一些有意义的相关性。例如，功能总体种子与成功的数量密切负相关。没有必要使用这两个功能。我们还可以看到变量 WS 和 WS/48、BPM 和 VORP 之间的一些强相关性。这也是有意义的，因为度量 WS/48 和 VORP 分别依赖于 WS 和 BPM。

在最初的 16 个特性中，我们最终删除了其中的 7 个。我们模型的最终特征是:

Overall Seed
PTS/G
TRB/G
AST/G
STL/G
BLK/G
FG%
WS
VORP

培训和测试

为了训练和测试我们的模型，我们需要一个训练集和一个测试集。正如机器学习技术中常见的那样，两个数据集的划分是随机进行的，训练集由完整数据集的 75%组成。

我们用来评估模型在测试集上的性能的指标是均方误差(MSE)和 R 平方。

在我们的实验中，我们使用了以下模型:

深度神经网络(DNN)
k 近邻回归(KNN)
随机福里斯特回归

下表显示了三种模型的 MSE 和 R 平方。众所周知，较低的 MSE 和较高的 R 平方表示模型更精确。

查看结果，模型没有非常高的 R 平方，但我们实现了非常低的 MSE 值。考虑到大多数 MVP 得主比他们的亚军有 0.1 以上的投票份额优势，这些都是好结果。正如我们所见，KNN 是测试集上表现最好的模型，具有最高的 R 平方和最低的 MSE。

预言

下面的 4 张图显示了每个型号对 2020–21 MVP 投票份额的预测。

我们的两个模型有 Joki 作为获胜者，一个有 Embiid。两个模特预测詹尼斯是亚军。詹姆斯·哈登在两种模式中排名第三，在另一种模式中排名第四。一个奇怪的结果:与其他模型相比，我们的 RF 模型绝对喜欢鲁迪·戈贝尔的机会(出于某种原因)，在 MVP 投票份额中排名第四。

平均值显示，乔基奇以微弱优势赢得 MVP，超过詹尼斯。哈登和恩比德在份额上也遥遥领先于其余候选人。

结论

我们的模型冠乔基奇为最有价值球员，但对这个奖项的争夺仍然非常激烈。

约基奇的 MVP 案例比以往任何时候都强。除了他在球场上令人难以置信的统计影响外，小丑到目前为止参加了本赛季的每一场比赛。这是能使他从其他候选人中脱颖而出的一点。

恩比德拥有一个历史性的赛季，但他最近的受伤可能会永久性地损害他赢得比赛的机会。

詹尼斯是一个常年 MVP 候选人，如果他最终成为投票中的第一名，任何人都不会感到惊讶。

詹姆斯·哈登可以被视为这场比赛中的黑马，但不可否认的是，他的影响已经在他的新团队中感受到了。如果他保持最近的表现，他在赛季结束时肯定会成为 MVP 的有力竞争者。

很多事情仍然可以(也将会)改变，但有一点似乎很清楚:在约基奇、詹尼斯、恩比德和哈登之间，我们可以自信地预测，奖项将会颁给这些球员中的一人。

Github 资源库

预测斯堪尼亚气压系统故障

原文：https://towardsdatascience.com/predicting-a-failure-in-scanias-air-pressure-system-aps-c260bcc4d038?source=collection_archive---------15-----------------------

使用机器学习降低维护成本

图片由皮克斯拜的彼得 H 拍摄

气压系统(APS) 是重型车辆的重要组成部分，压缩空气使活塞在刹车垫上施加压力，使车辆减速。用 APS 代替液压装置的优点是容易从自然中获得可持续的空气。

该数据集包括从日常使用的重型斯堪尼亚卡车上收集的数据。这些是卡车在运行过程中的故障案例，我们的任务是预测给定的故障是否是由空气压力系统的特定组件引起的。这有助于避免卡车运行过程中的故障，从而降低维护成本。

数据可以在:https://archive . ics . UCI . edu/ml/datasets/APS+Failure+at+Scania+Trucks找到

内容:

ML 公式
业务限制
数据集概述
绩效指标
文献评论
第一次切割溶液
入门指南
移除单值要素
处理缺失值
分离特征进行分析
直方图特征分析
数字特征分析
总结我们的探索性数据分析
准备数据
实验经典 ML 模型
使用 Flask API 在本地服务器上部署
结论
未来范围
参考

ML 公式

这是一个二元分类问题，正类告诉我们故障是由 APS 的特定组件引起的，而负类告诉我们故障与该组件无关。因此，给定一个新的数据点(传感器信息)，我们可以建立一个 ML 模型，告诉我们故障是否是由卡车的 APS 引起的。

业务限制

延迟必须相当低，以检测 APS 中的故障并避免维护成本增加。
错误分类的成本非常高,因为 APS 部件未被检测到的故障会导致卡车在运行过程中出现故障，从而增加维护成本。

数据集概述

训练数据集由60000 个数据点和 171 个特征组成，其中一个是类标签。这些特征是数字数据和直方图箱数据的组合。功能名称因专有原因保持匿名*。59，000 个数据点属于负类，剩余的 1，000 个数据点属于正类。这告诉我们，我们正在处理一个高度不平衡的数据集**，并且通常是我们在真实世界场景中可以预期的数据类型。*

观察到的另一个问题是大部分数据缺失。在极端情况下，一些实例会丢失 80%的值。数据集被分类为完全随机缺失(MCAR) ，因为数据点是否缺失与数据集中的任何值是否缺失或观察到没有关系。因此，我们必须通过特征工程的方法来解决这些问题。

绩效指标

我们将使用宏 F1 分数作为我们该项目的绩效指标。宏 F1 分数考虑了每个类别的 F1 分数。基于两个类的正确分类点的数量向我们展示我们的模型的性能可能是有益的。这是有用的，因为错误分类的成本非常高，因为未被检测到的 APS 故障会导致卡车在运行期间发生故障，并增加维护成本。

宏精度、宏召回和宏 F1

文献评论

Cerqueira，Vítor 等. 将提升树与元特征工程结合起来进行预测性维护。 “智能数据分析国际研讨会。施普林格，查姆，2016。

这篇论文提到作者解决这个问题的方法包括 4 个步骤。(I)基于缺失值的数量排除特征和数据点的子集的过滤器；(ii)用于基于现有信息创建新特征的元特征工程程序；㈢处理类别不平衡问题的有偏抽样方法(SMOTE)；以及(iv)使用提升的树进行分类。

缺失值百分比高的要素已被移除。在他们的分析过程中，他们发现一些特征有 80%的数据缺失，170 个特征中有 8 个有超过 50%的缺失值。在移除所述特征之后，可以看到存在重复的数据点，这表明移除的特征对于获得好的分数几乎没有影响。

他们提到，他们将该问题视为异常检测问题，因为数据的正类的特征是该领域中罕见的事件。他们在元特征工程中使用了箱线图分析(对于每个特征，将每个值与在该特征中找到的典型值进行比较)局部异常值因子(通过密度估计将数据点与其局部邻域进行比较)和分层凝聚聚类(每个步骤合并两个相似的组，合并的最后一个观察值可能是异常值)。

SMOTE 是一种复制不平衡数据集的少数类数据点的方法，以平衡它。将 SMOTE + MetaFeature 工程与 XGBOOST 库一起使用可以获得最佳结果。

来源:研究论文

本文提出了利用箱线图分析、LOF 和层次凝聚聚类来创造新特征的思想。它还向我们展示了 SMOTE 的一个使用案例，以及所有这些特征工程技术与使用 GBDT 模型相结合的结果。

科斯塔、卡蜜拉·费雷拉和马里奥·纳西门托。" IDA 2016 工业挑战赛:使用机器学习预测故障。 “智能数据分析国际研讨会。施普林格，查姆，2016。

这篇论文是这次挑战的获胜方案。作者尝试了不同的算法，即逻辑回归、K-NN、SVM、决策树和随机森林来解决这个问题。他们通过实施软估算算法来处理缺失数据。这是一个大规模矩阵完成算法，用当前猜测值替换缺失值，并解决一个优化问题。通过设置高阈值(截止值)来处理不平衡数据，这意味着模型只有在非常确定的情况下才会预测负类。

最终结果显示， Random Forest 表现最好的是，其总成本(给定指标)比基准模型低 92.56%。KNN 模型是第二好的分类器，具有 90.84%的改进，而逻辑回归模型工作良好，具有 88.72%的改进。基于 RBF 核的 SVM 仅提高了 86.36%的总成本。

来源:研究论文

本文比较了不同模型在缺失值使用更复杂的算法而不是简单的均值/中值进行估算的数据上的表现。我们看到，集合模型将很好地解决这个问题，高阈值在处理不平衡数据中起着关键作用。

首次切割方法

由 16，000 个数据点组成的测试数据集也可供我们使用。因此，我们不需要分割我们的训练数据集。
执行 EDA 并查看特征之间的相关性，并执行降维技术来检查数据在二维空间中的分布情况。
所有上述论文都关注这样一个事实，即大量数据缺失，数据集高度不平衡。为了处理缺失数据，我将使用链式方程多重插补(MICE)算法，该算法被证明是相当好的。我们也可以使用基于 K-NN 的插补。
缺失值超过 50%的特性对于模型性能的改善并不重要，因此我们可以选择删除它们。(或者我们可以选择将值归入所有特征并执行特征选择过程)。
每个可用要素的新二元要素集，其中 0 表示该值最初缺失，现在被估算，1 表示该值已经存在。这样我们可以保留一些关于我们收到的原始数据的信息。
为了处理不平衡的数据集，我们可以应用 95%的高阈值来将一个点分类为负，或者使用 SMOTE 之类的上采样方法来平衡数据集，并选择最有效的方法。
对于模型构建，我们可以尝试在不同的模型上工作，看看它们在不同插补方法的数据上表现如何，但从之前的工作中，我们可以看到梯度增强决策树、随机森林和朴素贝叶斯在大多数情况下都工作得很好。
最后，我们可以根据数据计算所有模型的性能指标，并选择最佳模型。

入门指南

首先，让我们导入所需的包并读取我们的培训数据。

数据集由 171 个要素组成，包括类别标注。此外，在类标签属性中，我们将用 0 替换“neg ”,用 1 替换“pos”。

类别分布图显示了数据不平衡的严重情况，因为在总共 60，000 个训练点中，大约 59，000 个点属于负类别，而只有 1，000 个点属于正类别。我们可以选择对少数类数据点进行上采样，或者使用改进的分类器来解决这个问题。此外，在某些特性中，缺失数据的百分比非常高(在一个特性中高达 82%)。

移除单值要素

在可用的特征中，对于所有数据点具有相同值的特征对于提高我们模型的性能并不重要。因此，我们可以丢弃这些特征。我们可以删除标准偏差为 0 的特征。

其中一个特征，(' cd_000 ' )被视为对于所有数据点都具有恒定值。我们可能会删除此功能。

处理缺失值

在对预测任务进行建模之前，识别并替换输入数据中每一列的缺失值始终是一种很好的做法。这被称为缺失数据插补，简称插补。

我们可以通过以下方式对缺失数据进行一些基本的处理:

我们将丢弃缺失值超过 70%的特征。
对于缺失值小于 5%的特性，我们可以删除那些行。
对于缺失值在 5–15%之间的特征，我们将使用平均值/中值估算这些缺失值。
现在，对于缺失值百分比在 15–70%之间的其余特征，使用基于模型的插补技术。

128 个特性的丢失值不到 5%,因此我们删除了这些特性中包含丢失值的行(4027 行)。7 个特征( 'br_000 '，' bq_000 '，' bp_000 '，' bo_000 '，' ab_000 '，' cr_000 '，' bn_000' )缺少超过 70%的值。这些功能已被删除。

然后，类标签从我们的数据集分离出来，留给我们一个形状为 (55973，162) 的数据集。

14 个特征的值有 5%到 15% 缺失，并通过 sklearn 的简单估算器，缺失值使用'中值估算。接下来，对于具有 15%到 70% 缺失值的特征，我们将执行一种基于迭代模型的插补技术，称为鼠标。在每一步中，具有缺失值的特征被指定为输出 y，其他特征列被视为输入 X。回归器(我们使用了岭回归器)适用于已知 y 的(X，y)。然后，回归器用于预测 y 的缺失值。以迭代方式对每个特征执行此操作，然后对 max_iter(默认为 10)插补轮次重复此操作。返回最后一轮插补的结果。

保存所有上述模型，并在测试数据集上执行预处理步骤。

分离特征进行分析

给我们的是，某些特征是直方图仓信息，并且前缀(在' _ '之前的字母)是标识符，后缀是仓 _id(标识符 _ 仓)。

为了找到包含直方图柱信息的特征，我们知道来自单个直方图的所有特征具有相同的前缀。

我们可以看到有 7 组特征，每组有 10 个箱。换句话说，有 7 个直方图被分成 10 个仓，每个仓有。例如:标识符“ag”由 ag_000、ag_001、ag_002、ag_003、ag_004、ag_005、ag_006、ag_007、ag_008 和 ag_009 组成。

直方图标识符为:['ag '，' ay '，' az '，' ba '，' cn '，' cs '，' ee']。

*There are **70 features that contain histogram bin information** and they are: 
 ['ag_000', 'ag_001', 'ag_002', 'ag_003', 'ag_004', 'ag_005', 'ag_006', 'ag_007', 'ag_008', 'ag_009', 'ay_000', 'ay_001', 'ay_002', 'ay_003', 'ay_004', 'ay_005', 'ay_006', 'ay_007', 'ay_008', 'ay_009', 'az_000', 'az_001', 'az_002', 'az_003', 'az_004', 'az_005', 'az_006', 'az_007', 'az_008', 'az_009', 'ba_000', 'ba_001', 'ba_002', 'ba_003', 'ba_004', 'ba_005', 'ba_006', 'ba_007', 'ba_008', 'ba_009', 'cn_000', 'cn_001', 'cn_002', 'cn_003', 'cn_004', 'cn_005', 'cn_006', 'cn_007', 'cn_008', 'cn_009', 'cs_000', 'cs_001', 'cs_002', 'cs_003', 'cs_004', 'cs_005', 'cs_006', 'cs_007', 'cs_008', 'cs_009', 'ee_000', 'ee_001', 'ee_002', 'ee_003', 'ee_004', 'ee_005', 'ee_006', 'ee_007', 'ee_008', 'ee_009']*

我们将使用完整的估算集从两个数据集中选择顶级特征。但是将对具有缺失值的数据进行分析。

直方图特征分析

我们将对直方图数据集的前 15 个特征执行 EDA。为了选择特征，我们将使用随机森林分类器执行递归特征消除

前 15 个功能是:

*['ag_001', 'ag_002', 'ag_003', 'ay_005', 'ay_006', 'ay_008', 'ba_002', 'ba_003', 'ba_004', 'cn_000', 'cn_004', 'cs_002', 'cs_004', 'ee_003', 'ee_005']*

PDF 、 CDF 和框描绘了这些特征中的每一个特征的，以试图理解我们的数据的分布。提出的意见如下:

特性图 ag_003、ay_008、ba_002、ba_003、ba_004、cn_004、cs_002、cs_004、ee_003 和 ee_005 显示，特性的较低值表明 APS 部件没有故障。较高的值清楚地表明 APS 组件故障

APS 组件中没有故障时，特性 ag_001 和 ay_005 的大约 99%的值为 0。

我们可以说，在这些顶级特性中，较高的值可能表明卡车的气压系统出现故障

但是，在极少数情况下，这些值高于正常情况，但仍不会导致 APS 故障。示例:特征 ee_005

考虑到每个特征如何与目标变量(“类别”)相关，我们可以观察到特征“ay _ 005”是我们的顶级属性中最不相关的特征。我们可以进一步进行双变量分析,分析其他顶级特性相对于‘ay _ 005’特性的变化情况。

ag_002，ag_001，cn_000 :从散点图可以看出，对于其他顶级特性的任意值，当特性‘ay _ 005’中的值接近 0 时，APS 组件(class label = 1)存在故障。

数字特征分析

我们将对直方图数据集的前 15 个特征执行 EDA。为了选择特征，我们将使用随机森林分类器执行递归特征消除

前 15 个功能是:

*['aa_000', 'al_000', 'am_0', 'ap_000', 'aq_000', 'bj_000', 'bu_000', 'bv_000', 'ci_000', 'cj_000', 'cq_000', 'dg_000', 'dn_000', 'do_000', 'dx_000']*

PDF 、 CDF 和方框绘制了这些特征中的每一个的，以试图理解我们的数据的分布。提出的意见如下:

aa_000 : 如果 APS 中没有故障(class label = 0)，大约 95%的点的值在 0.1x1e6 以下。高于该值通常表示 APS 组件出现故障。

al_000，am _ 000:APS 组件的故障实例和非故障实例的值在此特性中无法明确区分。虽然失败案例的点确实具有稍高的值。

ap_000，aq_000，bj_000，bu_000 : 与非故障情况相比，故障情况具有更高的值。但是 APS 组件的非故障实例很少，这在该特征中看到更高的值。

在所有特性中，除了 dg_000、cj_000、am_0 和 al_000 之外，特性中较高的值通常表示 APS 组件出现故障。但是由于数据的不平衡性质，这可能是不确定的。

考虑到每个特征如何与目标变量(“类别”)相关，我们可以观察到特征“dx _ 000”是我们的顶级属性中最不相关的特征。我们可以进一步进行双变量分析,了解其他顶级功能相对于功能‘dx _ 000’的变化情况。

此处所有图中的主要观察结果是，对于剩余特征的任何值，如果特征‘dx _ 000’具有低值(接近 0)，则可能指示 APS 组件中存在故障(类别标签=1)。

总结我们的探索性数据分析

数据集由 60，000 个数据点和 171 个要素组成，包括类别标签。
在绘制每个类别标签的计数后，我们发现在 60000 个点中，59000 个点属于类别 0，剩余的 1000 个点属于类别 1。我们正在处理一个高度不平衡的二进制分类问题。
然后，我们继续检查数据集中缺失的值。我们观察到一些特性丢失了超过 70%的值。我们决定从数据集中移除这些要素。7 个特征因此被移除。
有一个要素(cd_000)对于所有数据点都只有一个值。我们决定去掉它，因为它不会给我们的模型性能增加多少价值。
对于缺失数据少于 5% 的特征，由 NA 值组成的行被移除。具有 5% — 15% 缺失值的特征使用中值进行估算。具有 15% — 70% 缺失值的特征使用基于模型的插补技术进行插补。
有 70 个特征由来自 7 个直方图的 bin 信息组成。每个直方图有 10 个柱。直方图特征是具有标识符的特征: ['ag '，' ay '，' az '，' ba '，' cn '，' cs '，' ee'] 。直方图和数字特征被分成两个数据集，我们对两个数据集的前 15 个特征进行了单变量和双变量分析。
通过使用随机森林分类器执行递归特征消除，我们发现直方图数据集中的前 15 个特征是: ['ag_001 '，' ag_002 '，' ag_003 '，' ay_005 '，' ay_006 '，' ay_008 '，' ba_002 '，' ba_003 '，' ba_004 '，' cn_000 '，' cn_004 '，' cs_002 '，' cs_004 '，' ee_003 '，' ee_005']
对这些特性的分析表明，在这些顶级特性中，较高的值可能表明卡车的空气压力系统有故障。但是，在极少数情况下，这些值高于正常情况，但仍不会导致 APS 故障。示例:特征 ee_005 。对最不相关特征与目标变量( ay_005 )的单变量分析我们看到，对于 ag_002、ag_001、cn _ 000——对于这些其他顶级特征的任何值，当特征‘ay _ 005’中的值接近 0 时，APS 组件(类别标签= 1)存在故障。
通过使用随机森林分类器执行递归特征消除，我们发现来自数值数据集的前 15 个特征是: ['aa_000 '，' al_000 '，' am_0 '，' ap_000 '，' aq_000 '，' bj_000 '，' bu_000 '，' bv_000 '，' ci_000 '，' cj_000 '，' cq_000 '，' dg_000 '，' dn_000 '，' do_000 '，' dx_000 '
从单变量分析中，我们看到在所有特征中，除了 dg_000、cj_000、am_0 和 al_000 之外，特征中较高的值通常表示 APS 组件中的故障。但是由于数据的不平衡性质，这可能是不确定的。特征‘dx _ 000’是顶部特征中最不相关的特征。我们执行了类似于直方图顶部特征的双变量分析，此处所有图中的主要观察结果是，对于剩余特征的任何值，如果特征‘dx _ 000’具有低值(接近 0)，则可能指示APS 组件(类标签=1)中存在故障。

准备我们的数据(标准化+ SMOTE +欠采样)

标准化 一个向量最常意味着减去一个位置的度量，再除以一个尺度的度量。例如，如果向量包含具有高斯分布的随机值，您可以减去平均值并除以标准差，从而获得平均值为 0、标准差为 1 的“标准正态”随机变量。我们将使用 sklearn 的 MinMaxScaler 来缩放我们的数据。

不平衡分类的一个问题是少数类的例子太少，模型无法有效地学习决策边界。解决这个问题的一个方法是对少数类中的示例进行过采样。

SMOTE 和欠采样的组合比简单的欠采样执行得更好。

最后我们有33226 分属于负类，16613 分属于正类。我们将通过线性模型(逻辑回归和支持向量机)传递我们的缩放数据集。

实验经典 ML 模型

现在，我们已经准备好执行 EDA、数据预处理和特征工程，让我们继续建模。我们将通过各种模型传递我们的数据，执行超参数调整，并根据我们的性能指标(宏观 F1 得分)和混淆矩阵对每个模型进行评估。我们将在这里尝试的不同模型是逻辑回归、支持向量机、朴素贝叶斯、决策树、随机森林、梯度增强决策树、Adaboost 分类器和自定义集成。

作为基线模型，我们将预测所有类别标签为 0(多数类别)，并计算相同类别的 F1 分数。我们可以使用 sklearn 的 DummyClassifier 来获得基线结果。

对于我们的定制套装:

将列车组分成 D1 和 D2(50-50)。
从 D1，用替换的执行取样以创建 d1、d2、d3 …dk (k 个样本)。
现在，创建“k”个模型，并用这 k 个样本中的每一个来训练这些模型。
让 D2 通过每个“k”模型，这给了我们每个模型对 D2 的“k”预测。
使用这些“k”预测创建一个新的数据集，对于 D2，因为我们已经知道它的相应目标值，我们现在可以用这些“k”预测作为特征来训练一个元模型。
对于模型评估，我们将通过每个基础模型传递我们的测试集，并获得“k”个预测。然后，我们可以用这些“k”个预测创建一个新的数据集，并将其传递给之前训练过的元模型，以获得我们的最终预测。
现在，使用这个最终预测以及测试集的目标，我们可以计算模型的性能分数。

我们可以用决策树作为基础模型，用 GBDT 作为元模型。这是一个自定义实现的模型。

在执行超参数调整和试验各种模型之后，我们看到梯度提升决策树工作得最好，因为它获得了最高的宏 F1 分数(如下所示)。

建模概述

使用 Flask API 在本地服务器上部署:

该模型可以使用 Flask API 部署在我们的本地服务器上。相同的代码包括加载所需的模型，从。csv 文件，并将最终输出存储在输出目录下的. csv 文件中。

下面给出了相同的 HTML 代码

HTML 代码

在运行上面的代码时，我们本地服务器上的 html 页面看起来像这样，您可以在这里指定输入文件和输出目录的路径:

用于指定路径的 HTML 页

输出目录将由一个. csv 文件(包含时间戳)组成，该文件包含预处理数据集以及模型预测。

为了更清晰的画面，可以查看 这段视频 ，演示了完整的过程:

展示模型部署的 YouTube 视频

结论:

总而言之，我们首先移除具有最大量缺失值的特征，然后使用中位数和 MICE 插补方法的组合从剩余特征中插补缺失值，然后通过我们训练的梯度增强决策树模型传递该预处理数据集。取得的成果相当不错，并已部署。我希望这个项目能让你对如何着手任何数据科学项目有一个公平的想法，尤其是如果你刚刚起步的话:)

你可以在我的 Github 查看完整的代码。并随时通过 LinkedIn 或 Twitter 联系我。

未来范围

深度学习方法可以用来解决这个特定的问题，我们可以使用我们的性能度量来评估神经网络。
可以使用各种其他插补方法，例如软插补算法。

参考

ka ggle:https://www . ka ggle . com/UC IML/APS-failure-at-Scania-trucks-data-set
IDA 2016 工业挑战赛:利用机器学习预测故障:https://link . springer . com/chapter/10.1007/978-3-319-46349-0 _ 33
【https://www.appliedaicourse.com/】应用人工智能课程:
机器学习掌握:https://machinelearningmastery.com/

用 DNA 甲基化数据预测年龄

原文：https://towardsdatascience.com/predicting-age-with-dna-methylation-data-99043406084?source=collection_archive---------23-----------------------

实践教程

建立模型从 DNA 甲基化数据预测年龄，包括比较组织和疾病队列的表现。

这个项目是作为 哈佛顶点 IACS 课程 的一部分进行的

小组成员:丹尼尔·考克斯、雷亚新、埃莉诺拉·尚西拉、亚伦·雅各布森

特别感谢我们的课程导师克里斯·坦纳博士和 TF 黄家仪的指导和支持。

问题描述

你多大了…生理上？科学家们发现，衰老的过程不仅在我们整个身体中，而且在我们的每个细胞中都引起了可观察到的变化，而且这一过程在不同的人之间不一定以相同的速度进行。某些特定年龄的人在生理上可能比其他人更年轻或更老。我们如何判断一个人的生理衰老速度是快于还是慢于平均水平？加速老化在多大程度上反映了当前或未来的疾病？这些问题是该团队旨在用生物数据来回答的，以评估给定个体的细胞以异常方式老化的程度，这可能表明需要治疗干预。

我们解决这个问题的方法是建立模型来预测真实的年龄，然后用这些模型作为比较特定个体的基线。

起初，还不清楚哪种生物数据是衰老的良好标志，我们考虑了几种:各种生物分子的血液水平、大脑的 MRI 扫描、各种组织中的 DNA 表达水平等。最终，在初步实验和文献回顾后，我们决定将 DNA 甲基化作为最有希望的年龄预测指标。

什么是 DNA 甲基化？

在人类中(几乎)所有的细胞都有一个包含称为染色体的长双链 DNA 的细胞核。每条染色体由一个主链组成，主链上有成对的含氮碱基 A、G、T 和 C，它们以不同的顺序重复排列，就像串珠一样(图 1)。在这条串珠状细绳的某些地方，有一些被称为甲基的额外装饰，它们是由特定于这项工作的酶放在那里的，更有趣的是，这些甲基连接的位置会随着年龄的变化而变化。

图一。DNA 甲基化。图片作者。

一般来说，老年人的 DNA 甲基化程度低于年轻人，但在任何特定的位点，甲基化程度都可能是双向的。甲基化可能在某些位置随年龄增长而增加，而在另一些位置则降低。我们说的是多少个职位？几百万。一般来说，DNA 甲基化的位点是 G 跟在 C 后面，中间有一个磷酸基团。这些位点被称为 CpG 位点，在我们的 DNA 中有大约 2000 万个，所以问题很快就变成了哪一个最能代表年龄？

数据

为了检验这个问题，我们从表观基因组数据中心(EWAS)的数据开始，这是一个 DNA 甲基化库。我们从健康个体的血细胞数据开始工作。该数据中的 CpG 站点数量约为 480，000 个。下面的图 2 显示了经过处理的数据的一小部分。

图二。全血组织样本的 EWAS 健康队列数据的子部分。图片作者。

每行对应一个个体的样本，每列对应一个 CpG 站点。表中的值表示该样品中 DNA 特定位点被甲基化的概率。通过选择年龄在 20-110 岁之间的个体并删除缺失值超过 10%的列进行初始预处理后，数据集包含 1066 行和 375，603 列。

该数据被分成训练集(75%)和测试集(25%)，两者都用训练集的列平均值进行估算。然后我们开始建模。

基线模型:使用所有特征的线性和 XGBoost 模型

我们最初的方法是利用所有可用的 CpG 位点(特征),确定我们从健康对照全血数据中预测人类实足年龄的准确度。为了研究这一点，我们使用年龄作为因变量对所有特征进行了线性回归。在我们的整个分析中，我们使用平均绝对误差(MAE)作为精度指标。MAE 是指预测年龄和真实年龄之间的平均绝对差值。结果如图 3 所示。令人鼓舞的是，无论有没有调整，线性模型都可以很好地预测整个生命周期的年龄，最好的模型在测试数据集(267 人)上达到了 4.43 年的平均寿命。我们还对该数据使用了一种基于非线性树的回归方法 XGboost，并发现了一些改进，实现了 4.32 年的平均寿命。

图三。使用所有 375，603 个特征，1066 个样本，从全血 DNA 甲基化数据预测年龄。图片作者。

与样本数量相比，大量的特征使模型容易过度拟合，导致下一个自然问题:哪些 CpG 网站与年龄预测最相关？

功能选择

为了回答这个问题，我们试图用几种方法来减少特征的数量:线性拟合的统计测试、自举相关分析、Shapley 评分的排序，以及使用 XGboost 回归的特征重要性。其中，线性拟合、Shapley 评分和 XGboost 回归的统计测试得出了类似的结果。我们选择了下面描述的 XGboost 方法(图 4 ),用于所有后续的模型构建。我们对数据进行了 80/20 的测试分类。我们将 XGBoost 模型应用于这一拆分，并记录了哪些 CpG 进入了前 100 名的重要性分数。这被重复了 50 次，然后每个 CpG 站点出现在前 100 个重要性分数中的频率被用来按照重要性排序。

图 4。使用 XGBoost 进行特征选择的工作流。图片作者。

下面的图 5 显示了前 100 个 CpG 站点的这些频率的直方图。换句话说，它显示了在我们的 50 次试验中，每个 CpG 站点出现在前 100 个重要性分数中的频率。例如，图中的前 6 个特征的频率为 50，这意味着它们出现在所有 50 次随机试验的前 100 名中。这个结果是极不可能偶然出现的。事实上，任何 CpG 在 50 次试验中偶然出现 4 次以上的概率是 p = 7.66e-7。因此，这种方法是有选择性的，它可能选择那些甲基化与衰老最相关的 CpG。

图五。CpG 在前 100 个重要性分数中出现的频率。图片作者。

有了这个过程，我们接着讨论应该使用多少这些顶级特性的问题。

模型 1:使用精选功能的线性和 XGBoost 模型

为了了解这种选择过程如何挑选出与年龄最相关的特征，我们首先将特征的数量从不到 40 万个减少到前 100 个。对这 100 个 CpG 位点重复了年龄预测基线模型，产生了图 6 中的结果。

图六。使用 XGboost 交叉验证排名的前 100 个 CpG 站点预测年龄。图片作者。

值得注意的是，在将模型的特征从超过 40 万个削减到 100 个后，较小的模型表现相当。当使用 100 个 CpG 的随机集合时，情况并非如此，这表明我们的 CpG 排名方法有一些优点，并且数据集中的许多 CpG 位点可能与年龄预测无关。

接下来，为了找到在我们的模型中使用的最佳数量的特征，我们用不同数量的排名靠前的 CpG 站点来拟合数据。我们重复做了 50 次，每次用不同的 80/20 测试验证分割，然后确定最佳的 CpG 数。每种条件下 50 次实验的平均 MAE 值绘制在图 7 中。

图 7。平均绝对误差是所用分级 CpG 数量的函数。图片作者。

有趣的是，对于非正则化线性回归(图 7-A ),最佳 CpG 数在大约 100 处开始趋于稳定，对于岭回归、Lasso 回归和 XGboost 回归(图 7 B-D ),最佳 CpG 数在大约 1000 处开始趋于稳定。对排名前 1000 的 CpG 重复建模，获得了相对于 100 CpGs 的适度改进，最佳模型是岭回归模型，该模型使用排名前 1000 的 CpG 并获得了 3.73 年的 MAE，如图 8 所示。

图 8。使用通过 XGboost 交叉验证和岭回归排序的前 1000 个 CpG 站点预测年龄。图片作者。

这是我们能达到的最高精度吗？或者我们可以用更复杂的模型比如神经网络做得更好吗？

模型 2:神经网络

类似于线性和 XGBoost 模型分析，神经网络(NN)建模的第一步是测试有多少特征是最佳的。从两个 NN 结构开始:NN A)包含 3 个隐藏层(节点号 128->56>28)，NN B)包含 2 层(节点号 128->56)。我们再次改变了 CpG 的数量，现在寻找用于神经网络建模的最佳数量(图 9)。

图九。NN A)具有 3 个隐藏层(左)和 NN B)具有 2 个隐藏层(右)的不同数量的顶部特征的平均平均误差。图片作者。

从图 9 中，我们可以看到，具有 3 个隐藏层的 NN A)在 300 到 700 CpGs 时性能最佳，NN B)的性能在 400 CpGs 左右处于平稳状态。有了这些信息，我们随后改变其他模型超参数—隐藏层节点数、激活函数—来调整神经网络模型以获得最佳性能。我们获得的最佳模型是一个具有 2 个隐藏层(隐藏层节点编号 128->64)的神经网络，它使用了前 700 个 CpG，并实现了 3.597 年的平均寿命(图 10)。

图 10。使用具有三个隐藏层的神经网络预测年龄，其中包含 700 个顶级 CpG。图片作者。

下面图 11 中的表格总结了我们用来自健康队列的全血的 DNA 甲基化数据的建模结果。具有 1000 或 100 CpGs 的 Ridge 和 Lasso 模型表现良好(MAE 分别= 3.73 和 3.88 年)，但神经网络表现最好(MAE = 3.60)。将这些结果与文献进行比较，我们的神经网络模型的误差与(2013)[1]和 Hannum (2013)[2]的误差相当，但不如张等人(2019)[3]的误差，后者报告的一些数据集的 rMSE 低至 2.04 年。

图 11。适用于血液 DNA 甲基化数据(测试数据)的模型总结。图片作者。

使用全血的 DNA 甲基化数据建立了这些模型后，我们考虑的下一个问题是这些模型是否可以不加改变地用于其他组织的数据。

对其他组织的可转移性

为了检验这一点，将两个最好的血液模型应用于大脑和乳房数据，而无需重新训练。岭回归模型的结果如图 12 所示，神经网络的结果如图 13 所示。答案很清楚:不，这些模型不能在组织间转移。

当我们的血液拟合脊模型应用于来自大脑的甲基化数据时，其年龄预测是平坦的，总是接近 40 岁。(图 12-A)。并且，当它被应用于乳房组织数据时，它的预测再次是平坦的，但是现在接近 80 岁(图 12-B)。

图 12。应用由全血 DNA 甲基化数据开发的脊模型，使用来自其他组织的数据(1000 CpGs)。图片作者。

当使用血液训练的神经网络模型预测年龄时，也观察到类似的系统预测变化(图 13)。当血液拟合神经网络应用于来自脑组织的甲基化数据时，我们看到了普遍的预测不足，而当其应用于乳腺数据时，我们看到了预测过度。

图十三。应用由全血 DNA 甲基化数据开发的神经网络模型，使用来自其他组织的数据。图片作者。

这种模型可转移性的缺乏可能是因为 1)不同的 CpG 位点可能与不同组织中的年龄预测最相关，或者 2)血细胞中 DNA 甲基化的一些特殊之处使其比其他组织中的 DNA 甲基化更能预测年龄。这些要点将在下面进行研究。

功能的可转移性

我们首先询问排名靠前的血液特征是否可以用来预测其他组织甲基化数据的年龄。事实证明，答案是肯定的。我们发现，用血液数据预测年龄的最重要的特征也可以有效地用于用白细胞、乳腺和脑甲基化数据进行年龄预测建模。也就是说，虽然模型不能直接转移，但是特性是可以转移的。

对于白细胞数据，使用 782 个排名靠前的血液 CpG 的具有 2 个隐藏层(隐藏层节点编号 128->56)的 NN 实现了 3.51 的 MAE(图 14)，事实上略好于根据全血数据训练的类似模型。然而，这种令人印象深刻的性能并不适用于所有组织，因为用血液排序的 CpGs 训练的最佳乳房神经网络达到了 5.97 的 MAE，而用血液排序的 CpGs 训练的最佳大脑神经网络达到了 6.02 的 MAE。但是，这些结果确实证明了组织间某种程度的可移植性。

图 14。使用拟合白细胞数据的神经网络来预测年龄，该数据具有两个隐藏层，其中 782 个顶级 CpG 通过 XGBoost 从全血交叉验证中生成。图片作者。

2。其他组织预测的准确性

我们考虑的下一个问题是，来自全血以外的组织的 DNA 甲基化数据是否同样适用于预测年龄。我们通过重复对来自其他组织的全血数据使用的特征选择过程来检验这一点。然后，我们分别为每个组织建立模型，只考虑每个组织特定的排名靠前的 CpG 位点。脑和乳腺组织的岭回归结果如下图 15 所示。

图 15。使用来自大脑和乳房数据的前 1000 个 CpG 开发的线性模型。图片作者。

有趣的是，用这些组织的数据建立的模型在预测年龄方面不如用血液数据建立的模型好。它们的 MAEs 要大得多，所以也许血细胞有一些独特的东西可以很好地预测年龄。

向不健康群体转移的可能性

既然我们知道模型在组织之间是不可转移的，但是这些特征在某种程度上是可转移的，我们问的下一个问题是用健康个体的数据建立的模型可转移到不健康的个体吗？为了这个项目的目的，我们将“不健康”定义为患有神经退行性疾病的个体，例如，亨廷顿舞蹈症、帕金森氏症和阿尔茨海默氏症。这些群组的数据也可以在 EWAS 上获得，尽管在下载的数据中只有大约 225，000 个 CpG 站点。在这项分析中，我们使用了来自健康对照和亨廷顿舞蹈症和阿尔茨海默氏症患者的大脑 DNA 甲基化数据。

使用健康个体的前 100 个中的 55 个 CpG 位点(由 XGBoost 选择)在健康群组上训练线性模型，所述健康个体在不健康群组中可用。这些模型中最好的是 lasso 回归模型，其 MAE 达到 5.431。

将这些模型直接应用于阿尔茨海默氏症和亨廷顿氏症患者，我们看到健康模型在两个不健康群体中都表现非常好。表现最好的线性模型(lasso 回归)实现了阿尔茨海默氏病患者的 MAE 为 4.771，亨廷顿氏病患者的 MAE 为 4.471(图 16)。换句话说，使用 55 个健康 CpG 的脑组织模型可转移到不健康群组，并在它们身上实现比在健康群组上更好的测试准确性。

图十六。55 个 CpG 位点的脑组织健康对照模型应用于 A)阿尔茨海默氏病脑组织数据(811)和 B)亨廷顿氏病脑组织数据(270)。图片作者。

该模型的可转移性表明，健康个体中与年龄高度相关的 CpG 位点也与不健康个体中的衰老相关，这提出了一个问题，即与这些 CpG 位点相关的体重在健康和不健康队列之间是否不同。使用相同的 55 个 CpG 重新训练该模型，但现在对不健康的队列进行训练(单独进行)，我们在三个模型中得到了 MAE 的改善。图 17 显示了 lasso 回归的结果，这也是我们的最佳模型，阿尔茨海默病患者的 MAE 为 4.171，亨廷顿舞蹈病患者的 MAE 为 4.184。

图 17。A)阿尔茨海默氏病 B)亨廷顿氏病使用来自健康队列的 55 个显著 CpG 位点的不健康队列的脑组织模型的结果应用于测试集。图片作者。

查看与这三个模型(健康、阿尔茨海默氏症和亨廷顿氏症)相关的权重，并为每个 CpG 位点绘制它们，我们可以在图 18 中看到结果。从图中，我们可以看到，对于大多数 CpG 位点，权重的大小在三个组群之间发生变化，但其方向(符号)没有变化。

图 18。健康对照(HC)、阿尔茨海默氏病和亨廷顿氏病模型的 55 个 CpG 位点的 lasso 回归模型权重图。图片作者。

健康与不健康的分类

考虑到队列之间的体重量级差异有多大，我们训练了一个逻辑回归分类器，以确定我们是否可以使用与衰老最相关的 CpG 位点区分健康和阿尔茨海默氏症队列。使用类别准确度(分配给其真实类别的点的比例)作为评估度量，我们训练了许多分类器。

这些包括:使用前 55 个健康大脑 CpG 和年龄作为特征(分类准确度为 0.73)；使用来自应用在健康群组上训练的脑模型的年龄和残差值作为特征(分类精度为 0.73)，并且使用来自应用在阿尔茨海默氏症群组上训练的脑模型的年龄和残差值，使用该群组中与老化最相关的 CpG 位点(分类精度为 0.69)。给定分类准确度值，我们得出结论，与衰老最相关的 CpG 位点只能区分健康人群和阿尔茨海默病人群，并取得中等成功。

生物学意义

关于我们的结果，一个自然的问题是甲基化可能影响哪些基因，从而可能影响衰老？下面的图 19 显示了前 23 个血液 CpG 位点到基因的映射。一些基因与一个以上的顶级 CpG 位点相关，例如 KLF14，一种被认为是脂肪组织中基因表达的主要调节因子的转录因子。

图 19。与排名前 23 位的 CpG 位点相关的基因，血液数据。图片作者。

KLF14 和另外两个以紫色显示的基因(ELOVL2 和 ZNF423)与脂肪细胞或脂肪代谢有关。因此，脂肪代谢和储存过程可能对衰老有重要影响。此外，还有四个与泛素-蛋白酶体途径(red)相关的基因，即 OTUD7A、TRIM59、RNF180 和 NHLRC1(蛋白质降解的重要途径)。事实上，其中三个基因是 E3 泛素连接酶，负责标记降解蛋白。因此，就寻找衰老过程中的干预措施而言，靶向该途径可能是一种有希望的研究途径。事实上，尽管存在 DNA 甲基化，但已有多项研究确定该途径对衰老具有重要影响(Bergsma 和 Rogaeva (2020)[4]，Kevei 和 Hoppe(2014)[5])。

结论

从上述分析中得出的结论是:

我们已经能够构建预测年龄的模型，在整个成人寿命期间，平均误差为 3.6 年。
从开始的约 400，000 个 DNA 甲基化位点(CpG 位点)中，我们确定了约 700 个最适合年龄预测建模的位点。
模型不能跨组织转移，但许多 CpG 可以。
使用健康个体的脑组织开发的模型也可以预测神经退行性疾病患者的年龄。
我们的顶级 CpG 通常与调节脂肪组织基因表达和泛素-蛋白酶体蛋白降解途径的基因相关。

参考文献

人类组织和细胞类型的 DNA 甲基化年龄。Genome Biol，2013。14(10):第 R115 页。
Hannum，g .，等，全基因组甲基化谱揭示了人类衰老速率的定量观点。Mol Cell，2013。49(2):第 359-367 页。
Zhang，q .，等，跨组织表观遗传时钟估计的精度提高及其对生物衰老的意义。基因组医学，2019。11(1):第 54 页。
Bergsma，t .和 E. Rogaeva，DNA 甲基化时钟及其对衰老表型和健康寿命的预测能力。《神经科学洞察》，2020 年。15: p. 2633105520942221。
Kevei，e .和 T. Hoppe，泛素设定时间:对衰老和寿命的影响。Nat Struct Mol Biol，2014。21(4):第 290-2 页。

在 Jupyter 笔记本中使用 Microsoft Azure 机器学习和 Python 预测银行客户流失

原文：https://towardsdatascience.com/predicting-bank-customer-churn-using-microsoft-azure-machine-learning-python-in-jupyter-notebook-cbac39e3012a?source=collection_archive---------31-----------------------

了解使用 Azure 资源和 Python 编写和运行笔记本有多简单

凯文·Ku 摄于 Unsplash

在本教程中，我们将使用 python notebook 和 Microsoft Azure services 构建一个人工神经网络(ANN)来预测银行客户流失。请注意，Azure Machine Learning (ML)提供了很多东西，在本文中，我将展示使用 Azure resources 和 python 编写和运行笔记本是多么容易。

先决条件

你应该熟悉机器学习。即使你不明白，也要试着跟着做，坚持练习。
你应该知道张量流。你可以在网上找到大量的资料并了解它。
您必须订阅 Microsoft Azure。Azure 向学院或大学学生提供免费学分。在这里创建一个账户。

创建 Azure 机器学习服务

转到 Azure 门户并点击“+”符号创建一个资源。
搜索“机器学习”并点击创建。
输入详细信息，然后单击“审查和创建”
最后，单击“创建”开始部署过程。
大约 3-4 分钟后，您的服务应该可以使用了，您应该会看到类似这样的内容:

Azure 机器学习

Azure 机器学习工作区

去 Azure 机器学习门户。
确保您使用与登录 Azure 门户时相同的电子邮件 id 登录。
花点时间理解被询问的信息。
选择正确的订阅和工作区。请记住我们之前创建的工作区，您将在这里找到它以供选择。
完成后，点击“开始”。您的工作区已经可以使用了！
这是它应该有的样子。我强烈建议你花大量的时间来看看所提供的服务。在底部，您可以找到很好的文档来帮助您开始。
在 Azure 机器学习工作区中，选择“新建”，然后选择“笔记本”。
会弹出一个对话框，要求您命名文件。在这里，我创建了一个名为“CustomerChurn.ipnyb”的文件。
从 Kaggle 下载这个数据集，并将其与 ipnyb 文件一起上传到笔记本文件夹下的 Azure ML 门户上。

创建计算

打开笔记本，在第一个单元格中输入“7+5 ”,并使用该单元格左侧的小三角形(运行)按钮运行它。您应该看到以下内容:

创建计算

计算是一个重要概念，没有它你将无法运行一个单元(或整个笔记本)。继续创建一台计算机:

如上所示，点击“点击计算”。
选择您希望用于计算实例的虚拟机大小。
在 CPU 或 GPU 虚拟机类型之间切换。当使用支持 GPU 的虚拟机时，确保编写的代码能够利用可用的 GPU 设备。
根据需要选择其他选项。如果你只是尝试 Azure，我建议你总是选择免费的或者花费最少的选项。
选择“create ”,大约需要 10-12 分钟来创建一个可供使用的虚拟机。现在你应该可以运行你的手机了。

数据可视化，分析&清洗

现在，我们已经准备好了所有的组件(数据集、计算、笔记本电脑设置)，是时候施展魔法了！

为了简单起见，这里我只解释重要的代码片段。你可以在 Github 上查看整个笔记本。

第一步是读取数据集并理解属性的数据类型、不需要的属性等。

第二步是将分类值转换为数值，因为 ML 模型处理的是数值数据。例如，下面的代码在整个数据集中用 1 替换值“女性”,用 0 替换值“男性”。

df['Gender'].replace({'Female':1,'Male':0},inplace=**True**)

拥有一个缩放的数据有助于训练一个人工神经网络。在我们的数据集中，一些属性没有缩放。

col_to_scale = ['CreditScore','Age','Tenure','Balance','EstimatedSalary','NumOfProducts']

**from** **sklearn.preprocessing** **import** MinMaxScaler
scaler = MinMaxScaler()

df1[col_to_scale] = scaler.fit_transform(df1[col_to_scale])

下面的代码根据地理位置绘制了离开和不离开的人数。

Microsoft Azure 机器学习笔记本中的输出

创建训练和测试分割

我们需要将数据集分为训练数据集和测试数据集。由于 sklearn 模块，这是一个非常简单的任务。要了解更多，请观看这个非常棒的视频。

**from** **sklearn.model_selection** **import** train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=5)

创建人工神经网络

我将使用 TensorFlow/Kera 建立模型。点击了解更多信息。花些时间真正理解代码。请记住，下面的值是基于点击和尝试。在最终确定这些值之前，我多次运行这个模型(用这些值获得了最大的准确性)。

**import** **tensorflow** **as** **tf**
**from** **tensorflow** **import** keras

model = keras.Sequential([
    keras.layers.Dense(12, input_shape=(12,), activation='relu'),      *#12 because number of inputs is 12*
    keras.layers.Dense(6, activation='relu'),                           *# hidden*
    keras.layers.Dense(1, activation='sigmoid')
])

*# opt = keras.optimizers.Adam(learning_rate=0.01)*

model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(X_train, y_train, epochs=100)

预测和准确性

一旦所有时期都运行了，您就可以使用

model.evaluate(X_test,y_test)

分类报告&混淆矩阵

分类报告是获取每个预测类的精度、召回率、f1 值和支持值的一种很好的方式。

混淆矩阵，也称为误差矩阵，是一种特定的表格布局，允许算法性能的可视化。

注意事项

如果您得到一个错误“没有名为 seaborn 的模块”，请在使用 seaborn 之前运行下面的命令。

pip 安装 seaborn

以上命令将安装必要的库。

删除蔚蓝资源

由于 Azure 对正在使用的服务收费，因此总是建议删除您不再使用的资源。

在这篇博客中，你创建了两个资源——机器学习和资源组。

去 Azure 门户主页找这两个资源。打开它们并删除资源。一旦删除成功，您将不会为该资源付费。

结论

我演示了如何创建一个 ML 服务。此外，在 Microsoft Azure ML 中创建了一个工作区。然后，我们从 Kaggle 下载了数据集，并对其进行了分析，以便将其输入到 ANN 中。在 TensorFlow 的帮助下，创建并训练了一个 ANN。正如已经提到的，根据手头的工作和您的偏好，您可以利用大量的集成和功能。这篇博客一定给了你一个小小的窥视，并帮助你今天开始！

还有，你可以在 Twitter 和 LinkedIn 上问我一个问题！

参考文献

[1]教程:Jupyter 笔记本入门(Python)——Azure 机器学习。https://docs . Microsoft . com/en-us/azure/machine-learning/tutorial-1st-experiment-SDK-setup

[2]代码基础。(2018 年 8 月 6 日)。机器学习教程 Python — 6:虚拟变量&一热编码【视频】。YouTube。https://www.youtube.com/watch?v=9yl6-HEY7_s&list = pleo 1 k3 hjs 3 uvcetyteyfe 0-rn 5 r 8 Zn 9 rw&index = 6&ab _ channel = code basics

希望这对你有帮助。

谢谢你。

预测破产:或有索赔模型

原文：https://towardsdatascience.com/predicting-bankruptcy-the-contingent-claim-model-3701636b3ae9?source=collection_archive---------24-----------------------

穆迪对公司进行评级时使用的另一种方法

迪伦·吉利斯在 Unsplash 上的照片

多年来，崩溃预测一直是一个非常活跃的研究领域。重要的论文包括爱德华·奥特曼 1968 年的财务比率、判别分析和企业破产预测，这催生了他著名的 Z 分数，至今仍在使用，以及詹姆斯·奥尔森 1980 年的财务比率和破产概率预测及其 O 分数，至今仍在使用。这些论文以及之后的许多论文都是基于会计数据和财务比率。他们使用不同的分类和优化技术:逻辑回归、判别分析、神经网络、蚁群算法等，并主要根据来自损益表、资产负债表和现金流量表的财务数据对它们进行训练。

罗伯特·默顿(麻省理工学院，CC BY-SA 4.0

其他方法使用市场数据得出破产风险。一种基于市场的方法特别使用了 Black 和 Scholes 在 1973 年和 Merton 在 1974 年提出的思想，使用可能是金融数学中最具代表性的结果:Black-Scholes 方程和 Black-Scholes 公式来为期权和公司债务定价。这种公司债务定价方法是信用分析师 Kealhofer、McQuown 和 Vasicek (KMV)使用的方法，2002 年被评级机构 Moody's 收购。

在我们转到方法之前，让我们快速定义一下什么是选项。期权是一种金融衍生工具，允许其所有者在未来某一特定日期以特定价格买入(买入期权)或卖出(卖出期权)基础资产(通常是股票)(对于欧式期权，是指在该日期之前的任何时间)。默顿提出了这样一个观点:一旦债务得到偿还，一家公司的股权可以被视为该公司资产的欧式看涨期权。由于股权所有者的有限责任，如果资产不足以支付债务，股权价值就等于零。债务清偿后剩余的任何资产都可以由股权所有人主张。

我们如何给期权定价，或者说，股权定价？这就是布莱克-斯科尔斯模型的用武之地。它的基本思想是公司的资产遵循几何布朗运动:

上式中，W 是一个标准的维纳过程。我们看到引入了波动性使得这种方法不同于更传统的基于会计的方法。

权益的市场价值可以通过 Black 和 Scholes 公式获得，用于欧式看涨期权，如下所示:

随着

Ve:权益价值的市场
T:债务的到期时间
X:债务的账面价值，相当于看涨期权的履约价格的履约价值
r:无风险利率
sigma_a:资产收益的波动率
N:标准正态分布的累积密度函数；

现在，破产概率是指资产的市场价值小于在时间 T 到期的负债的面值的概率，计算方法如下:

但是，我们不知道 Va 和 sigma_a 的值，因此为了计算它们，我们同时求解上面给出的等式(1)和下面给出的“最佳对冲”等式(2 ):

我们现在可以计算漂移量μ。它表明了资产价值波动的总趋势。取无风险利率和资产收益之间的最大值:

最后是故障概率，它服从正态分布:

我们对模型输出的概率使用 0.5 的阈值来将公司分为破产和非破产。

值得一提的是，我们在该模型上使用了一个非常简单的实现，具有以下假设/限制:

我们不考虑支付股息
没有交易成本
借贷利率相同
无风险利率没有变化

用 Python 实现

我们现在将看到一个使用上述思想的 Python 实现。

我们将定义一个名为 prob_default() 的函数，该函数将一个 ticker 作为参数，并对 2018 年纽约证券交易所、纳斯达克和场外交易市场的所有 ticker 的数据运行该函数。

该函数选择与作为参数传递的股票价格相对应的每日股票价格数据，用于我们正在考虑的时间范围，我们称之为 dataframe daily_

"""DATA SELECTION"""    
start_date='2018-01-01'    
end_date='2018-12-31' 

# get data for that ticker    
daily_=daily[(daily.ticker==ticker)&(daily.date>=start_date)&(daily.date<=end_date)] # if get an empty dataframe, we skip that ticker    
if daily_.shape[0]==0:        
    print(ticker+" is empty")        
    return False
daily_=daily_.reset_index()
# we show the marketcap in the right unit   
daily_.marketcap=daily_.marketcap*1e6

然后，我们使用相隔 1 天的权益价值之间比率的对数来计算该期间的每日权益回报:

"""CALCULATING EQUITY RETURNS"""    
for j in range(1,daily_.shape[0]):        
    daily_.loc[j-1, 'returns'] = np.log(daily_.loc[j-1, 'marketcap'] /daily_.loc[j, 'marketcap'])

然后，我们可以使用这些数据来计算股票的年波动率。为了计算年波动率，我们将日收益率的标准差乘以 252 的平方根(一年中的交易日数)

"""CALCULATING THE VOLATILITY OF EQUITY: SIGE"""  sige=np.std(daily_.returns)*np.sqrt(252)

我们现在可以求解上面描述的联立方程(1)和(2)来找到 Va 和 sigma_a。我们分别使用 2018 年和 2017 年无风险利率的值 1.7%和 1.5%。对于债务的价值，X，我们用流动债务的价值+非流动债务价值的 50%。

然后，我们可以使用 SciPy 上的优化库的根函数来求解资产的市场价值及其波动性。我们需要找到 2018 年和 2017 年的数值。为什么是 2017 年？因为我们还想知道资产的平均年回报率。所以我们从 2018 年开始。

"""SOLVE SIMULTANEOUS EQUATIONS for 2018"""    
#2018    
# Initialising values    
T=1    
r=0.017    
ve=daily_.loc[0,'marketcap']   
X=df[df.ticker==ticker]['debtc'].values[0]+.5*df[df.ticker==ticker]['debtnc'].values[0] sol = optimize.root(fun, [X+ve, sige*ve/(ve+X)])    
va=sol.x[0]    
siga=sol.x[1]

接着是 2017 年。

#2017    
T=1    
r=0.015    
ve=daily_.loc[daily_.shape[0]-1,'marketcap']    X=df[df.ticker==ticker]['debtc'].values[0]+.5*df[df.ticker==ticker]['debtnc'].values[0] sol = optimize.root(fun, [X+ve, sige*ve/(ve+X)])    
va_1=sol.x[0]    
siga=sol.x[1]

接下来是我们的最后一步，我们通过使用 2018 年和 2017 年的 va 和 va_1 变量来计算资产的年回报率。当由此产生的回报率低于无风险利率时，我们使用无风险利率。

我们现在可以使用正常的 cdf 计算“违约距离”DDt 和违约概率。

#this gives the annual return    
mu=max((va-va_1)/va_1,r)    
DDt=(np.log(va/X)+(mu-0.5*siga**2)*T)/siga*np.sqrt(T) return norm.cdf(-DDt)

我们可以在苹果公司(“AAPL”)和琼斯能源公司(“JONEQ”)上测试我们的函数，我们得到苹果的概率为 1e-19%，琼斯能源的概率为 60%。我们将在下一节看到该方法如何对整个数据集执行。

完整的代码可以在下面找到

2018 年数据的结果

我们现在可以在 2017 年和 2018 年的整个数据集上运行该模型，看看它对 2019 年发生的破产的预测有多好。这是一个高度不平衡的数据集，因为我们有 3237 家公司，其中只有 30 家在 2019 年宣布破产，即 0.9%。在这些情况下，最好使用 F1 分数来判断我们模型的性能，因为在这种情况下，精确度和召回率比准确性更有意义。

我们使用 0.5 的阈值将公司分为破产和非破产，但看起来更低的阈值会提高我们的 F1 分数。

从下面的数据来看，我们获得了 8%的准确率、30%的召回率和 12%的 F1 值(以及 96%的准确率)。AUC 为 87%。

或有索赔预测模型的结果:混淆矩阵、ROC 曲线、指标与阈值和准确率。

虽然这些结果可能看起来很糟糕，但值得注意的是，我们实现了一个非常基础的模型版本。我们可以通过以下方式显著改善它:

更好地校准概率的截止点。较低的阈值提高了召回率(但也产生了许多误报)。
将股息支付纳入模型
使用正态分布以外的其他分布(这是穆迪/KMV 使用的方法)
不包括场外交易市场，因为报告要求没有纽约证券交易所或纳斯达克严格

注来自《走向数据科学》的编辑: 虽然我们允许独立作者根据我们的 规则和指导方针 发表文章，但我们不认可每个作者的贡献。你不应该在没有寻求专业建议的情况下依赖一个作者的作品。详见我们的 读者术语 。

参考

Hillegeist，S. A .，Keating，K. E .，Cram，D. P .，& Lundstedt，K. G. (2004 年)。评估破产概率。会计研究回顾，9(1)，5–34

默顿，R. C. (1974)。论公司债务的定价:利率的风险结构，金融杂志，29(2)，449–470。

瓦萨苏，m .，&邢，Y. (2004)。股权收益违约风险。金融杂志，59(2)，831–868

用线性支持向量回归预测身体质量指数值

原文：https://towardsdatascience.com/predicting-bmi-values-with-linear-support-vector-regression-ba21eddf6938?source=collection_archive---------59-----------------------

线性回归模型

来源:图片由 JJuni 从 Pixabay 拍摄

在本例中，来自 sklearn 的 LinearSVR 用于预测来自皮马印第安人糖尿病数据集的一组患者的身体质量指数值。

具体来说，我们将观察如何使用 LinearSVR 来拟合上图所示问题中的观测值的超平面，并在该超平面内拟合尽可能多的实例，同时限制边界违规。在这方面，LinearSVR 是 LinearSVC 类的基于回归的等价物。

特征选择

为此，我们将分析特征的简单相关图，以确定哪些特征要包含在模型中。

当查看相关变量的相关图时，我们可以看到结果(无论该人是否患有糖尿病)、葡萄糖和皮肤厚度与身体质量指数(在本例中为结果变量)表现出相对较强的相关性。

资料来源:RStudio

也就是说，我们看到结果和血糖变量的相关性为 0.49。这表明变量可能是多重共线性的，即它们都在解释同一件事(在这种情况下，这个人是糖尿病患者)，因此包括两者可能是多余的。

在这种情况下，我们将包括葡萄糖和皮肤厚度作为建模身体质量指数的两个特征。

训练 LinearSVR 模型

加载变量并进行列车测试分割:

y1 = np.array(bmi)x1 = np.column_stack((skinthickness, glucose))
x1 = sm.add_constant(x1, prepend=True)X_train, X_val, y_train, y_val = train_test_split(x1, y1)

现在，LinearSVR 模型是用不同的ε值定义的。

from sklearn.svm import LinearSVRsvm_reg_0 = LinearSVR(epsilon=0)
svm_reg_05 = LinearSVR(epsilon=0.5)
svm_reg_15 = LinearSVR(epsilon=1.5)svm_reg_0.fit(X_train, y_train)
svm_reg_05.fit(X_train, y_train)
svm_reg_15.fit(X_train, y_train)

使用验证数据生成预测:

predictions0 = svm_reg_0.predict(X_val)
predictions05 = svm_reg_05.predict(X_val)
predictions15 = svm_reg_15.predict(X_val)

RMSE(均方根误差)值是通过将预测值与验证集进行比较而生成的。

>>> mean_squared_error(y_val, predictions0)
>>> math.sqrt(mean_squared_error(y_val, predictions0))6.776059607874521>>> mean_squared_error(y_val, predictions05)
>>> math.sqrt(mean_squared_error(y_val, predictions05))8.491111246123179>>> mean_squared_error(y_val, predictions15)
>>> math.sqrt(mean_squared_error(y_val, predictions15))5.905569225428098

我们可以看到，当ε值设置为 1.5 时，获得最低的 RMSE。然而，这仅略低于当 epsilon 设置为 0 时获得的值。根据上面引用的 sklearn 文档，ε的值取决于数据的规模。如有任何疑问，该值应保留为 0。

在这点上，ε0 将被用于生成对测试集的预测和分析随后的 RMSE。

针对看不见的数据进行测试

一部分数据来自用于训练 LinearSVR 的原始数据集。

现在，该模型用于对保留的要素数据进行预测，并将预测值与未知的身体质量指数值进行比较。

atest = np.column_stack((t_skinthickness, t_glucose))
atest = sm.add_constant(atest, prepend=True)t_bmi = h3data['BMI']
btest = t_bmi
btest=btest.valuesbpred = svm_reg_0.predict(atest)
bpred

产生的 RMSE 值为 7.38，大约是 32.82 处测试平均值大小的 22%。对于这个特定的数据集，其他要素(包括最终从分析中删除的要素)不太可能解释身体质量指数的所有变化。生活方式因素，如每天消耗的卡路里、每天的运动量等，可能会对整体身体质量指数指数产生重大影响。

在这一点上，我们可以判断，所确定的特征在解释身体质量指数的大部分变化方面做了相当好的工作。

结论

在这个例子中，您看到了如何使用 LinearSVR 解决回归问题。具体来说，我们看到:

相关图如何帮助特征选择
线性向量回归机的构型和ε的作用
如何使用 RMSE 测试模型准确性

正如我们所见，虽然模型在估计身体质量指数值方面表现得相当好，但考虑到某些对影响身体质量指数值很重要的要素没有包含在数据集中，这一点也很重要。因此，在缺乏数据的情况下，在缺乏可用数据的情况下，LinearSVR(或任何模型)能够最大限度地提高准确性是有限度的。

非常感谢您的时间，任何问题或反馈都非常欢迎。

免责声明:本文是在“原样”的基础上编写的，没有任何担保。本文旨在提供数据科学概念的概述，不应以任何方式解释为专业建议。

参考

Aurélien Géron:使用 Scikit-Learn 和 TensorFlow 进行机器学习
ResearchGate:在支持向量回归的回归问题中，ε= 0 有什么问题？

用 Python 预测桌游评分

原文：https://towardsdatascience.com/predicting-board-game-ratings-with-python-60c9de9ee067?source=collection_archive---------20-----------------------

为实时数据科学竞赛编写解决方案

切片背景

SLICED 是一个竞争性的数据科学游戏节目，参与者有两个小时的时间来探索和预测他们刚刚看到的数据。如果你对数据分析、数据科学或机器学习感兴趣，我强烈推荐你去看看这些剧集。

尼克·万和梅格·里斯达尔是《切片》的主持人。在第一周，参赛者被要求预测棋盘游戏的评分，给出一系列特征(游戏发布的年份，游戏持续的时间等)。

你可以在 Twitch 上查看《T4》第一集，在上了解更多关于该剧的内容和时间安排。

两小时后的数据科学

作为一个挑战，我想尝试在两个小时内建立一个预测——类似于参赛者，尽管在我编码时没有 200 人看着我，压力要小得多。

问题概述

该数据集包含约 3，500 个棋盘游戏，具有各种描述性栏目和我们试图预测的“极客评级”。目标是预测另外 1，500 个棋盘游戏的未知极客评级。你可以在下面看到几个专栏的样本，在 kaggle 上可以获得完整的数据(和得分)。

数据概述

探索性数据分析

我做的第一件事(导入库和数据之后)是用我们的目标变量 geek_rating 绘制各种特性的 pairgrid。有些列是文本或者有点难以解析，我把它们留到后面的步骤中。这样做的时候，我注意到一些有趣的关系:

棋盘游戏的特征(最少玩家、最多玩家、平均游戏时间)似乎与预测评级有松散的关系。就有多少玩家和一款游戏需要多长时间才能被评为优秀而言，可能存在一个最佳点。
在有多少人拥有一个游戏/对一个游戏投票和它的评价有多高之间似乎有一个更强的(和非线性的)关系。
游戏在被高度评价之前已经存在了一段时间。

pg = sns.PairGrid(train_df, x_vars=['min_players', 'max_players', 'avg_time', 'year', 'owned', 'num_votes', 'age'], y_vars=['geek_rating'])
pg.map(sns.scatterplot)

成对网格图

进一步挖掘，绘制出玩家的最小数量和等级，我们看到 1-2 个玩家的最小平均得分最高。对最大玩家的类似分析表明，最“正常”的游戏配置似乎很受欢迎。

sns.boxplot(data=train_df, x='min_players', y='geek_rating')

最小玩家盒图

视觉扫描一些游戏机制，我挑选了一些导致更高分数的关键词。一个更好的方法是解析出各种短语，并使用游戏机制和评级之间的汇总统计数据建立关系……但两个小时很快就过去了！

train_df.groupby('mechanic')['geek_rating'].mean().sort_values(ascending=False)[:20]
train_df.groupby('mechanic')['geek_rating'].mean().sort_values(ascending=False)[-20:]

特征工程

玩家分组

我决定添加一个“玩家分组”的特性，只是为了捕捉一些在玩家数量方框图中可见的关系。决策树等机器学习算法可以自动提取这些信息，但它很快就将我认为有用的信息编码为一个集合，以帮助学习。

def player_grouping(df):
    if df['min_players'] <= 0:
        return 'Low'
    elif df['max_players'] <= 3:
        return 'Low'
    elif df['min_players'] == 8:
        return 'Exact'
    elif df['min_players'] == 5:
        return 'Odd'
    elif df['max_players'] > 3 and df['max_players'] <= 7:
        return 'Exact'
    else:
        return 'Other'

train_df['player_grouping'] = train_df.apply(lambda row: player_grouping(row), axis=1)

新的衍生玩家分组功能

类别评分

我想创建的下一个功能是基于游戏的类别(策略、骰子等)。

这些信息存储在许多列中。我使用第一个创建了一个查找字典(最好有全部 12 个，但是时间过得很快……)，然后遍历各个列，找到与类别术语相关的平均分数。例如医学、文艺复兴和文明类别表现最好，而琐事、记忆和数字类别表现最差。

category_lookup_dict = dict(train_df.groupby('category1')['geek_rating'].mean())

def get_combined_category_scoring(df, category_dict, col_list):
    score_list = []
    for col in col_list:
        if df[col] != np.nan:
            # Handle errors for new categories not profiled
            try:
                score_list.append(category_dict[df[col]])
            except:
                pass
    if len(score_list) > 0:
        return np.mean(score_list)
    else:
        return 6.09 # avg for missing categories

col_list_cat = [col for col in train_df.columns if 'category' in col]
train_df['cat_score'] = train_df.apply(lambda row: get_combined_category_scoring(row, category_lookup_dict, col_list_cat), axis=1)

技工组

我在游戏机械领域做了类似的特征工程，但是随着时间的减少，关于计算平均值和二进制标志方法的科学程度降低了。

预言；预测；预告

最后一步是选择输入预测和机器学习算法的列。我试了几个，最后用的是渐变提升。我没有花太多时间优化超参数，只是使用了默认值。

feature_cols = ['age', 'player_grouping', 'owned', 'num_votes', 'cat_score', 'min_players', 'max_players', 'avg_time',
       'min_time', 'max_time', 'year', 'mechanic_group']
target_col = 'geek_rating'

x = train_df[feature_cols]
y = train_df[target_col]

reg = GradientBoostingRegressor()
reg.fit(x, y)
predictions = reg.predict(x)
print(f'RMSE for training set: {np.sqrt(mean_squared_error(y_true=y, y_pred=predictions))}')

训练集的均方根误差为 0.141，验证集的均方根误差为 0.167(训练样本的 30%)。

结果

在整合了这些功能和几个迭代之后，我最终得到了下面的笔记本和 0.177 的 RMSE——在排行榜上排名第九。

结果

排行榜(仅在 Twitch stream 期间显示提交内容)

摘要

这是一个有趣的挑战，建议其他人尝试分析数据。除了儿时的家庭垄断争吵之外，我在棋盘游戏方面的专业知识几乎为零，所以看看我能做出多准确的预测是件有趣的事情。

在Github上可以找到所有的例子和文件。

原载于https://data stud . dev。

用人工智能预测圣诞礼物

原文：https://towardsdatascience.com/predicting-christmas-presents-with-ai-3eaa2dc96e8?source=collection_archive---------28-----------------------

你圣诞节得到了什么？也许 AI 有答案。

尤金·日夫奇克在 Unsplash 上拍摄的照片

人工智能可以做很多事情。比专业人士更好地玩电子游戏，创作美丽的艺术作品，写故事。但是人工智能能预测圣诞节你会得到什么吗？

对图像进行分类是人工智能特别擅长的事情。一种被称为卷积神经网络的模型在图像任务上表现出色。

计算机视觉领域在不断进步和完善。因此，在越来越大的数据集和更广泛的模型的推动下，图像分类正在成为一项简单的任务。

但是所有这些模型和实验都有相同的假设。图像显示您试图分类的对象。

这个假设不适用于圣诞礼物。是的，你要识别的物体就在图像中。但不准确。有些材料挡住了去路。礼物包装好了。包装遮住了物品，使其难以预测，这是一个更加令人兴奋的圣诞节。

这篇文章分为三个部分。

礼物预测的问题。
收集数据。
开发一个模型。

你可能已经在想预测圣诞礼物里有什么的问题了。我在下面概述了这个项目中的几个大项目。

太多选择

由于许多原因，从包装好的礼物的图像中预测圣诞礼物是一项困难的任务。但是有一个巨大的原因使得这个任务对人工智能来说几乎不可能(对我们人类来说也很困难)

卡莱·迪莫克在 Unsplash 上的照片

礼物通常包装在盒子里，盒子的形状与里面的礼物形状无关。

这种结构意味着不同的礼物可以放在同一个盒子里。AI 不喜欢内容不同的相同盒子。究竟怎么会有人确定其中的区别。

这个问题让我想到这项特殊任务困难的第二个原因。我只是使用包装好的礼物的图片。

我不知道你怎么想，但是当我收到圣诞礼物时，我会立刻注意到礼物的重量。简单地把礼物递给我，就能让我知道里面有什么。

礼物太轻了——是的，里面没有煤。

甚至像快速摇动这样的事情(也许先检查一下以确保摇动不会破坏礼物)会给你提供更多关于礼物可能是什么或不是什么的信息。

圣诞礼物预测问题

所以为了把这个问题调整成对人工智能有效的东西，我要把这个问题简化成更可行的东西。

我可以从一套礼物中预测礼物的类型，而不是特定的礼物吗？这一改变将极大地降低问题的复杂性。

此外，即使我可以建立一个模型来预测特定的礼物，预测对象是正确的吗？有些人会说礼物的品牌也很重要。

也许我能看出你买的是内衣，但这是奢侈品牌的新内裤吗？还是你从大箱子里拿了一双？

所以预测礼物的种类看起来像是作弊。嗯，确实是。但是当我收集数据时，你会发现这并不是一个确定的问题。

因此，减少问题是启动这个项目的关键。

数据

尽管有各种花哨的模型，但人工智能最重要的方面是数据。你需要很多，你需要好的质量。

虽然您可能听说过“数据越多越好”，但实际情况是，数据越多，质量越好。

但由于圣诞礼物预测不是一个历史悠久的领域，我只能收集一个相对较小的数据集。因此数据质量至关重要。

收集数据

给圣诞礼物快速谷歌搜索。你会发现很多图像。事实上，你会发现数百万张图片。

数百万包装完美的各种形状和大小的圣诞礼物。原始的褶皱和美丽的蝴蝶结。

由约书亚·赫内在 Unsplash 拍摄的照片

但是那些照片告诉你里面是什么了吗？号码

尽管有这些包装精美的礼物的图片，它们并没有向你展示里面是什么。理所当然，那会破坏惊喜。

然而，要建立一个模型来解决我的问题，我需要知道里面有什么。我想知道那些漂亮的盒子里是什么。

标签数据

这些礼物图片的问题在于，它们主要向人们展示的是包装精美的礼物。

圣诞老人旁边商场里那些包装完美的礼物堆？它们很可能都是空盒子。也许他们已经满了，但关键是我们不能确定。

但是我需要标签。我需要知道盒子里有什么来训练一个模型来预测未来的礼物。因此，要找到我需要的信息，我需要在其他地方寻找我的数据。

YouTube 来拯救

啊，YouTube，这个地方你可以找到几乎任何事情的视频。

这里是我实现我的解决方案的地方。我要找的不是包装好的礼物。是人们包装礼物的视频。所以在包装之前我能很好地看到礼物，也能很好地看到最终产品。

好消息是，YouTube 上有很多包装礼物的视频。很多。

这里是我为我的模型收集数据的地方。首先，我仔细抓拍包装前后的礼物截图。

包装前后的玩具(来自频道: Vinn Pang )

然而，由于数据集的性质，我不会分享数据。适当地分发数据需要所有创造者的许可，他们中的许多人并不活跃。但是他们的包装视频保留了下来。

数据集

我在那里，浏览视频，小心翼翼地使用屏幕捕捉来提取礼物的图像和里面礼物的图像，并采取额外的预防措施只选择图像中的礼物。

计划是成对收集图像。第一个图像代表实际的礼物，第二个图像是最终包装好的礼物。两张图片都有一个数字 ID，这样标签就可以使用礼品图片进行修改。

包装前后的礼物(来自频道:DIY 妈咪)

带着最后一套礼物和包装好的礼物。我还需要仔细检查并标记每张图片。这个过程将确定我要用于预测的类别。目的是将图像分成粗略的类别，每种类型有足够的图像来建立模型。

最终数据集包含 64 张不同礼物的图像。这个过程花了几个小时——只有在包装前识别礼物的视频才会被使用。此外，我希望图片能够一览无余地展示礼物。

在许多情况下，这需要一帧一帧地浏览视频，以获得没有被手臂、手或其他礼物遮挡的礼物的清晰图像。

不用说了。这是一个痛苦的过程。所以我有 64 张图片，我要让它发挥作用。

礼物的种类

你可以给别人无限不同的礼物。不幸的是，对于人工智能来说，我需要定义我试图预测的礼物类型。

我想在过于笼统或过于具体的类别之间取得平衡。

我决定以玩具、书籍、布匹和其他为主。

玩具包含所有与儿童玩具相关的东西。
书籍是书籍和其他相关的阅读材料。
以布料为基础的礼物包括袜子、毛衣和填充动物玩具。
其他包含电子产品，瓶子，香水和其他杂项。

数据扩充和处理

有了这么少的图像，我正在使用数据增强和处理图像来产生更多的模型来训练一个模型。这些增强有效地模拟了从不同的视角，也许是不同的角度或光线来观察物体。

我使用的第一种增强方式是反射和旋转。翻转垂直线、水平线和旋转可创建 4 倍数量的图像。

图像放大(来自频道: Vinn Pang

此外，我对每个图像应用灰度和大小调整来简化训练过程。灰度迫使模型学习基于形状的类，而调整大小确保我的所有屏幕截图都是模型要处理的一致大小。

数据转换(作者编写的代码)

数据扩充(作者代码)

创建模型和预测礼物

你可能已经猜到了，我将使用人工智能的一个分支——计算机视觉来预测圣诞礼物的内容。

特别是，我将使用一种叫做卷积神经网络(CNN)的深度学习模型。这些网络是图像分类的理想选择。他们使用几种不同类型的层。

模型创建(由作者编写代码)

CNN 使用卷积层、汇集层和密集层。在模型的最后，从四个类中预测一个类。

AI 猜的有多准？

和大多数人工智能问题一样，有太多可用的度量标准，你应该检查分类问题。但是，对于这个问题，我只是用精度。

模型配置和培训(由作者编写代码)

您还会注意到其他几个设计选择，比如学习调度器、加权类和 Adam 优化器。这些小选择中的每一个都会影响整体性能。

模特培训(图由作者提供)

如你所见，的模型相当糟糕。没有足够的数据，深度学习模型无法很好地从数据中学习。尽管损失在减少，但在测试集上的准确度最高为 50%。

比有四个类的 random 稍好，但肯定不是很好。玩具占了 40%的课堂，扭曲了结果。考虑到数据集的大小，剩余的性能可以有效地归因于随机性。

然而，圣诞礼物应该是神秘的。礼物会故意放在与礼物形状不匹配的盒子里。

因此，CNN 了解到的包装礼物的大部分结构特征并不总是与礼物的形状直接相关。

由于这些原因以及更多的原因，预测礼物对人工智能来说是一项艰巨的任务。因此，我不希望这个问题在一段时间内被 AI 解决，如果有的话。

包裹

最终的模型表现不太好。但是你可能已经想到了改进模型的方法。

增加更多的数据肯定会改善模型。不幸的是，深度学习模型没有足够的图像来有效预测未来的圣诞礼物。但是权衡的结果是，有更多的明确定义的图像类别来决定更多的礼物。

添加关于礼物的其他属性也应该提高性能。没有人仅凭从远处看就能猜出一件礼物。你拿起它，摇一摇，感受它的重量。所有这些肯定会有助于预测。

但正如你所见，人工智能需要数据。预测礼物并不是一项既定的任务。所以，目前来说，预测圣诞礼物里会有什么是留给孩子们在圣诞节早上去做的。

圣诞快乐！

如果你有兴趣阅读关于新颖的数据科学工具和理解机器学习算法的文章，可以考虑在 Medium 上关注我。我总是在我的文章中包含代码，您可以将其应用到您的工作中！

如果你对我的写作感兴趣，想直接支持我，请通过以下链接订阅。这个链接确保我会收到你的会员费的一部分。

https://zjwarnes.medium.com/membership

对于那些对优化深度学习模型感兴趣的人，这里有几篇我写的关于这个主题的文章。这些技术将帮助你从深度学习模型中挤出更多的性能。

使用 Google 搜索统计预测 COVID 案例

原文：https://towardsdatascience.com/predicting-covid-cases-using-google-search-statistics-4fb8814a064b?source=collection_archive---------57-----------------------

在 Unsplash 上 engin akyurt 拍摄的照片

实践教程

搜索行为分析如何为流行病学提供信息

本文涵盖的主题

分析谷歌趋势数据
使用熊猫进行重采样
使用 Seaborn 和 Matplotlib 可视化日期时间格式的数据

介绍

在“谷歌医生”的时代，我们倾向于在去看“模拟”医生——我们当地的医生之前，先在网上咨询与健康相关的问题。令许多医疗保健专业人士烦恼的是，在一场广泛的在线研究马拉松之后，我们到达了医生的办公室，其中包括对问题的自我诊断。

虽然对于医生来说，与那些认为自己一小时的谷歌搜索至少相当于一个全面的医学学位的患者打交道可能是一件痛苦的事情，但人们的集体在线搜索行为实际上在早期发现和定位全球疾病爆发方面具有巨大的潜力。

在这篇文章中，我们将使用谷歌搜索趋势的数据，我们将研究它如何与美国新冠肺炎病例的增加有关。所以我们先来获取一些数据吧！

注意:如果您主要是为了结果而来，请随意跳到最后的结果部分。

获取数据

我们将处理两个数据集:

过去 12 个月美国每天新增的 Covid 病例。
显示相关搜索词的谷歌搜索趋势的数据集(也是过去 12 个月)。

这个名为https://covidtracking.com/data/download的网站允许你下载美国 Covid 案例的数据，并允许在知识共享许可(CC BY 4.0)下使用。太好了！所以现在我们有了相关的 Covid 数据，我们需要从 Google 获得一些统计数据。

谷歌趋势网站(https://trends.google.com/trends/?geo=US)允许你输入想要的搜索词，并显示在给定的时间段内这个词被搜索了多少次。我输入“covid 症状”这个词，下载了美国过去 12 个月的数据。这里的假设是，人们倾向于在咨询医生之前在网上搜索他们的症状。频繁搜索“电晕症状”是否预示着即将出现新的 covid 病例？我们会看到的！

检查数据

首先，让我们看看从 covidtracking.com 下载的数据。该文件有 17 列，详细统计了新病例、康复病人、死亡人数等。
出于本文的目的，我们将只使用数据集中的两列:

日期:数据所指的日期(我们处理的是日常数据)。
positiveIncrease :当天新报告的 Covid 病例数。

Google 趋势数据要简单得多，只包含两列:

周:数据所指的一周的第一天(我们正在处理周数据)。
covid 症状:在给定的一周内，这个术语被搜索的相对频率。(相对的意思是，我们得到的不是谷歌搜索的绝对数量，而是按最忙的一周计算的数据。)

处理数据

Pandas 是读取和操作我们数据的首选工具。我们将从每日 Covid 病例的数据开始。

import pandas as pd
covid_df = pd.read_csv('./national-history.csv',
                        parse_dates=['date'])
covid_df.sort_values(by='date', ascending=True, inplace=True)

我们还按日期对数据进行排序，以确保数据是升序排列的。

接下来，我们可以导入 Google 趋势数据，并确保它是数字格式的。

google_trends_df = pd.read_csv('./multiTimeline.csv', header=1,
                               parse_dates=['Week'])
google_trends_df['covid symptoms: (United States)'] = pd.to_numeric(google_trends_df['covid symptoms: (United States)'])

我们需要注意的另一件事是，Google 数据是以每周总和的形式给出的，而 Covid 数据是以每天为基础给出的。因此，让我们对 Covid 数据进行重新采样，以便获得每周的累积案例，而不是每天的数据。我们分两步来做:首先，我们从日期中减去 7 天，使日期类似于所讨论的一周的第一天(就像 Google 数据的情况一样)。因此，日期 2020-03-01 指的是 3 月 1 日(日-日)从开始的一周。然后，我们将对每个 7 天期间的案例进行重新取样和汇总。

covid_df['date'] = pd.to_datetime(covid_df['date']) -
                                  pd.to_timedelta(7, unit='d')covid_df = covid_df.resample('W-Sun', on='date')['positiveIncrease'].sum().reset_index().sort_values('date')

可视化数据

最后，我们准备开始绘制数据，并找出我们的谷歌搜索数据如何与当前的 Covid 案例相关联。

import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import datetime
import seaborn as sns
sns.set()fig, ax = plt.subplots(figsize=(16, 10))plt.plot_date(covid_df.date, covid_df.positiveIncrease /
              covid_df.positiveIncrease.max(), fmt='-')plt.plot_date(google_trends_df.Week, 
              google_trends_df['covid symptoms: (United Sates)'] / \
              google_trends_df['covid symptoms: (United    
                               States)'].max(), fmt='-')ax.xaxis.set_major_locator(mdates.WeekdayLocator(byweekday=mdates.SU
                           , interval=2))
ax.xaxis.set_tick_params(rotation=90, labelsize=10)
plt.xlim([datetime.date(2020, 2, 18), datetime.date(2021, 1, 31)])
plt.legend(['New Covid cases (normalized)', 'Google search for "covid symptoms" (normalized)'])plt.show()

这里发生了很多事情，所以让我一步一步地向您介绍一下。我们使用 Seaborn 库进行绘图，因为它有漂亮的默认设置和创建好看图形的简单方法。导入 Seaborn 后，应用 Seaborn 样式就像运行sns.set()一样简单。绘制以日期时间序列形式给出的数据与常规绘制略有不同，但幸运的是 Matplotlib 有一个方便的plot_date()函数，可以为我们完成繁重的工作。我还归一化了这里的数据，使两个量的比例相等。水平轴限制需要作为日期时间对象输入，使用同名模块可以轻松处理。我们得到的是下图。好的，我已经添加了一些图形元素，但是你明白了。

结果

蓝色曲线代表过去 12 个月中每周的新确诊 Covid 病例。数据表明，有三波 Covid 感染，第一波始于 3 月初，第二波始于 6 月左右，第三波始于 10 月左右。每一波都在开始几周后达到顶峰，然后下降到一个较低的水平(但仍然很高)。最后一波实际上有两个波峰，但数据可能并不完全确定。

橙色曲线显示了同一时间段内“covid 症状”一词的谷歌搜索趋势。就像新 Covid 病例的数量一样，我们在看到三波感染的同时看到了三个高峰。在谷歌的兴趣在 2-4 周内迅速上升，然后急剧下降的情况下，这些峰值要尖锐得多。有趣的是，在线搜索的峰值在每一波中都达到了近似相等的高度，并没有随着三波的严重性增加而增加。

现在到了有趣的部分，回到本文最初的问题:谷歌搜索的峰值总是出现在感染(或者说诊断)率达到峰值之前的 1-2 周。这可能指向我们最初的假设，即感到不适的人会先谷歌他们的症状，然后去看医生，并成为官方统计数据的一部分。仔细观察三月份的第一波，可以确认在美国 Corona 案例显著增加之前，谷歌在 T2 的活动增加了。当然，网上兴趣增加的部分原因可能是媒体报道的增加，以及出现了一波电晕病例的纯粹事实，人们会在谷歌上搜索症状，尽管他们感觉很好。尽管如此，这并不能解释为什么在达到 Covid 案例峰值之前，人们的兴趣会下降。然而，我们最初的假设以及谷歌搜索和疾病诊断之间的相关延迟，可以作为一个合理的解释。因此，这些数据可能有价值，可能有一些预测能力可以利用。

判决

从相关性中推导出因果关系是一条不归路，尤其是当我们处理这样的多因素关系时。虽然这个案例研究不能在这方面提供确定性，但数据的强相关性是值得注意的。搜索引擎数据的预测能力已经在过去的其他案例中得到证明，这里提供的数据表明，类似的方法可能对新冠肺炎和未来的流行病有价值。

你对搜索查询统计的有用性有什么看法？自己试试吧，也许你会比我们其他人更早知道下一个疫情…

最后声明 显然，这篇文章中的轶事分析不符合科学标准。它仅用于娱乐和教育目的。

预测迪斯尼乐园:改善你的迪斯尼日的策略

原文：https://towardsdatascience.com/predicting-disneyland-strategies-to-better-your-disney-day-e08f8b84f51?source=collection_archive---------35-----------------------

我用数学让你的迪士尼之旅更有效率

所有图片由作者提供

介绍

你的团队规模如何影响你的乘车次数？你应该先去哪个游乐设施？你在公园周围的步行距离有多重要？我希望在“预测迪斯尼乐园”的第二部分中回答所有这些问题。

在本系列的第一篇文章通过人口模拟预测迪士尼乐园的等待时间中，我展示了如何利用公园的每分钟模拟来证明走向等待时间更长的游乐设施实际上可以节省你一天中的时间。这给我留下了一些关于公园中群体决策以及某些群体属性如何影响体验的未解问题。

群体规模分析

大团队(5 人以上)比小团队(1-4 人)乘坐的次数少。有道理。更多的人意味着更多的上厕所时间，更慢的行走速度，因此，更少的乘车次数。然而，团队规模对乘车总量有多大影响呢？

左侧(公园内 21，000 人)是 COVID 后的平均上座率，右侧(公园内 51，000 人)是最大容量。图片由作者提供。

对于当前的公园游客量，左图更加准确，因为公园已经达到了最大容量的某个百分比。这向我们表明，你的团队中每增加一个人，你平均会少骑 0.33 次。在达到最大容量的日子里，每一个加入你的团队的人平均会少乘坐 0.28 次。这是有道理的，因为这些天每个人都骑得更少，走路速度也更慢。

最佳第一次乘坐

这个有点难，因为每个人都有自己最喜欢的骑行，他们把它放在所有其他骑行之上。为了衡量最好的第一次乘坐，我将查看第一次乘坐后每组进行了多少次乘坐，总共 30 次。x 轴是每个游乐设备，1-30，按字母顺序排列。

公园里的 21000 人。图片由作者提供。

前 5 名首次乘坐次数如下:

太空山— 16.26 次预期总乘坐次数
马特宏峰— 16.23 预计总乘坐次数
印第安纳·琼斯——16.15 次预期总乘坐次数
大雷山— 15.44 次预期总乘坐次数
丛林巡游——预计总共 15.24 次

前三名是公园中最繁忙的游乐设施，并且靠近公园的前面，所以对大多数人来说，他们是首选。这也表明，尽早摆脱大型游乐设施可以增加你的游乐设施数量。这是因为当他们的等待时间远远低于一天的平均时间时，你正在乘坐更大的游乐设施，所以你比其他人节省时间。

但是从最差的 5 次乘坐开始呢？(不包括模拟中未被任何人选为第一游乐设备的 7 个游乐设备)

Autopia — 13.25 次预期总乘坐次数
兔子罗杰的汽车卡通旋转-13.14 预期总乘坐次数
Gadget 的 Go 过山车——预计总乘坐次数为 12.93 次
astro Orbiter——12.75 预计总乘坐次数
这是一个小世界——预计总乘坐次数为 12.45 次

离入口较远的游乐设施会导致较少的预期总游乐设施，因为在你走向它们的时候，所有其他大型游乐设施会看到更多的人排队。此外，不应该首先选择像小世界(10 分钟以上)这样乘坐时间长的游乐设施，因为这样会错过大型游乐设施的低等待时间。

到达时间和步行距离

早一点到达(或晚一点停留)会决定你要去的游乐设施的数量吗？你要走多远才能称你的迪士尼日为成功？

为了确定一个小组在公园的表现，我把他们当天的所有成绩加到一个大的分数上。这可以与公园里的其他人进行比较，以了解团队的表现。我还用谷歌地球开发的距离矩阵计算了一组人行走的总量。我用这些信息做了一个散点图，用从深到浅的颜色来显示到达时间在分数上的差异(颜色越亮意味着在公园的时间越长，颜色越暗意味着时间越短)。

图片由作者提供

总的来说，看起来得分高的日子确实要多走。这是有道理的，因为更高的得分需要更多的骑行，这需要更多的步行。你还应该注意到，那些在公园里呆的时间越长的小组(黄色圆圈)通常得分越高。

乘坐之间的步行距离

骑行间隔少的组得分高吗？

我使用了大致相同的散点图，但 x 轴是乘坐之间的平均距离，而不是总距离。

图片由作者提供

似乎乘车之间的平均步行距离只对晚一点到达公园(或早一点离开)的那组人有影响。深蓝组(在公园里呆的时间最少)，他们的步行距离变化很大，平均每天得分变化不大。另一方面，那些在公园时间最多的人平均步行距离更短，一天的得分更高。

结论

你的团队规模如何影响你的乘车次数？

实际上，没我想的那么多。对于一般人群来说，你的团队中每多一个人，你的一天就会减少 0.33 次乘坐。如果额外的 0.33 次乘坐对你来说很重要，那么你绝对应该一个人去迪士尼旅行。单人骑行、只属于你自己的洗手间和一个人的移动订购最终会为你节省很多时间。

你应该先去哪个游乐设施？

三巨头:太空山、马特宏峰或印第安纳琼斯。在第一个小时内干掉其中两个肯定会让你的迪士尼之旅轻松许多。当等待时间远远低于平均水平时，乘坐这些交通工具可以节省你几个小时。

你在公园散步的距离有多重要？

迪士尼乐园一天的总距离确实与更好的分数有一些关联。如果你想坐更多的车，你必须跑 7-10 英里。骑行之间的平均步行距离和更高的分数之间也有一些关联。一般来说，那些走路效率更高的人骑得更多，日子也更好。那些较晚到达的人应该考虑选择离他们刚刚下车的地方更近的下一次乘坐，因为随着乘坐之间的平均步行距离的增加，分数会下降相当多。

我认为接下来应该问的一些问题是，是什么让那些散点图顶部的那些组如此成功？他们的第一次乘车、到达/离开时间或乘车顺序是什么？所有这些因素都可以向我们展示一个理想的迪斯尼乐园计划是什么样子的，它可能是你下次旅行可以实施的东西。

通过人口模拟预测迪士尼乐园的等待时间

原文：https://towardsdatascience.com/predicting-disneyland-wait-times-through-population-simulations-20f44c7582f6?source=collection_archive---------17-----------------------

利用每分钟的模拟来分析迪士尼乐园内的人群决策

所有图片均由作者提供

介绍

如果你曾经计划去迪斯尼乐园旅行，你就会知道检查人群水平有多重要。只需要一次意想不到的人群涌动就能把地球上最快乐的地方变成完全相反的地方。十年前，这可以简单地通过一周中的旅行来避免，但是现代的迪斯尼乐园没有休息日。

这个项目的灵感来自于我最近的迪士尼乐园之旅中的一次乘车选择。加州冒险公园的灰熊河急流已经等了几个小时，等待时间长达 45 分钟，由于担心我们必须等到当天晚些时候气温下降，我们开始了向公园那一边的跋涉。排队 5 分钟后，我们注意到等待时间变成了 25 分钟。我们觉得我们玩了这个系统，因为这个举动节省了一些时间。

这让我想到，走向等待时间比平均时间长的游乐设施是明智之举吗？这听起来违反直觉，但在思考我们那天所做的所有选择后，很明显，如果我们觉得不值得等待，我们会避免乘坐。例如，70 分钟的太空山——不，谢谢，我们会等着看它是否会下降。《20 分钟后的雷山》——当然，这似乎很合理。假设一般人都是这样想的，那么灰熊河急流城有时会出现相对较大的落差是有道理的。人们看 45 分钟，然后等到更晚，所以由于排队的人越来越少，所以它下降了。如果你把握好时机，你就可以插队了，因为那里的人已经最少了。于是，一个模拟诞生了。

构建模拟

编写 MATLAB 代码的第一步是确定迪士尼乐园一天的总人数。迪士尼乐园的容量约为 85，000 人，在 COVID 期间，他们开始时只有 25%的容量(但自 5 月以来肯定增加了)。这使得我们的后 COVID 人群每天约有 21，000 人。这个数字用于模拟是不准确的，因为我们知道迪士尼乐园没有 21，000 名单身乘客。这些都是各种规模的家庭，因此项目必须与之相匹配。平均家庭规模是 3-4 人，但我在这个模拟中平均定为 3.78 人。现在我们只关注 5500 组不同的人在做决策，这可以大大加快模拟的速度。

每个组还必须分配其他属性，例如位置、他们在做什么、步行速度、乘车历史和到达/离开时间。

每组被分配一个数字，0-30，代表他们当前的位置(0 代表入口，1-30 代表 30 种不同的游乐设施)。
基于该组是在步行、排队还是在乘车，给他们一个值。
行走速度值是根据团队规模分配的，一个单独的骑手显然会比 10 个人的团队走得更快(而且也更少停下来上厕所)。
乘坐历史很重要，因为当提示一群人选择乘坐时，你希望有一些可变性，这样乘客就不会重复选择乘坐马特宏峰。
到达和离开的时间很重要，因为不是每个人都在公园开门的时候到达，也不是每个人都呆到关门。这些是基于公园出席人数与时间的预设分布随机确定的。

还有一些属性需要分配给公园中的每个游乐设施。诸如刺激、多少是“必须乘坐”、当前等待时间、乘坐容量(乘客/小时)和乘坐时间长度。

为 30 个游乐设备中的每一个与入口之间的距离分配最后一个数据矩阵。没错，一个 31 乘 31 的谷歌地球数据矩阵来表示从任何一个乘坐到另一个乘坐的距离。

现在，我们拥有了运行模拟迪士尼乐园日所需的所有工具，并获得了一些结果。

运行模拟

假设我们有总数为 5，500 的前 3 组，看看决策是什么样的(从一天开始)。

A 组:4 人，位于入口处，平均步行速度，无骑行史

B 组:2 人，位于入口处，行走速度快，无骑行史

C 组:7 人，位于入口处，行走速度慢，无骑行史

如果一个团体需要一个新的游乐设施，它会被提示选择一个。但是，它不会随机选择一个。基于上面列出的游乐设备属性，为每个游乐设备给出该组的偏好分数。在对游乐设施评分时，从当前等待时间、步行距离到可变性的一切都要考虑在内。然后，以给定的预设分布选择前 10 名(通常大约 25%的机会获得最高分的乘坐，然后 15%的机会获得第二名的乘坐，等等。)并且所选择的乘坐被分配给该组。根据骑行的距离和他们的步行速度，给这组人一个步行时间，然后他们开始一分钟一分钟地步行。这是为所有需要乘坐的组完成的，在我们的例子中是所有的组，A、B 和 c。

假设 A 组选择印第安纳琼斯。他们被分配了 5 分钟的步行时间。B 组选择太空山，并被分配 4 分钟的步行时间。C 组也挑了印第安纳琼斯，他们的行走时间是 10 分钟(一组 7 人 vs 4 人)。所有这些时间结束后，会根据排队人数和乘坐量(乘客/小时)为乘客分配等待时间。等待时间结束后，他们会被分配一个唯一的乘坐时间。乘坐时间结束后，他们会被提示选择下一次乘坐，循环继续。

这种情况持续一天中的每一分钟，并且每一次乘坐都记录该分钟的等待时间，以便在一天结束时以图形表示。

结果

下面显示的是一天 21，000 人的所有 30 个游乐设施的曲线图，开放时间为早上 8 点到晚上 10 点(x 轴上的 0 到 840)。

一些需要注意的事项:

《海底总动员》将在 2021 年冬季上映，所以这就是为什么这个情节在 0 分钟。
这只是一个模拟，意味着可能的数据点的实际范围比显示的要大。
不考虑游乐设施的停机时间，但将其计入游乐设施容量，因为这是无法预测的。
像飞溅山这样的水上游乐设施有一个特殊的评分方法，因为一天中较温暖的时间会增加等待时间。
游乐设施在开放时需要 1 分钟的等待时间，因为穿过开放的队列需要时间。

让我们来看三个具有不同等待时间曲线形状的单独乘坐(x 轴是实际时间，上午 8 点为 0，晚上 10 点为 840，y 轴是以分钟为单位的等待时间)。

Autopia 在公园开放后的 2-3 小时内有一个非常陡峭的增长，很可能是因为它靠近太空山和马特宏峰。一天中前半段等待时间的变化是排队时时间安排是多么重要的一个很好的例子。中午 12 点和 12:30 之间相差 10 分钟左右，比较显著。在现实生活中，如果你看到 Autopia 要等 30 多分钟，也许你可以走到那个区域，看它下降 5-10 分钟。

加勒比海盗的外形与 Autopia 有很大不同，每分钟的变化更少。它有一个很高的初始曲线，在中午左右慢慢消失，所以对于这个特定的例子，最好在上午 10 点之前或下午 4 点之后乘坐加勒比海盗。在一天结束时，下降可能是由于水骑方面，或者也许这是一个大多数人已经骑过，不想回去的骑行。

飞溅山是水骑效应的一个极端例子，这意味着它在一天的第一个和最后一个小时的等待时间非常短。它在几分钟之间有一些不错的波动，所以正确的计时可以让你节省 10 分钟的等待时间。

只有当模拟在精确匹配现实方面做得很好时，这才是真正重要的。在撰写本文时，即 8 月 5 日下午 1 点，三个示例的等待时间如下:

Autopia — 20 分钟
《加勒比海盗》——45 分钟
飞溅山——65 分钟

根据这个模拟，下午 1 点的估计等待时间如下:

Autopia — 22 分钟
《加勒比海盗》——43 分钟
飞溅山——53 分钟

《Autopia》和《加勒比海盗》非常接近现实，而《飞溅山》则明显低一些。这可能是由于气温较高，或者印第安纳琼斯当时正在下降，所以更多的骑手可能已经转移到飞溅山。

结论

当所有游乐设施运行正常，游客做出合理决定时，用这种模拟预测等待时间是相当可靠的。波动较大的游乐设施是那些在公园里做决定时时间安排得更好的游乐设施。走向那个游乐设施会对你的一天有益，每次可以节省你 5-10 分钟。

这种模拟可以很容易地改变以匹配预测的人群数量、游乐设施关闭、游乐设施增加和停车时间。游乐设备翻新会增加等待时间，可在该游乐设备的“必须乘坐”属性内进行更改，以反映新的等待时间。

这种模拟可以采取的一些后续步骤包括快速通行证、食物休息、游行和表演时间，以及登机牌对等待时间的影响。

此外，观察团队规模如何影响团队乘坐的次数，或者随着人群的增加等待时间如何变化可能会很有趣。调查最成功的团体和他们的决定也可以证明是那些真正想在迪斯尼乐园消磨一天的人的一个很好的模板。

回答我在这个项目中遇到的主要问题:是的，对于特定的乘坐项目来说，走向那些长的等待时间确实是有益的，但是对于其他人来说，就不那么有益了。高优先级游乐设施，如太空山、马特宏峰、印第安纳琼斯和千年隼，一天中不会有太多变化，除非你能在它从临时关闭重新开放时掌握好时间。然而，它表明，其他游乐设施有相当多的变化，你可以利用，也许会在你的迪士尼乐园一天多坐一两次。

预测 EEOC 歧视调查

原文：https://towardsdatascience.com/predicting-eeoc-discrimination-investigations-aa007ea470c8?source=collection_archive---------39-----------------------

丹尼尔·雷彻在像素上拍摄的照片

结果是暗淡的。

这篇文章的主要目的是分享一个数据科学项目的结果，该项目涉及预测美国平等就业机会委员会(EEOC)对就业歧视索赔的调查结果。这是一个高度不平衡(99:1)的二元分类问题。因此，目标是建立一个模型，可以最好地预测目标少数民族阶层，这是 EEOC 发现就业歧视的优点。长话短说，很难可靠地预测歧视调查，EEOC 会发现优点。这可能是由于数据质量差。

在过去的几年里，几位记者报道了歧视指控的状况以及 EEOC 调查这些指控的能力。这项研究的目的是看看调查结果是否可以预测，以帮助 EEOC 在预算不足的情况下开展调查。然而，应该注意的是，在创建有意义的模型之前，数据质量还有很长的路要走。目前，由于几十年的预算不足和一个没有真正能力保护大多数遭受就业歧视的人的机构，这些数据是有偏见的。因此，所使用的数据不能提供完整的信息，基线可能低估了美国歧视索赔的真实性质以及 EEOC 通过调查确定歧视的全部能力。

数据来自公共诚信中心，包括 2010 财年所有的歧视索赔。

一、争论数据

数据争论有三个部分:创建目标变量、工程特征、输入分类值，以及丢弃冗余或容易泄漏的变量。

目标变量(决策)根据“结束类型”进行了简化，以包括两种可能的结果:发现歧视和没有发现歧视。虽然从技术上讲，索赔可以结案，但不能做出任何决定。例如，如果 EEOC 需要或将需要 180 天以上的时间来完成调查，投诉人可以要求通知有权起诉(NRTS)。这样，EEOC 将自动结束调查，并且不会做出歧视的决定。

一些额外的功能被设计来尝试和提高模型的预测能力。这些因素包括:提出申诉时的“年龄”，“NAICS 准则”扩大到了行业层面，“调查持续时间”，以及申诉人是否获得了“金钱利益”

二。分割数据

该模型基于 2010 财政年度的时间序列数据。因此，数据按比例分割，以保持时间顺序。定型数据是前 60%的行，验证集和测试集各占 20%。

三。建立基线

在严重不平衡的二进制分类问题中，基线是由少数群体的普遍程度建立的。对于该数据集，发现区分价值的调查为 0.0127。该分数将在评估阶段根据精确召回曲线下面积(PR AUC)分数进行衡量。

四。建立模型

SimpleImputer 和 StandardScaler 应用于数字特征，OrdinalEncoder 和 BinaryEncoder 分别应用于序数和名词性分类特征。

该数据集的基本模型是逻辑回归，替代模型是随机森林。为了评估他们的表现，我将使用平均加权的 f1_score 和 PR AUC 分数。

线性模型:逻辑回归

无调整的逻辑回归

开箱即用的逻辑回归模型返回了 0.033 的精确召回 AUC 分数，略好于基线。但是 f1_score 是< 0.50 which most likely indicates that the model is not predicting any of the claims as having discrimination.

套袋模式:随机森林

无调整的随机森林

在没有调整的情况下，随机森林模型返回的 PR AUC 得分为 0.092，明显优于逻辑回归模型和基线。f1_score 也大于 0.5，这可能意味着模型将一些索赔归类为有歧视的原因。另一个好迹象。

混淆矩阵

下一步是将更好的拟合模型 Random Forest 应用到我们的测试数据中，看看它的表现如何。我们可以使用混淆矩阵来实现这一点。为了进一步说明项目的结果，我为验证和测试集添加了一个混淆矩阵。

l:验证集的混淆矩阵；r:测试集的混淆矩阵

从这些矩阵中我们可以看出，这些模型在预测歧视方面没有实际用途，特别是在索赔数量特别低的情况下(测试集只包括 146 项确定存在歧视的索赔)。在验证集上，我们可以看到很高的精度，但这是一个难以置信的损失。

在我们让政府机构承担责任的实际环境中，如果预测模型具有较高的召回率，它将为员工的最佳利益服务。这意味着它准确地检测到了所有发生就业歧视的情况。通常，这也意味着它会得到一些错误的预测(即，一个实际上没有歧视的声明被标记为有歧视)。虽然一个高精度的模型不能捕捉所有真实的歧视案例，但当它预测一个索赔有价值时，它总是正确的。实际上，在这些措施之间几乎总是有一个权衡。

排列重要性

我们还可以考虑模型中使用的特征的排列重要性，这也反映了它们的弱点。

理想情况下，我们希望特性具有积极的重要性，因为这是它们具有预测能力的标志。在这种情况下，我们所有的特征都有积极的重要性，但它们的大小相当小(接近于零)。

五、结果+建议

调查结果揭示了歧视索赔数据质量的一些缺陷，以及 EEOC 调查的模糊性。很难相信许多特征会有如此小的预测能力，但这可能是由于缺乏其他重要的变量。最明显的是围绕调查程序。不清楚它们是否标准化，也不清楚对索赔做出决定的门槛是什么。我们也不知道 EEOC 如何评价员工及其雇主提供的证据的力度。

公共诚信中心有一个更大的数据集，涵盖了 2011 年至 2017 年的歧视指控。用更多的数据再次尝试这个项目可能是值得的。如果能够建立一个具有真正预测能力的模型，我们应该质疑高精度是否优先于低召回率。否则，将很难知道 EEOC 进行调查的真正效力。

该项目的 GitHub 资源库。

https://www.vox.com/identities/2019/6/14/18663296/congress-eeoc-workplace-discrimination

华盛顿州电动汽车和商用充电器需求预测

原文：https://towardsdatascience.com/predicting-electric-vehicle-commercial-charger-demand-in-washington-state-feb04960feb1?source=collection_archive---------23-----------------------

哪些华盛顿县将拥有最多的电动汽车，需要最多的商用充电器？

如果你在过去的几个月里走出户外，你很可能会比其他任何一个夏天都更想吃一勺正在融化的冰淇淋。根据 NOAA 国家环境信息中心的数据，2021 年 6 月全球陆地表面温度是有记录以来最高的，这不是巧合。这些极端温度的发生是由于大气中温室气体的增加，这也被称为气候变化。

照片由 Clark Douglas 在 Unsplash 拍摄

那么，有什么解决办法呢？

这个问题非常复杂，没有一个放之四海而皆准的解决方案；然而，减少并最终消除由化石燃料驱动的车辆造成的温室气体排放将有益于环境。根据美国环境保护署(EPA)的数据，“交通运输的温室气体(GHG)排放约占美国温室气体排放总量的 29%，是美国 GHG 排放的最大贡献者。”

有鉴于此，在过去几年里，气候变化已成为美国和世界各地官员日益紧迫的关切。目前，在美国，乔·拜登总统和他的政府正在努力通过一项两党基础设施协议，该协议将优先采取以下行动:

在高速公路沿线、农村和贫困社区建设由 500，000 个电动汽车(EV)充电器组成的全国网络。
为全国数千辆校车和公交巴士供电，以减少有害排放，推动零排放车辆和零部件的国内制造。
通过现代化和扩大全国范围内的交通和铁路网络，改善数百万美国人健康、可持续的交通选择，同时减少温室气体排放。

丘特尔斯纳普在 Unsplash 上拍照

除了国家层面的大规模政策建议，一些州也在自行采取行动。例如，加利福尼亚州和华盛顿州都在努力分别在 2035 年和 2030 年强制推行电动汽车，以逐步淘汰使用汽油的汽车。此外，在私营部门内，几家主要的汽车制造商(如福特、通用、沃尔沃等。)已经宣布，他们将在未来十年内实现全电动化，这将被证明是汽车行业的一次重大变革。总而言之，如果实施的话，公共和私营部门的这些变化将导致电动汽车(ev)以及商用电动汽车充电器需求的大幅增长。

我们决定利用我们的数据科学超能力，找到未来电动汽车需求最大的领域，并为电动汽车充电公司提供建议。这里可以找到分析。

数据

首先是数据。我们决定从华盛顿州的 API 中收集关于华盛顿州电动汽车所有权和注册活动的数据。这导致我们在 2010 年至 2021 年间有 433，172 笔电动汽车交易。由于我们试图预测随着时间的推移将有多少辆电动汽车上路，我们最终放弃了所有注册信息，使用了 91，255 个所有权交易。

定义“区域”

我们最初的计划是通过邮政编码集中分析这些数据；然而，由于时间限制，我们决定用县来代替。然后，我们对这些信息进行了重新采样，以反映每个县每月购买电动汽车的数量。但是，我们必须将这些信息转化为每个县一段时间内的电动汽车总数，所以我们取了这些数据的累计总和。此时，数据集已准备好用于时间序列建模。

这项分析包括哪些县？

同样，由于时间限制，我们决定将重点放在华盛顿州电动汽车交易最多的前 10 个县。这些县包括:本顿、克拉克、海岛、金、基特萨普、皮尔斯、斯诺霍米什、斯波坎、瑟斯顿和沃特科姆县。

这一阶段的数据是什么样的？

看看全州的电动汽车数量，也许并不奇怪，我们可以看到，在过去 10 年里，华盛顿州道路上的电动汽车数量一直呈指数增长。

在很高的层面上，这证实了华盛顿州有必要的电动汽车需求趋势，使投资电动汽车充电公司有利可图。

从单个县来看，我们发现金县的发展速度比其他县快得多。这是意料之中的，因为金县包括西雅图，西雅图是华盛顿州人口最多的城市。

建模

我们的工作流程在每个县都是一样的。在分解数据并查看电动汽车数量的趋势和季节性后，我们将数据分为每个县的训练集和测试集。在将 SARIMAX 模型拟合到训练集之后，我们使用了一个名为 pmdarima 的库，根据 AIC 分数为每个模型找到最佳参数。然后，我们预测“未来”,并将该信息与测试集进行比较。如果预测值与观察到的数据一致，我们继续将另一个 SARIMAX 模型拟合到整个观察到的数据(训练+测试集),并对每个县未来的电动汽车数量进行预测。如果不是，我们重复不同的训练测试分割，直到预测接近观察到的数据。

那么，哪个县将拥有最多的电动汽车呢？

我们的模型预测国王县将在 2023 年拥有最多的电动汽车。准确的说是 74875。斯诺霍米什县以 17，117 辆远远落后于第二名。

观察到的(左)与预测的(右)每个县的电动汽车数量。

但是，这有点误导。我们的分析目标是找到最有潜力投资电动汽车充电公司的县。我们必须考虑的一个主要因素是现有的充电基础设施。毕竟，如果一个国家已经有一船可用的充电器，那么商业充电市场可能已经饱和，即使未来几年将有更多的汽车上路。

更多数据！

因此，我们决定从国家可再生能源实验室(NREL)的 API 中收集现有充电基础设施的数据。我们最终在华盛顿州建立了 1686 个充电站(如果您想查看每个充电器的确切位置，请点击此处)。以下是各县充电站数量的明细:

华盛顿州充电站数量(截至 2021 年 6 月)。

华盛顿电动汽车充电器的位置(截至 2021 年 6 月)。

正如我们在这里看到的，华盛顿州大约 50%的充电器位于金县。因此，如上所述，国王县充电器市场可能已经饱和，可能不需要更多的充电器。

我们如何在相对的基础上比较各县？

为了能够在各县之间进行比较，我们设计了一个指标“每个充电器的电动汽车数”，这是 2023 年电动汽车的预计数量除以每个县现有充电站数量的比率。该比率越高，预计该县未来的服务水平越低，这可能会转化为电动汽车充电公司的更多机会。当我们根据这一指标对数据进行排序时，我们发现，与其他 10 个县相比，国王县确实不太理想:

按电动汽车/充电器比率分类的数据。

上图中，电动汽车每充电器指标排名前四的县是 Island、Clark、Snohomish 和 Whatcom。然而，当我们考虑以下因素时，尽管 Island County 的电动汽车/充电器比率领先，但我们得出的结论是，它不是一个真正的竞争者。

等等，为什么岛县出局了？

首先，岛屿县由一系列岛屿组成，主要是住宅建筑和国家公园，很少有商业中心和办公楼。根据 JD Power 的一项研究，“80%的电动汽车充电是在家里进行的——几乎总是在夜间进行——或者在工作日停车时进行。”因此，居住在该县的电动汽车车主很可能会在自己家里为他们的汽车充电，而不是使用商业充电站。此外，由于土地的限制，该县的人口在未来可能会停滞不前，这可能会转化为对电动汽车的需求，因此充电器也会停滞不前。

描述所有 10 个县的电动汽车/充电器比率的地图。这可以在项目仪表板中以互动形式获得。

结论

总而言之，电动汽车背后的动力——由最近的技术和政策进步产生——使今天成为投资充电基础设施的理想时机。作为在电气化交通方面领先的州之一，华盛顿州是美国建设新充电站的最佳地点之一。

我们认为，对于电动汽车充电公司而言，以下县(按排名顺序)具有巨大的高盈利潜力:

1。克拉克县

2。斯诺霍米什县

3。Whatcom 县

如果你想看我们的交互式仪表盘，你可以点击这里查看。否则，可以在 GitHub 上查看完整的分析。

来源:

NOAA 国家环境信息中心，气候状况:2021 年 6 月全球气候报告，2021 年 7 月在线发布，2021 年 7 月 28 日从https://www.ncdc.noaa.gov/sotc/global/202106检索。

环保局。(2021).交通运输产生的碳污染。环保局。https://www . EPA . gov/transportation-air-pollution-and-climate-change/carbon-pollution-transportation。

福尔克尔，J. (2021 年 2 月 5 日)。福布斯。https://www . Forbes . com/wheels/news/JD-power-study-electric-vehicle-owners-prefer-dedicated-home-charging-stations/。

用 XGBRegressor 预测用电量

原文：https://towardsdatascience.com/predicting-electricity-consumption-with-xgbregressor-a11b71104754?source=collection_archive---------24-----------------------

千瓦消费模式的时间序列分析

来源:图片由 3938030 发自 Pixabay

在本例中，XGBRegressor 用于预测爱尔兰都柏林市市政办公室的千瓦消耗模式。正在讨论的数据集可从 data.gov.ie获得。

XGBRegressor 是什么？

你以前用过 XGBoost(极限梯度提升)做分类任务吗？如果是这样，您将会熟悉这个模型的工作方式。

本质上，梯度推进模型通过以连续的方式将预测器添加到集合中来工作，新的预测器适合于由先前的预测器产生的残差。Aurelien Geron 的《Scikit-Learn & TensorFlow 机器学习实践指南》很好地概述了这一模型背后的理论，我建议参考该指南以获取更多信息。

XGBRegressor 试图完成同样的事情，唯一的区别是我们使用这个模型来解决回归问题，即结果变量是数字的。

特别是在时间序列的上下文中，XGBRegressor 使用时间序列的滞后作为预测结果变量的特征。

数据操作

在深入研究 XGBRegressor 模型之前，让我们看一下数据集本身。

原始数据集以 15 分钟为间隔显示每天的用电模式。

df = pd.read_csv('dccelectricitycivicsblocks34p20130221-1840.csv', engine='python', skipfooter=3)
df

来源:Jupyter 笔记本输出

为此，我们倾向于每天分析数据——每 15 分钟分析一次消费模式可能会给时间序列带来太多波动，从而无法识别数据中任何有意义的模式。

通过对每 15 分钟的消耗模式求和，将数据整理成每日格式，如下所示:

df2=df.rename(columns=df.iloc[0])
df3=df2.drop(df.index[0])
df3
df3.drop(df3.index[0])
df4=df3.drop('Date', axis=1)
df5=df4.drop('Values', axis=1)
df5
df6=df5.dropna()
df7=df6.values
df7
dataset=np.sum(df7, axis=1, dtype=float)
dataset

该数组现在以 numpy 格式显示，如下所示:

来源:Jupyter 笔记本输出

以下是日常消费模式的折线图:

来源:Jupyter 笔记本输出

现在，每天的时间序列已经形成，数据被分成训练和测试分区。

train_size = int(len(df) * 0.8)
test_size = len(df) - train_size
train, test = df[0:train_size,:], df[train_size:len(df),:]

然后创建数据集矩阵，将时间序列的滞后存储为特征:

def create_dataset(df, previous=1):
    dataX, dataY = [], []
    for i in range(len(df)-previous-1):
        a = df[i:(i+previous), 0]
        dataX.append(a)
        dataY.append(df[i + previous, 0])
    return np.array(dataX), np.array(dataY)

分析

下面的分析使用了来自机器学习大师的教程作为模板。

在配置 XGBRegressor 模型时，第一步是确定回望期，即模型在预测时间 t 的消耗值时应考虑多少个前期？

来源:Jupyter 笔记本输出

在分析自相关函数时，数据中似乎存在每周季节性，即消费相关性的峰值每隔 7 个滞后出现一次。

在这方面，为模型选择了 7 的回望期。

# Lookback period
lookback = 7
X_train, Y_train = create_dataset(train, lookback)
X_test, Y_test = create_dataset(test, lookback)

XGBRegressor 现在适合训练数据。

from xgboost import XGBRegressormodel = XGBRegressor(objective='reg:squarederror', n_estimators=1000)
model.fit(X_train, Y_train)

最初在集合中使用 1，000 棵树，以确保对数据的充分学习。然而，n 估计量的数量将被修改，以确定是否可以用较低的值获得相同水平的精度。

目标设置为 'reg:squarederror' ，即平方损失回归，对极值误差的惩罚更重。

然后，使用该模型对测试数据进行预测:

testpred = model.predict(X_test)

Y_test (实际测试值)和 testpred (预测值)均经过整形，以便使用均方根误差比较模型精度。

Y_test=Y_test.reshape(-1,1)
testpred=testpred.reshape(-1,1)

RMSE 现在计算出来了:

>>> import math
>>> from math import sqrt
>>> test_mse = mean_squared_error(Y_test, testpred)
>>> rmse = sqrt(test_mse)
>>> print('RMSE: %f' % rmse)RMSE: 437.935136

让我们将其与测试数据的平均值进行比较:

>>> np.mean(Y_test)3895.140625

误差的大小约为整个测试组的平均千瓦消耗值大小的 11% 。这表明该模型在预测相关消费趋势方面做得相当好。

修改树的数量

现在，还记得在获得这个值的过程中使用了 1000 个估计值吗？如果我们决定降低这个值呢？让我们试试 300 个 n_estimators。

>>> import math
>>> from math import sqrt
>>> test_mse = mean_squared_error(Y_test, testpred)
>>> rmse = sqrt(test_mse)
>>> print('RMSE: %f' % rmse)RMSE: 437.930710

我们可以看到，获得的 RMSE 实际上是相同的——这意味着该模型在预测整个测试集的千瓦消耗方面做得一样好。

当用 20 棵树做实验时，RMSE 略微上升到 440，在 10 棵树时，RMSE 上升到 471。

这意味着在构建该模型时应至少使用 20 棵树。然而，XGBRegressor 似乎不需要太多的训练来学习数据的模式-存在每周季节性和使用 7 的回顾期的事实表明，在模型中包括适当数量的滞后作为特征比简单地向模型中添加更多树的额外训练更重要。

在这个问题上，和其他问题一样，数据是王道。

结论

在本例中，您看到了:

如何正确处理时间序列数据以进行正确的分析
XGBRegressor 的使用以及如何适当地修改模型参数
跨测试集确定模型准确性时的 RMSE 计算
如何确定在模型中使用的合适的树的数量

非常感谢您的参与，您可以在michael-grogan.com找到更多我的数据科学内容。

免责声明:本文是在“原样”的基础上编写的，没有担保。本文旨在提供数据科学概念的概述，不应被解释为任何形式的专业建议。作者与本文提及的任何第三方无任何关系。

预测爱尔兰过剩的风力发电:应对气候变化的机器学习

原文：https://towardsdatascience.com/predicting-excess-wind-electricity-in-ireland-machine-learning-against-climate-change-part-1-d042894026a6?source=collection_archive---------13-----------------------

变更数据

机器学习算法能否发现复杂电力网络中的隐藏模式，从而进行可靠的预测？

不断变化的消费模式、电网约束和突然变化的天气条件之间的时间序列预测可能很棘手。我们很高兴分享我们在一系列 ML 算法方面的经验，以帮助我们优化电力消耗并减少碳足迹！

RawFilm 在 Unsplash 拍摄的照片

我们将解释我们试图解决什么问题，我们使用、探索(EDA)什么数据，以及我们如何处理缺失数据、共线性、异常值和特征变换，以便为稳健建模做好准备。

然后，我们将涵盖机器学习/神经网络模型候选，具有强烈趋势的时间序列的特定训练/验证分割，以及模型和 剧透警报 默认 EirGrid 预测之间的结果比较！

问题是

与 1990 年的水平相比，可再生能源是欧洲到 2030 年减少至少 55%碳排放计划的基本要素。我们探索了爱尔兰的情况和风力发电的潜在智能使用。

“在爱尔兰，未来十年的能源需求增长在低需求情景下的 23%和高需求情景下的 47%之间变化。”根据eir grid 2019–2028全岛发电能力声明。

截至 2018 年，风能贡献了 80%的可再生电力和 30%的总电力需求。爱尔兰的目标是将可再生电力增加到总发电量的 70%，欧盟的目标是到 2030 年达到 32%。然而，业界越来越担心每年“损失”的风能数量。2020 年，这相当于超过 140 万兆瓦时的电力，几乎是 2019 年的两倍。根据风能爱尔兰 2021 报告，这不到总产量的 11.5%，足以为超过 30 万个家庭供电。

但是为什么要“浪费”权力呢？

传输系统运营商(TSO)，爱尔兰的 EirGrid，负责始终平衡从发电流向消费者的电力。

图 1 —电网必须始终保持发电和需求之间的平衡。作者图片

当发电量超过耗电量时，TSO 调节杆受到限制:

将电力转向“存储”:在爱尔兰，将水泵送到特劳山电站(但有限制)
出口(市场允许)到英国:最大。1 GW 连接(Ewic + Moyle)
要求天然气/煤炭发电厂减速，但是减速可能需要几个小时
目前，风力/太阳能发电的最大比例受到系统非同步渗透率(SNSP)“2018 年 Q1 的当前比例为 65%”和最近增加到 70%的非同步可再生能源水平的限制。
“可再生能源调度下降”(限制和削减):基本上是将风电场与电网断开，导致风能“损失”，这可以在 EirGrid 集团系统和可再生能源报告中看到。

欧洲绿色协议将促进对电网的大量投资，以支持更高比例的可再生能源，然而，可再生能源容量将大幅增加，导致更多的“浪费”电力。

消费者和工业用户的行为也需要改变，这是这个项目的重点。如图 2 所示，如果风电预计达到当前的 70%，则:

工业用户(如数据中心)可以为电池充电以备后用。
消费者可以设定他们的电器在这些时间运行，例如:1)给电动汽车充电；2)启动带有滚筒式烘干机的洗衣机；3)增加热泵等。

图 2—www.smartgriddashboard.com风力发电可能被“浪费”的例子

数据

图 3 数据来源:由 EirGrid 集团数据和 Metéireann 数据支持

Metéirean data:Copyright Metéireann，Source www.met.ie ，许可声明:该数据在知识共享署名 4.0 International (CC BY 4.0)下发布。
爱格瑞集团数据:爱格瑞集团数据支持，来源:【www.smartgriddashboard.com】T4，开放数据许可 e

如图 3 所示，从爱尔兰岛的 EirGrid Group 下载了一个包含 2017 年 1 月至 2021 年 2 月 145，936 个观测值的风电数据集，因为爱尔兰共和国和北爱尔兰是一个集成的单一电力市场(I-SEM)。数据描述了风力发电和电力需求的样本，频率为 15 分钟。为了构建完整的画面，爱尔兰岛上安装的总风力容量每月在“Eirgrid Group，Tech .“[系统和可再生能源数据汇总报告”中报告。众议员，2020](https://www.eirgridgroup.com/site-files/ library/EirGrid/System- and- Renewable- Data- Summary- Report.xlsx) 。

从 Metéirean 下载的历史天气信息描述了位于香农机场、都柏林机场、科克机场和贝尔穆莱特的四个气象站的每小时天气(37，225 行),因为许多并网风力发电场位于附近，并且都柏林是受电力消耗影响的主要人口中心。此外，在工作的后期阶段，即使是最好的模型也低估了都柏林低风速时的风力发电。我们意识到在爱尔兰北部风速很高，在那里我们没有具体的气象站数据。因此，马林首站的气象数据也被选入气象数据集中。

数据质量、缺失数据和异常值

总的来说，在过去 3 年里，这两个来源的数据质量都很好。

在 Eirgrid 数据集中，15 分钟周期的 66 行完全随机缺失 (MCAR)，因此被回填。

在历史 Metéirean 中，从 2017 年初开始丢失了一大块数据，因此整个数据集减少到仅从 2017 年 7 月 1 日开始，而不会对模型产生影响。

查看温度和风数据的异常值，我们发现它们与爱尔兰短期极端温度一致(30 度以上非常罕见！)和暴风雨(更频繁，对风有好处！).

图 4— Met 异常值分析

我们对风能的一些负值感到惊讶，但发现涡轮机叶片上的周期性空气动力载荷对风力涡轮机产生了负面影响，主要是由于增强的风切变。

图 5 —电力需求和发电异常值

异常值控制图还提供了对电力生产和需求趋势的洞察，特别是季节性和风力发电量的增加。

图 6-实际风力发电控制图

要绘制控制图来帮助发现单变量异常值，这段代码非常方便:

SEAI 每月发电量数据也与爱尔兰共和国 15 分钟数据进行了交叉检查，以确认整体质量。

共线性处理

这里的直觉是，总的可能发电量密切依赖于主风电场附近的天气条件，特别是在[2]、[3]和[4]中发现的:风速、风向、相对湿度和平均海平面气压(百帕)。相反，电力消耗取决于一天中的小时、工作日与周末，还取决于空气温度，如[6]、[7]和[8]所示。

然而，由于需要来自多个站点的天气数据来获得完整的视图，所以许多测量值将是相互关联的。

数据共线性可能会降低模型性能，并模糊特征影响，应尽可能避免。

我们移除了高度相关的要素(高于 0.9)和高方差膨胀因子(VIF)，例如各气象站的温度，从而产生了更易于管理的数据集:

图 7-主要时间和天气特征相关性

要检查多重共线性，最好是使用 variance_inflation_factor。一个经验法则是，如果任何 VIF 大于 10，那么你真的需要考虑从你的模型中删除变量。

具体实现，参见相关的 Colab 文件，文档在 Github 的自述文件中。

功能转换

将时间转换成 2D

从图 8 所示的温度、风速和实际风力的快速傅立叶变换中，我们可以看到第 1 天和第 1 年的频率成分有明显的峰值，这意味着数据有一些潜在的日和年模式。

图 8—天气特征快速傅立叶变换

为了在我们的模型中强调这些模式，我们需要将 1D 观测时间戳转换成一个 2d 周期弧度时间空间(图 9)，如[9]中所建议的。

图 9:日期/时间转换

在这里，我们将时间转换为两个弧度时间空间:一个用于年周期[yearSin，yearCos],一个用于日周期[daySin，dayCos],它们由下式导出:

时间转换

2D 风矢量

如图 10 所示，风向以度数记录，这不是很好的模型输入，因为 360°和 0°应该彼此接近，并且平滑地环绕。此外，如果风速很高，风向对模型没有影响。因此，更明智的做法是将风速和风向结合起来，创建一个 2D 风矢量特征。

图 10。将风速和风向转换为 2D 风矢量

如前所述，请关注第 2 部分，该部分将涵盖候选模型、具有强大趋势和结果的时间序列的特定训练/验证分割！

目标提醒！

此外，为了实现欧洲到 2030 年将碳排放量减少至少 55%的计划，消费者和工业用电用户的行为需要改变，这也是本项目的重点。如图 1 所示，如果风电预计达到当前的 70%，则:

工业用户(如数据中心)可以为电池充电以备后用。
消费者可以设定他们的电器在这些时间运行，例如:1)给电动汽车充电；2)启动带有滚筒式烘干机的洗衣机；3)增加热泵等。

图 11 大风天气预报！—凌晨 1 点至 4 点/下午 3 点左右是给电池充电的最佳时间

基于这一目标，模型预测的成功将主要通过以下方面来衡量:

这项工作的主要相关指标是平均绝对误差(MAE ),因为绝对值是我们试图测量的，以便建议何时给电池充电。
当实际风力发电的比例较高时，准确的预测是最重要的，因为当风力较低时，电力碳强度无论如何都是不好的(其他可再生能源，如太阳能和水力发电，目前在爱尔兰影响较小)
均方根误差(RMSE)和解释的方差回归得分也从模型中测量，以便更好地理解模型的局限性。

具有强劲上升趋势的时间序列的培训/验证拆分

数据集中 2021 年 3 月的最后 2 周被保留作为测试集，数据集中的其余部分被分成训练集和验证集。使用 scikit-learn 的标准随机分割提供了极好的验证结果，但在测试结果中非常差。这是因为，对于时间序列数据，模型通常预测一个接近上一个/下一个值的值。对于随机打乱的集合，该值通常非常接近实际值，实际上存在数据泄漏。

在时间序列中拆分训练/验证集的标准方法是简单地在大约 80%标记的日期拆分数据(如[10]中所建议的)。然而，如第 1 部分所示，目标变量有持续上升的趋势，因此最新数据的测试集结果很差。

因此，数据集在每个月的某一天(22 日)进行拆分，这样定型集就包含了截至该月 22 日的所有日期以及该月 22 日之前的验证集日期，从而保留了所有年份(趋势)和月份(季节性)的数据。对于给定的高性能模型和特征集(随机森林模型和 2DTime)，使用自定义训练-验证拆分的测试集的结果明显更好。

培训/验证分割选项:此处首选在月日之前/之后分割

输入要素集

为了探索每个输入特征对模型的影响，在不同的特征集合上训练和测试模型(表 I)。通过比较不同输入集的结果来检查每个输入要素的影响。

表 I —特性集组合

包含以前 24H 的实际风力(MW)的机组受媒体的启发，用神经网络文章【11】预测日用电量，文章【11】涵盖了相关要求。

模特候选人

随机森林

我们选择随机森林回归模型作为我们早期分析的原型，以了解产生显著差异的功能，它还可以很好地处理线性和非线性关系以及偏差和方差平衡。[12]中对功率预测的研究也表明他们使用了这样的模型。默认的随机森林参数导致完全生长和未修剪的树，这些树可能非常大。在这种情况下，结果非常好，训练时间不到几分钟，所以他们很好。请注意，标准的 SkLearn GridSearch 实现可能难以用于时间序列，因为在嵌套交叉验证中可能会出现“数据泄漏”,如上所述。在“Rhum_Msl”特征集上发现了最佳结果，该特征集包括标准风速以及相对湿度和海平面气压数据。

为测试保留的最后 2 周数据的随机森林回归评估(2021 年 3 月 15 日至 29 日)平均绝对误差(MAE): 219。如图 2 所示，除了一些异常值之外，验证误差描绘了大致均匀的分布。绿色方框中突出显示的时期大约是 2020 年 4 月的第一次锁定，可以理解的是，模式(主要是能源需求)在那时发生了巨大变化。

图 12-验证集上的随机森林错误

如图 13 所示，基于气象历史数据的预测与测试集上的实际风力发电值非常接近。请注意，当需求相对较低时，Eirgrid 自己对风力发电的预测(Eirgrid 预测风力)往往会超过实际发电量。相反，所提出的 RF 模型的预测更加准确，并且有效地符合电网可以应对最大比例的风力发电的事实。

图 13 —随机森林预测与实际风力发电(兆瓦)

必须仔细考虑随机森林模型中的特征重要性(图 14 ),主要是因为气象站测量值之间存在大量残留共线性，但它们给出了对模型重要的特征的概念。

香农的风速(wdsp)以节为单位，以及马林角(wdsp MAL)、科克(wdsp COR)和贝尔穆莱特(wdsp BEL)的风速当然是预测整体风力发电的关键，因为大多数风力发电场都在这些地区。爱尔兰岛上的总风力发电能力逐年增加，这也是一个主要因素。一年中的每一天和每一小时都会影响天气模式和需求的季节性。都柏林目前的温度也很重要，大概是因为它会影响需求。

图 14 —功能重要性

人工神经网络—小时模型

人工神经网络模型的主要优势是它们的自学习能力，以确定变量之间的复杂关系，同时保持较高的数据容差。然而，为了实现准确的预测，人工神经网络的自学习过程需要大量的数据和相应的高计算成本。由于可用数据和计算能力的爆炸式增长，人工神经网络模型已成功用于建模非线性问题和复杂系统，以预测风力发电和能源消耗[13]、[14]、[15]。

因此，本计画也采用类神经网路的方法来比较其他的模型。本文中的人工神经网络模型是使用 Tensorflow 的 Keras 库构建的。有不同版本的 ANN 模型对应于表 1 中所示的特征集。所有版本都使用不同的模型设置进行实验，从 2 到 5 个密集层，每层神经元从 20 到 260 个。根据实验结果，ANN 模型被设置为具有 120 个中子的 3 层和具有 10 个神经元的最后一层。该模型使用 Adam 优化器和校正线性(ReLU)激活函数，因为 ReLU 在该项目中优于其他函数(如 Softplus、Sigmoid 和双曲线函数)。

神经网络模型

在图 15 中，不同特征集的训练和测试结果表明:1)2D 时间特征产生更好的性能，然而风矢量不是预期的；a)选择“time & rhum”数据集的人工神经网络模型用于以后的评估和比较。

图 5 —每个特性集的培训和验证损失(MAE)

长短期记忆模型

由于能够从天气观测中学习短期和长期的季节模式，LSTM 网络对于这个项目是合理的。本工作基于“tensor flow 核心教程:时间序列预测”实现了递归神经网络(RNN)模型，以预测未来 24 小时的爱尔兰风力发电量(图 16)，实现了:

一种 LSTM，其中模型在一个步骤中完成整个序列预测。
一种自回归 LSTM，它将预测分解为单个时间步长。然后，每一步的每一个输出都可以反馈到自身，并且可以根据前一步的情况进行预测，就像在使用 RNNs 的经典生成序列中一样[16]。

这两个模型都使用 24 小时窗口的先前天气值和实际风力作为输入，但是它们不使用未来 24 小时的当前天气预报。因此，它们的性能是次优的。

图 6。24 小时 LSTM 预测与实际风力发电对比示例

人工神经网络— 24 H 模型

由于上述发现，我们再次尝试了神经网络，但基于整个 24 小时的单次预测，类似于上面的 LSTM。

直觉告诉我们，风力发电不仅取决于当前吹过爱尔兰的风，还取决于几小时前发生的事情。例如，如果一个燃气发电站在高点启动并运行，风力开始增强，由于发电站可能需要几个小时才能逐渐减弱，风力发电将暂时“减弱”。

此外，紧接在 24 小时窗口之前的风力发电水平也可以通知模型，因此新的特征集也将包括该数据。

新的 ANN 模型也是使用 Tensorflow 的 Keras 库构建的，并且将所需 N 个特征的聚集 24 H 作为输入，并且由 5 层 N * 24 个神经元组成，随后是 2 层以展平为 24 H 预测的向量。

类似于每小时的 ANN 模型，不同特征集的训练和测试结果表明:1)2D 时间特征产生更好的性能，然而风矢量不是预期的；a)选择用于“时间& rhum & prev actual”数据集的人工神经网络模型用于以后的评估和比较。

图 17 —每个特征集的训练和验证损失(MAE)

击鼓！结果！

使用 MAE 在测试集(2021 年 3 月的最后 2 周)上对本工作中提出的 AI 模型进行评估和比较，以获得每个模型的最佳特征集。还将模型预测与 EirGrid 预测的风能发电量基准进行了比较。如图 18 所示，随机森林和 ANN 模型都比 EirGrid 模型提供了更高的精度(更低的 MAE)。然而，LSTM 模型的性能是最差的。这是因为当前的 LSTM 仅基于风能发电的历史数据，并且当天气特征被结合到未来的工作中时，预期具有改进的性能。

图 18 —每种型号的测试集 MAE(最佳特性集)

但是，等等，2021 年 3 月的最后两周，作为测试集所需的模型的全新数据，代表未来的表现吗？我们可以比较验证集来得到一个想法。

图 9 —验证集 MAE

啊哈，这里的结果没有那么引人注目，尽管很高兴看到 24H·安模型仍然表现最好。为什么会这样？我们应该意识到这种错误有什么模式吗？

事实上，如果我们将误差(预测值-实际值)与实际值进行对比，就会发现确实如此:

图 20 —按实际风力验证集 EirGrid 预测误差 MW

正如我们在一些例子中看到的，当有很多风时，EirGrid 提供的预测往往会高估风力发电，并且似乎没有考虑电网 SNSP 约束:我们可以从上面看到，误差与实际值正相关。这对于黄点(2021 年)和橙点(2020 年)来说尤其如此，在这些地方有更多的风力发电能力，并且在 2021 年电网中有更高比例的 SNSP 支持。

图 21——通过 ActualWindMW 验证集 24H 人工神经网络误差

另一方面，我们的 24 小时人工神经网络模型倾向于在较低的实际值时略微低估。一般来说，误差范围也更小。

由于 MAE 得分非常相似，因此也值得检查解释方差得分，在此我们可以看到 EirGrid 预测性能较差。

图 12 —验证集解释的每个模型的方差得分—越接近 1 越好

让我们仔细看看三月的最后两周:

图 23 —比较 24 小时人工神经网络预测、电网预测和实际风力

在第一周，当有小风和小风代时，预测都非常好。

当风力达到电网的最大容量(约为当时实际需求的 70%)时，EirGrid 的预测明显超调，而我们的最佳模型仅略微低估。

因此，我们选择的机器学习模型，包括神经网络和随机森林，能够从几个简单的气象站测量值、一年中的时间和日期以及连接的风电场容量中发现隐藏的发电和需求模式。

我们的模型已经可以生产了！:=)

后续步骤

对于生产，可能是一个简单的网站，每天晚上都有预测更新，供用户每晚检查，一个小的预算应该足够了。

然而，对于维护和保持模型定期重新训练将需要更多的努力。作为第一次可再生能源电力支持计划(RESS) 拍卖的结果，一些风力发电场以及太阳能生产正在进行中。

如果有更多的时间，我们将继续研究具有更合适特性集的 LSTM 模型。

此外，如此处所示，特征选择和转换对建模性能有很大的影响。这意味着进一步的特征工程研究也可以改善模型的预测。改进之一可能是从快速傅立叶变换和/或小波变换中发现的，这可以在频域中说明特征的季节性模式。

谢谢大家！

我们要感谢您迄今为止的阅读！我们还要感谢都柏林城市大学的数据挖掘教授 Andrew Mccarren 博士，感谢他在管理数据项目方面的清晰教学和他对我们最初项目的反馈，以及 Kevin McElwee 对 24H 模型的启发。

作者

潘康宇，王南钧·马图兹，卡特琳娜·拉兰内

参考

[1]“2020-2028 年全岛发电能力声明”，Eirgrid Group，Tech。众议员，2020。[ [在线](https://www.eirgridgroup.com/site-files/library/EirGrid/ All- Island- Generation- Capacity- Statement- 2020- 2029.pdf)

[2] J. Haslett 和 A. E. Raftery，“具有长期记忆依赖性的时空建模:评估爱尔兰的风力资源”，《皇家统计学会杂志》。C 系列(应用统计数据)，第 38 卷，第 1 号，第 10 页

[3] T.Brahimi，“利用人工智能预测风速在沙特阿拉伯的能源应用”，能源，第 12 卷，第 4669 页，12 2019。

[4] K.P.Moustris、D.Zafirakis、D.H.Alamo、R.J.NebotMedina 和 J.K. Kaldellis，“使用人工神经网络进行混合发电站最佳运行的 24 小时风速预测”，载于大气科学透视，T. Karacostas、A. Bais 和 P. T. Nastos 编辑。湛:施普林格国际出版公司，2017 年，第 409–414 页。

[5] A. Lahouar 和 J. Ben Hadj Slama，“基于随机森林的小时前风电功率预测”，可再生能源，第 109 卷，第-03 页，2017。

[6]蔡志祥，李，林明辉，林俊英，
徐国华，“用神经网络预测能源需求”，
2020。【在线】。可用:https://towardsdatascience.com/预测-能耗-使用-神经网络- xgboost- 2032b6e6f7e2

[7] P. W. Khan、Y.-C. Byun、S.-J. Lee、D.-H. Kang、J.-Y. Kang 和 H.-S. Park，“基于机器学习的方法预测可再生和不可再生能源的能源消耗”，能源，第 13 卷，第 18 期，2020 年。【在线】。可用日期:https://www.mdpi.com/1996-1073/13/18/4870

[8] R. Gramillano，《洛杉矶电力需求预测》，
2019。【在线】。可用:https://towardsdatascience.com/预测电力需求跑赢政府- a0921463fde8

[9] Moon，J，Park，J，Hwang，E，等.基于机器学习的高等教育机构电力消耗预测。j 超算 2018；74: 3778–3800.

[10] scikit-learn 时间序列 Spli t [Online]

[11] 凯文·麦克埃尔威，“用神经网络预测日常用电量。”2020.【在线】。

[12] V. Natarajan 和 n .活女神，使用并行随机森林算法进行风力预测。[新加坡斯普林格]，2020 年第 1 期，第 1048 卷，第 209-224 页。【在线】。可用:https://doi.org/10.1007/978-981-15-0035-016

[13] A. S. Qureshi 和 A. Khan，“深度神经网络中的自适应迁移学习:利用区域间和不同任务域间的知识迁移进行风力预测”，计算智能，第 35 卷，第 1088–1112 页，2019 年。

[14] D. Widodo、N. Iksan、E. Udayanti 和 Djuniadi，“使用深度学习方法进行可再生能源发电预测”，IOP conference Series:Earth and Environmental Science，第 700 卷，第 012026 页，第 03 2021 页。

[15] P. W. Khan、Y.-C. Byun、S.-J. Lee、D.-H. Kang、J.-Y. Kang 和 H.-S. Park，“基于机器学习的可再生和不可再生能源能耗预测方法”，能源，第 13 卷，第 18 期，2020 年。【在线】。可用:https://www.mdpi.com/1996-1073/13/18/4870

[16] A. Graves，“用递归神经网络生成序列”，2014 年。

GitHub 链接到笔记本

https://github.com/CA683-Group99/Wind-Energy-Prediction

使用自然语言处理和机器学习预测假新闻| Scikit-Learn | GloVe | Keras | LSTM

原文：https://towardsdatascience.com/predicting-fake-news-using-nlp-and-machine-learning-scikit-learn-glove-keras-lstm-7bbd557c3443?source=collection_archive---------5-----------------------

在 Kaggle 的假新闻数据集上使用 Python 应用传统机器学习和深度学习技术的简单指南。它也简要地包括文章的正文和文体分析。

马库斯·温克勒在 Unsplash 上的照片

假新闻数据集是 Kaggle 上可用的经典文本分析数据集之一。它由不同作者的真假文章标题和正文组成。在这篇文章中，我使用传统的机器学习方法和深度学习走过了整个文本分类过程。

入门

我开始在 Google Colab 上从 Kaggle 下载数据集。

接下来，我读取数据帧并检查其中的空值。在总共 20800 行中，text articles 有 7 个空值，title 有 122 个空值，author 有 503 个空值，我决定删除这些行。对于测试数据，我用空白填充。

训练数据和测试数据中的空值数量

此外，我还检查“假”和“真”新闻在数据集中的分布。通常，我在导入 matplotlib 时为笔记本上的所有绘图设置 rcParams。

0 是真正的新闻，而 1 是假新闻

真假新闻的比例从 1:1 到 4:5。

接下来，我决定看看下面的文章长度—

可以看出，假文章的中值长度较低，但也有大量异常值。两者的长度都为零。

可以看出，它们从 0 开始，这是令人关注的。我用的时候其实是从 1 开始的。描述()以查看数字。于是我看了一下这些文字，发现都是空白的。对此，显而易见的答案是条带和液滴长度为零。我检查了零长度文本的总数是 74。

我决定重新开始。因此，我会用一个空格填充所有的 nan，然后去掉它们，然后删除零长度的文本，这样就可以开始预处理了。下面是处理缺失值的新代码。数据的最终形状是(20684，6)，即包含 20684 行，只比 20800 少 116 行。

目标变量的分布形状是均匀的，这有利于模型训练。

此后，出现了更多个位数长度或低至 10 的文本。它们看起来更像评论，而不是正式的文本。我会暂时保留它们，然后进入下一步。

文本预处理

因此，在我开始进行文本预处理之前，我实际上查看了拥有假冒和正版文章的作者的重叠数量。换句话说，拥有作者的信息会有任何帮助吗？我发现有 3838 个作者，其中 2225 个是真实的，1618 个是假新闻的作者。其中有 5 位作者是真假新闻的作者。

为了开始预处理，我最初选择了通过空白和扩展收缩直接分割。然而，由于一些(我想是斯拉夫语)其他语言的文本，这已经产生了错误。因此，在第一步中，我使用 regex 只保留拉丁字符、数字和空格。然后，展开缩写，然后转换成小写。这是因为缩写如I have转化为 I have 。因此，向小写字母的转换发生在扩张收缩之后。完整代码如下:

一旦完成，常规单词标记化就完成了，随后是停用词移除。

文本分析

既然数据已经准备好了，我打算使用 wordcloud 查看常用词。为了做到这一点，我首先将所有标记化的文本连接到单独列中的字符串中，因为它们将在稍后的模型训练中使用。

接下来，为每个标签创建一个包含所有文本的字符串，并创建如下的单词云:

第一个 wordcloud 是真新闻，第二个是假新闻。

在假新闻词云中，一些词的出现频率明显高于其他词。在“真实新闻”的文字云上，有不同字体大小的混合。相反，在假新闻数据集中，较小的文本在背景中，一些词使用得更频繁。假新闻词云中的中等大小的词越来越少，或者换句话说，出现频率逐渐减少，这是一种脱节。频率不是高就是低。

风格分析

风格计量分析通常被称为对作者风格的分析。我将研究一些风格学特性，比如每篇文章的句子数量、文章中每句话的平均字数、每篇文章的平均字数以及词性标签数。

每篇文章的句子数量

为了得到这个，我需要原始数据集，因为我在 train_df 中丢失了句子信息。因此，我在 orginal _ train _ df 中保存了一份实际数据的副本，用于将句子转换为序列。

接下来，我查看了每个目标类别的句子数量，如下所示:

显然，虚假文章有很多异常值，但 75%的虚假文章的句子数量低于 50%的真实新闻文章。

文章中每句话的平均字数

在这里，我统计了每篇文章每句话的总字数，并返回平均值。然后我在箱线图上画出了这些数字，使它们可视化。

可以看到，平均来说，假文章比真文章更罗嗦。

每篇文章的平均字数

这是一篇文章的平均字数。在方框图中，很明显，假文章中的平均单词长度更高。

POS 标签计数

接下来，我试着看了伪作 vs 正版文章中的词性(POS)组合。在遍历每篇文章时，我只将单词的词性存储到一个列表中，将相应的词性计数放在一个数据帧中，并使用一个条形图来显示假货和新闻文章中词性标签的百分比组合。两篇文章中的名词都高得多。总的来说，除了假新闻中动词过去式的比例是真实新闻的一半之外，没有明显的规律。除此之外，所有其他 POS 类型在假货和真品方面几乎相等。

使用机器学习的文本分类

Tf-idf 和计数矢量器

一旦分析完成，我首先采用传统的方法使用计数矢量器和术语频率-逆文档频率或 Tf-idf。代码中配置的计数矢量器也生成二元模型。使用 CountVectorizer ()以矩阵的形式获得它们出现的次数，然后将这个字数矩阵转换成归一化的词频(tf-idf)表示。这里，我使用了 smooth=False，以避免零除法误差。通过提供 smooth=False，我基本上是在文档频率上加 1，因为它是 idf 计算公式中的分母，如下所示

**idf(t) = log [ n / (df(t) + 1) ]**

使用默认配置进行基准测试

接下来，我打算用默认配置来训练模型，并挑选出性能最好的模型稍后进行调优。为此，我遍历了一个列表，并将所有性能指标保存到另一个数据帧中，并将模型保存到一个列表中。

我使用了逻辑回归、多项式朴素贝叶斯、决策树、随机森林、梯度增强和 Ada 增强分类器。多项式 b 的精确度是所有方法中最好的，但是 f1 的分数由于召回分数低而不稳定。事实上，召回率最差，为 68%。结果中最好的模型是 Logistic 回归和 AdaBoost，它们的结果是相似的。我选择用逻辑回归来节省训练时间。

用于调整逻辑回归分类器的 GridSearchCV

所以，是时候调整我选择的分类器了。我开始使用更大范围的 max_iter 和 c。然后使用 cv=r 的gridsearchcv，即交叉验证的 5 倍，因为标签分布是公平分布的。我已经使用 f1-score 进行评分，并使用 refit 返回 f1-score 最好的训练模型。

得到的最佳模型的准确率为 97.62%，f1 值为 97.60%。对于这两者，我们都实现了 4%的改进。现在，我注意到 max_iter 的最佳值是 100，这是范围的下限，对于 C，它也是 100，但这是范围的上限。因此，为了适应参数搜索，我使用了 max_iter = 50，70，100 和 C = 75，100，125。在 max_iter=100 和 C=125 的情况下有微小的改进。因此，我决定保持不变，并将 C 的参数搜索从 120 扩大到 150，步长为 10。本次运行的所有性能指标与起始网格的结果相同。然而，这次运行的 C=140 的值。

最后一次，我在 max_iter=100 和 C = [100，125，140]上运行网格搜索，其中 C 具有所有运行中的最佳参数。最好的一个是 max_iter=100，C=140，我最终保存为最佳模型。

由于 GradientBoost 和 AdaBoost 分类器的性能也很好，因此未来可能的工作之一是用它们进行测试。在某些情况下，调优后的性能可能会好得多，但考虑到时间，我会在这里得出结论，因为逻辑回归是 max_iter=100 和 C=140 的最佳性能模型。

我终于把结果上传到 Kaggle 上了。这个挑战已经进行了 3 年，但是我对测试这个模型的测试数据的分数很感兴趣。

使用手套和 LSTM 的文本分类

数据准备

为了使用深度学习技术，文本数据必须以原始格式重新加载，因为嵌入会略有不同。在下面的代码中，我处理了缺少的值，并将文章的标题和作者附加到文章的正文中。

接下来，我使用 Keras API 的标记器类对文本进行标记，并使用 oov_token = " < OOV >"替换词汇外标记，这实际上创建了一个基于词频的词汇索引。然后，我在文本上安装标记器，并使用通过安装标记器创建的词汇索引将它们转换成整数序列。最后，由于序列可能有不同的长度，我使用 padding _ sequences 在末尾使用 padding=post 填充零。因此，根据代码，每个序列的长度预计为 40。最后，我将它们分成了训练集和测试集。

二元分类模型

为了创建用于文本分类的模型，我从最简单形式的二进制分类模型结构开始，其中第一层是嵌入层，期望嵌入 6000 个 vocab 大小的文本(在 vocab_size 中指定)，每个长度为 40 的序列(因此，input_length=max_length ),并为每个输入序列给出 10 维的 40 个向量的输出。接下来，我使用展平图层将形状(40，10)的矩阵展平成一个形状(400)的数组。然后，这个数组通过一个密集层产生一维输出，并使用 sigmoid 激活函数产生二进制分类。我最初想用这个模型做更多的实验，所以为它创建了一个函数，我也喜欢把层组合成一个函数作为练习。这项工作并不真正需要它。最后，我使用 precision 和 recall 来编译模型，以便在训练和验证时进行监控。

我还使用了早期停止来节省时间，patience=15 表示如果在过去的 15 个时期中模型没有改进就停止，使用模型检查点来存储最好的模型，save_best_only=True。增加了模式=分钟，因为我在这里监测损失。

现在是适合模型的时候了！

因为我使用了精度和召回率以及损失，所以我也可以在这里跟踪精度和召回率值。如下图所示，验证损失在第 6 个时期最低，然后损失停滞或增加。因此，最佳模型在训练的第 6 个时期后被保存。很明显，随着训练损失的改善，模型是如何过度拟合的，而验证损失在第 6 代之后增加。

下面是我用来绘制训练和验证损失、精度和召回的代码。我在 range 函数中用了 max(history.epoch) + 2，因为 history.epoch 从 0 开始。因此，对于 20 个时期，最大值将是 19，范围将为 max(history.epoch)生成从 1 到 18 的列表。

该模型的准确度值为 96.6%，f1 值为 96.6%。我还在 Kaggle 测试数据上测试了这个模型的性能，它还不错，但不比我之前训练的逻辑回归好。

LSTM

唷！现在让我们用 LSTM 模型来拟合文本数据。第一层和最后一层是相同的，因为输入和输出是相同的。在这两者之间，我使用了一个辍学层过滤掉 30%的单位，然后去 LSTM 层的 100 个单位。长短期记忆(LSTM)，是一种特殊的 RNN，能够学习长期依赖。他们的特长在于记忆信息的时间更长。在使用 LSTM 后，我使用了另一个脱落层，然后是一个具有 64 个隐藏单元的全连接层，然后是另一个脱落层，最后是另一个具有“Sigmoid”激活函数的一个单元的全连接层，用于二进制分类。

完成后，我按照上一节中概述的相同过程编译、使用回调并拟合模型。我提供的纪元数量是 20。但是在这种情况下，模型只训练了 16 个时期，因为在第一个时期之后的 15 次连续迭代中，验证损失没有改善。从下面的图中也可以清楚地看到。由于过度拟合，验证损失一直在增加，而训练损失却在下降。回想一下回调设置，我对模型进行了编码，以在停止之前连续 15 个时期等待验证损失的改善。

该模型没有显著的改进，尽管该模型有可能改进。其准确率为 96.1%，f1 评分为 96.14%。

使用预先训练的单词嵌入—手套

现在，我们也可以使用预先训练的单词嵌入，比如 GloVe。GloVe 是一种无监督学习算法，用于获取单词的矢量表示。在来自语料库的聚集的全局单词-单词共现统计上执行训练，并且所得的表示展示了单词向量空间的有趣的线性子结构。[ 4

我使用的是一个在 60 亿个词汇上训练过的，词汇有 40 万个，用 300 维向量格式表示。

在下面的代码中，我有一个在 Google Colab 上加载 GloVe 的代码，因为我在 Colab 上做了部分工作。

在这里，我概述了如何从本地加载文件。从这里下载嵌入这个词。

接下来，我们的目标是在手套嵌入中找到假新闻数据中的标记，并获得相应的权重。

带手套的简单模型

现在，我已经为我们的训练数据嵌入了手套，我使用了 output_dim=300 的嵌入层，这是手套向量表示形状。此外，我使用了 trainable = False，因为我使用的是预训练的权重，所以我不应该在训练时更新它们。它们与其他单词有关系，所以最好不要打扰它们。

最后，使用与我之前使用的相同的过程，我用 50 个纪元来训练模型。然而，由于在第 3 个时期之后没有改善，该模型在第 18 个时期之后停止训练。得分低于前两款。准确率和 f1 值都在 93%左右。

LSTM 手套

和..最后，我使用手套嵌入来训练我之前使用的 LSTM 模型，以获得更好的结果。完整的代码如下-

同样，我使用了 50 个历元，模型在第三个历元后没有改进。因此，训练过程在第 18 个纪元后停止。准确率和 f1 值都提高到 96.5%，接近第一个 Keras 模型。

所以，我试着用 Kaggle 的测试数据来预测这个模型，这是我的结果

结论

在本练习中，最佳模型是优化的逻辑回归模型。这个用例还有很多需要进一步改进的地方，特别是设计更好的深度学习模型。此外，出于时间的考虑，我没有调整随机森林和 AdaBoost 分类器，这可能会导致比逻辑回归更好的性能。

参考

https://faroit . com/keras-docs/1 . 0 . 1/入门/sequential-model-guide/
【https://colah.github.io/posts/2015-08-Understanding-LSTMs/
https://machine learning mastery . com/use-word-embedding-layers-deep-learning-keras/
https://nlp.stanford.edu/projects/glove/

完整代码在这里。

感谢光临！

我的链接: 中|LinkedIn|GitHub

利用泊松分布预测足球比赛结果

原文：https://towardsdatascience.com/predicting-football-match-result-using-poisson-distribution-ac72afbe36e0?source=collection_archive---------7-----------------------

探索泊松分布和预测加拉塔萨雷对费内巴赫比赛结果使用它与 python 实现

理解数据集、执行适当的预处理操作并解释结果对于根据更准确的数据训练机器是必不可少的。例如，如果我们考虑降维，降维方法的类型(线性或非线性)取决于数据集的结构。分布类型也是阅读、理解和推断数据集的最重要的方法之一。本文通过使用泊松分布和 2019-2020 土耳其足球联赛数据集解释了球队相互进球的概率，该数据集总是无记忆的，具有泊松分布。本文深入解释了泊松分布，并基于 2019-2020 土耳其足球联赛的真实数据集，使用泊松分布对加拉塔萨雷和费内巴切相互得分的概率进行了建模。

***Table of Contents* 1\. What is Poisson Distribution?
*1.1\. How can we decide whether is a poisson distribution?
1.2\. Examples
1.3\. Real Applications*
2\. Predicting Football Match Result
3\. References**

荷马·洛佩兹在 Unsplash 上的照片

1.什么是泊松分布？

以其最短的形式，在某个区间(这个区间可以是时间、距离、面积、体积等)内发生的独立事件数量的分布。)是泊松分布。比如某路口 24 小时的事故数量，一平方米地块的鸡，X 地区 3 个月的火灾数量等。在继续这些例子之前，让我们先来看看这个主题的理论背景:

泊松分布，按作者分类的图像

其中λ=某一时间间隔内出现的平均次数

e =欧拉常数

x =需要概率的事件的数量

1.1。我们如何决定是否是泊松分布？

事件发生随机和独立呈泊松分布。
事件发生在特定范围内。
要使用泊松分布建模，应根据事件的计数给出分布。例如，在 10 分钟内过马路的人的平均重量不是泊松分布，但是> x kg 的人数可以用泊松分布建模。

查看图 1 中的两幅图和随机放置的红色方块:

图一。泊松分布与否？，作者图片

在左侧的图表中，可以看到正方形中的事件数(数据点)在某些地方为 0，而在其他地方为 15–20。这表明数据不是独立分布的，而是在一定条件下分组的，如果事件(数据点)在整个图中随机、独立且以相同的理论速率分布，那么如果在另一个方块中得到 0 个事件，那么在一个方块中得到 15-20 个事件是没有意义的。因此，它不能用泊松分布来建模。

当红色方块应用于右侧图表的不同部分时，方块中事件(数据点)的数量将彼此接近。这可以用泊松分布来模拟。

这里，用泊松建模的不是手边的数据集，而是应用于数据集的帧中的事件(数据点)的数量。

1.2.例子

让我们解决一些基本问题来进入正题。

1-1 毫微克的铀-234 平均每秒发生 4.6 次放射性衰变，让我们根据泊松分布计算每秒发生 3 次放射性衰变的概率。

λ= 4.6
X=3

下面的代码块解决了这个问题:

图二。衰变数的概率，按作者分类的图像

值的概率如图 2 所示，如果每秒 4.6 次放射性衰变，则 3 次放射性衰变的概率为 16%，其他值的概率如图所示。

2-平均 12 个人在 30 分钟内参观一个博物馆。任何 5 分钟内没有新人来这个博物馆的概率是多少？

如果 30 分钟内平均有 12 个人访问，那么 5 分钟内平均会有 2 个人访问，所以λ= 2；
如果 X 值，也就是概率，是期望值，就是 0。

下面的代码块解决了这个问题，而没有使用泊松分布库:

图 3。访问次数的概率，按作者分类的图像

在图 3 中，显示了访问多达 10 个人的概率。5 分钟内没有新访客的概率为 13.53%。

1.3.真实应用

以下列表包括泊松分布的实际应用:

图 4。泊松分布的应用[1]

2.预测足球比赛结果

该研究旨在确定加拉塔萨雷主场而费内巴切客场(GS vs FB)时球队进球数量的概率。在这种情况下，使用了以下包含 1959-2021 年间土耳其联赛所有比赛结果的数据集。为了找到他们在加拉塔萨雷主场和费内巴切客场比赛中相互进球的概率，我们研究了 2019-2020 赛季，如下面的代码块所示:

数据集(许可证: CC0:公共领域)可以通过链接访问

在第一部分中，通过选择 2019–2020 赛季并导入数据集；选择主场、客场、主场进球得分和客场进球得分列。
第二部分计算 2019–2020 赛季主客场球队的总进球数和平均进球数。联赛共有 18 支球队，赛季进行了 18*17 = 306 场比赛，主队的总进球数为 493 个(平均:1.611)，而客场球队的总进球数为 382 个(平均 1.248)。
在第三部分，计算了加拉塔萨雷在主场比赛中的总进球数和失球数以及平均进球数。加拉塔萨雷 17 个主场进 32 球(场均:1.882)，失 15 球(场均:0.882)。
在第四部分，计算了费内巴切在客场比赛中的总进球数和失球数以及平均进球数。主队在费内巴赫 17 场客场比赛中的进球，这意味着费内巴赫的失球数是 24 球(平均 1.412)，而费内巴赫的失球数是 17 球(平均 1.00)。
在第五部分中，对前一部分收集的值进行了汇编和列表。(图 5)

图 5。调查结果汇编，图片由作者提供

6.第六节加拉塔萨雷(主场)和费内巴切(客场)的攻防威力计算如下:

加拉塔萨雷攻击力:加拉塔萨雷主场/联赛主场的平均进球数
费内巴赫攻击力:费内巴赫客场比赛的平均进球/联赛客场平均进球
加拉塔萨雷防守力:加拉塔萨雷的平均失球数，加拉塔萨雷是主场/联赛客场平均失球数
费内巴赫防守实力:费内巴切客场比赛平均失球数/联赛主场平均失球数

这部分可以选择使用不同的数学运算符进行计算。

7.在第七节中，加拉塔萨雷主场对费内巴切的平均进球数和费内巴切客场对加拉塔萨雷的平均进球数是利用第六节中得到的各队的攻防力量计算出来的。(GS 1.649–0.707 FB)

当然，由于匹配结果不太可能以 1.649–0.707 结束，这些平均值的泊松分布已在以下部分获得:

8.第八集中，加拉塔萨雷对阵费内巴切的进球概率如图-6 所示。

图 6。加拉塔萨雷进球概率

加拉塔萨雷对阵费内巴赫进球概率最高的是 1 球(31.7%)，其次是 2 球 26.14%

9.第九节，费内巴切对阵加拉塔萨雷的进球概率如图-7 所示。

图 7。费内巴赫进球的概率

加拉塔萨雷对阵费内巴赫进球的最高概率是 0 球(49.32%)，也就是说加拉塔萨雷有 49.32%的几率不失球。第二个是 1 球 34.86%。

3.参考

[1] J. Letkowski，“泊松概率分布的应用”

https://ibrahimkovan.medium.com/machine-learning-guideline-959da5c6f73d

用机器学习算法预测 HDB 价格(下)

原文：https://towardsdatascience.com/predicting-hdb-prices-using-machine-learning-algorithms-part-2-614c54646998?source=collection_archive---------33-----------------------

照片由盖伦·克鲁特在 Unsplash 拍摄

第 1 部分:使用神经网络预测 HDB 价格。

注意:大家好，这个故事是我上一篇文章的后续。自从我的上一篇文章以来，我一直致力于通过特征工程改进模型的几种方法。我意识到数据集中有街道名称和街区编号，使用地理定位 API ( OnemapSG )我能够创建新的功能来测量房屋和感兴趣的地方之间的距离(使用哈弗辛公式)。我的同事在地理定位 API 上给了我很多帮助。

概观

当前的机器学习算法增加了两个新功能。1.转售价格指数和 2。距离购物中心/捷运/CDB。目的是验证包含这两个新特性是否会导致 MAE 小于以前的模型(<20,000).

重新定义业务案例

在用神经网络预测 HDB 价格的第 1 部分中，我的商业案例是创建一个 HDB 预测模型而不考虑销售年份。回想起来，我没能考虑到它的真正适用性。为什么会有人有兴趣知道他们的房子在 10 年前卖了多少钱？预测模型应该预测今天价格中的转售价格。

因为有很多因素(如供求关系、SIBOR 等。)可以影响转售价格。这些因素会导致相同条件下的价格波动，这意味着具有完全相同特征(相同大小，相同位置)的房屋可能会根据销售年份的不同而定价不同。为了考虑到每年的价格波动，价格将标准化到 2020 年(转售价格调整)。转售住房指数可以在这里找到。

创建经纬度特征

我们通过连接块名称和块编号创建了新的要素名称(称为地址),之后我们通过地理定位每个地址来创建纬度和经度要素。随后，我们所要做的就是根据学校或捷运站的列表计算地址之间的最小距离。

删除不存在的 HDB 名字

在地理标记过程中，我们发现一些没有坐标的组屋，很可能这些街区已经被拆除或被另一栋建筑取代。为了完整起见，我删除了空条目。此外，Lim Chu Kang 镇地区近年来没有组屋，因为该地区的所有组屋都已拆除。

调整后的转售价格

到 2020 年调整后的转售价格。低于 2020 年指数水平的房屋已经向上调整，最明显的是 1990 年。我们看到，1990 年的价格几乎翻了 3-4 倍。通过将价格调整到 2020 年的转售价格指数，我们可以去除销售年份的特征。

调整后转售价格热图

从地图上你可以看到诺维那、坦皮尼、丰戈尔和市中心的几个热点。要了解更多细节，请随意查看 tableau 公共页面。

到便利设施的距离

大多数在新加坡买房的人都希望房子位于便利设施附近，如捷运、购物中心和/或学校。看到新加坡是一个金融中心，有些人甚至想住在中央商务区附近。

我们使用每平方米中值(PSM)作为目标特征，以查看距离和 PSM 之间是否有任何相关性。PSM 是用房价除以建筑面积得出的。看到数据错综复杂(多栋房屋具有不同的转售 PSM，与 MRT 的距离相同)，我选择对每个距离使用中位数 PSM。

PSM 到 MRT 的距离

对于不知道什么是 MRT 的国际读者。你可以把它想象成纽约的地铁，或者伦敦的地铁。

PSM 和到 MRT 的距离之间有轻微的负相关(R2=0.04)。

PSM 到商场的距离

同样，在 PSM 和到最近的购物中心的距离之间有轻微的相关性(R2= 0.037)。商城列表源自data.gov，之后做了一些清理，删除了停车场和无关数据。

PSM 到中央商务区的距离

CBD(捷运来福士广场)距离显示出相对较强的负相关性(R2=0.258)。似乎我们离 CDB 地区越远，我们看到 PSM 下降。

PSM 至学校

PSM 对学校似乎是反直觉的，有一个正相关(R2=0.002)，尽管很弱。

系统模型化

在这篇文章中，我将包括其他机器学习模型，不仅要看看序列神经网络是否最好，还要比较特征重要性的差异。我将比较三种算法，即 1)序列神经网络，2)随机森林回归和 3) XGBoost。

我编码了所有的分类特征。至于神经网络，数据是有尺度的。

随机森林回归+超参数调整

我对随机森林回归随机搜索交叉验证应用了超参数调整。以下是用于随机森林算法的最佳超参数。

基于随机搜索 CV 的最佳参数

Scikit 学习特征重要性和 LIME(局部可解释模型不可知解释)都用于解释一些特征重要性，以了解哪些参数是重要的。LIME 还有助于我们了解该特征对预测有负面影响还是正面影响。

1 个样本的随机森林的石灰

我们可以立即看到，建筑面积在整体价格中占有很高的权重，这确实表明越大越好。此外，我们还可以看到，添加到模型中的新功能是预测价格的一个重要因素。

XGBoost 回归器+超参数整定

XGBoost 回归器与超参数调整一起使用。欲了解更多关于超参数调整的信息，请参考此处。我想看看通过简单地调整超参数我们能获得多大的改进。超参数调整前的 MAE 为 24，907.30。在调优之后，我们设法获得了 22，726.26 的 MAE。在不改变数据集的情况下，MAE 提高了 10%。

1 个样品的 XGBoost 石灰

我们可以看到不同的特征如何影响房价。

序列神经网络

使用了一个三层神经网络，但是，这一次我们增加了批量大小以缩短训练时间。最新的模型并不比以前的模型表现得更好，也不比以前的两个算法表现得更好。在未来的工作中，我将致力于优化超参数，以改善神经网络模型。

估价

所有三种算法的结果都是通过随机 k-fold 获得的。结果是:

评估表

很明显，XGBoost 的性能优于 NN 和 Random Forest。此外，这三种算法都有不同的特征重要性。引入的新功能(距离)在确定房价方面意义重大。

XGBoost 的特性重要性非常直观。此外，这 7 个特征优于其他特征。前三个特征，即剩余租赁、楼层和到 CDB(地铁莱佛士广场)的距离，在所有三种模式中都非常重要。

这有什么用？

嗯，分析功能的重要性可以让用户在做住房决策时确定和优先考虑哪些功能。你现在可以优先选择一个较高楼层的 HDB 和一个靠近学校的 HDB。当然，这纯粹是从转售价格的角度来看，而不是投资回报，因为该模型没有考虑起始价格。

结论

虽然这个项目在选择 HDB 公寓时给了我们许多重要的见解，但我相信这种模式的应用是非常广泛的。目前，除了帮助我的房地产经纪人朋友估计售价，我还没有发现这个模型的任何真正用途。

在未来的第三部分，我将包括私人财产的数据，以便创造一个整体的工具，可以预测新加坡的房地产价格。让潜在买家和房屋中介更深入地了解房价以及各种特征如何影响预测价格。

预测房价:使用分类因子回归

原文：https://towardsdatascience.com/predicting-home-prices-using-regression-with-categorical-factors-9a35da52067b?source=collection_archive---------42-----------------------

分类解释变量的正确解释入门

图片来自 Pixabay 的鲁迪和

范畴回归导论

回归是数据科学世界中的一个主题，因此以最简单的形式理解它是很有用的。

我最近写了一篇文章，为我们提供了回归的更多细节。你可以在这里找到。为了继续我们在那里探索的思想，今天我们将探索回归模型的创建，其中解释变量是分类数据点。

正如我提到的，从头开始很好地理解应用程序和方法是很重要的。这将有助于你利用机器学习算法&其他以不同方式利用回归概念的统计分析。

让我们从一点 EDA 开始

当涉及到可视化因变量(数值型)和自变量(分类型)之间的关系时，有一些标准的视觉效果是你应该经常考虑的。

我们想看到的是模式或关系。当处理两个数值变量时，散点图是一个明显的选择。

在这种情况下，有几个很好的选择是刻面直方图和箱线图。

柱状图

让我们从一个分面直方图开始。Facet 只是意味着我们不是创建一个单一的直方图，而是实际上有一个给定分类变量的每个级别的直方图。

请放心，ggplot让这变得非常容易。

正如您在下面看到的，我按照常规制作了一个直方图来表示价格的分布，但是我还包含了facet_wrap命令，指示程序为传递给facet_wrap(~)的字段的每个值可视化一个直方图。由于 waterfront 字段只有两个值，我们将看到两个相邻的窗格，其中包含 waterfront 值的价格值直方图。

housing %>%
  ggplot(aes(x = price)) +
    geom_histogram(binwidth = 50000) +
    facet_wrap(~waterfront)

我们可以看到，总的来说，绝大多数住宅没有滨水区，但这并不一定意味着所有有滨水区的住宅价格都更高。如果我们观察这两个群体的平均价格，我们会发现滨水积极型公司的平均价格更高，因为相对集中程度没有那么高。

密度图

分布的更好的相对可视化是geom_density

housing %>%
      ggplot(aes(x = price)) +
      geom_density(binwidth = 50000) +
      facet_wrap(~waterfront)

现在，我们可以更好地捕捉分布中给定部分的相对浓度。

箱线图

现在让我们用一个箱线图来可视化同样的数据。正如你在下面看到的,ggplot的语法几乎完全相同。

housing %>%
  ggplot(aes(x = as.factor(waterfront), y = price)) +
    geom_boxplot()
    facet_wrap(~waterfront)

箱线图的中心线由分组数据集的中值表示。虽然这两种可视化方法都以某种形式呈现分布，但箱形图的美妙之处在于我们可以非常精确地测量和比较平均值、IQR 等。

它有助于使事情变得容易理解。

EDA 外卖

一种类型的可视化比另一种更好吗？我会说是的，因为不同的事情。当谈到探索性数据分析或您作为数据科学家可能进行的任何类型的分析时，很容易开始使用您工具带上的工具，因为您知道这是人们做的事情，但是如果您有使用给定工具的明确目的和意图，它会使您使用给定工具的工作更有意义。

在这种情况下，直方图将有助于您更好地理解分布的形状，而箱线图将有助于您更清楚地比较数据集的分组。

让我们建立一个回归模型

在构建回归模型时，了解幕后到底发生了什么非常重要。

你可以参考这篇文章，而不是重新解释如何解释各种回归输出，我们将在这里继续。

如您所知，回归模型中使用的每个解释变量都有一个系数。该系数包括我们通过回归生成的直线方程中直线的斜率。

让我们快速运行我们的回归，只传递滨水区变量作为解释变量。

fit <- lm(price ~ waterfront,
            data = housing)
fit

正如我们之前所见，构建线性模型包括 y 截距 545，462 和系数、斜率或β906，159。

所以我们的公式是 Y = 545462+906159 * X

因为对于海滨我们只有两个选项 1 或 0，所以让我们将其中一个值传递给我们的直线方程并预测 y。

没有滨水区:

545,462 = 545,462 + 906,159*0

在没有滨水区的情况下，我们将传递一个 0，取消那个系数，只给我们留下 y 截距的值。

有滨水区:

1,451,621 = 545,462 + 906,159*1

相反，当有一个滨水区时，我们将 X 视为 1，有效地将 y 截距和系数相加，得到 150 万美元。

这里的解读简直够了。现在让我们看看引擎盖下面。

群体手段

我们将从这个开始，看看滨水组的每个值的平均值。

housing %>% 
  group_by(waterfront) %>% 
  summarize(mean_price = mean(price))

这是我们得到的结果:

我们可以看到没有滨水区的平均价格为 545，462 英镑，没有滨水区的平均价格为 1，451，621 英镑。

注意到这两个数字有什么熟悉的地方吗？

如果您已经注意到非滨水住宅的组均值和模型的 y 截距是相同的，或者滨水住宅的组均值和滨水住宅的模型输出是相同的，那么您已经知道了。

那么这里到底发生了什么…

当您将分类变量传递给回归模型时，在这种情况下，滨水区变量，基线组均值 545K 被指定为 y 截距，变量系数现在被定义为滨水区 1 ，请注意，1 实际上是基线组均值(其中滨水区= 0)和滨水区= 1 时的组均值之间的差异。注意，基线组是按照字母顺序建立的。

如果该变量有三个值，第三个值的系数也将是其组均值和基线组均值之间的相对差值。

结论

总结我们的经验，

在进行 EDA 时，如果您希望评估数值型因变量和分类型自变量之间的关系，有几个很好的可视化选项:

直方图(分面)
密度图(分面)
箱线图(分面)

在采用分类解释变量/自变量的回归模型中:

y 截距等于基线组平均值
基线组是根据变量值的字母顺序建立的
系数等于分类变量的给定值和基线组均值(或 y 截距)之间的相对差值

理解我们使用的工具的内部工作原理很重要。我希望这本使用分类变量进行回归的初级读本在您利用这些和其他工具进行分析时证明是有用的。

祝数据科学快乐！

用深度学习预测赛马结果

原文：https://towardsdatascience.com/predicting-horse-racing-results-with-deep-learning-7942846287bf?source=collection_archive---------21-----------------------

只是为了好玩！

彼得罗·马蒂亚在 Unsplash 上拍摄的照片

我对机器学习在不同领域的应用感兴趣，在这些领域，分析大量数据是得出准确结论的必要条件。一个这样的领域是体育分析。与其他形式的赌博不同，环境和其中的参与者肯定会对结果产生影响，这使得它成为一个可以通过机器学习解决的问题。

我想尝试在这个领域实现深度学习，所以我在网上寻找关于体育的数据集。最终，我找到了一个关于香港赛马的数据集，包含 6000+场比赛。不像篮球和足球等其他更复杂的游戏，赛马只是 14 匹马之间的比赛。这意味着要考虑的变量要少得多。

该模型应该能够预测哪匹马会赢，当给定比赛和马的数据(性别，年龄，类型)。

记住理论概念，这是我使用的代码:

数据预处理:

import os
os.getcwd()

这个脚本获取程序运行的当前工作目录。我运行这个函数，这样我就可以复制一个路径的模板，以便于描述数据集的路径。

os.chdir('Desktop\\Files\\Data')

之后，我移动到存储文件的目录。

import pandas as pd
df = pd.read_csv('races.csv')

数据集由两个 csv 文件组成，即 races 和 runs csv。比赛 csv 包含关于每场比赛的信息，跑步 csv 包含关于参加每场比赛的每匹马的信息。目标是编码所有非数字数据，并将这两个 csv 文件连接成一个大的数据帧。这样会更容易让模型去训练模型。

df = pd.read_csv('races.csv')
df = df.drop('date',axis = 1)
df = df.drop('going',axis = 1)
df = df.drop('surface',axis = 1)
df = df.drop('prize',axis = 1)
df = df.drop('race_no',axis = 1)
for column in df.columns:
    if 'sec' in column or 'time' in column or 'place' in column or 'win' in column:
        df = df.drop(column,axis = 1)
df

这个脚本从数据集中删除了所有不必要的信息。以下是删除所有不必要信息后的数据集:

df2 = pd.read_csv('runs.csv')

这个脚本打开第二个 csv 文件，该文件包含参加比赛的马的所有信息。

df2 = pd.read_csv('runs.csv')
df2 = df2.drop('horse_id',axis = 1)
df2 = df2.drop('result',axis = 1)
df2 = df2.drop('horse_gear',axis = 1)
df2 = df2.drop('win_odds',axis = 1)
df2 = df2.drop('place_odds',axis = 1)
df2 = df2.drop('trainer_id',axis = 1)
df2 = df2.drop('jockey_id',axis = 1)
df2['race_id'] = df2['race_id'] 
for column in df2.columns:
    if 'time' in column or 'behind' in column or 'position' in column:
        df2 = df2.drop(column,axis = 1)

df2

这个脚本从 csv 文件中删除所有不必要的数据。这是之后的数据集:

import warnings
warnings.filterwarnings('ignore')
import numpy as np
true_df = []
for i in range(len(df['race_id'])):
    matches = list(df2[df2['race_id']==i].drop(['race_id'],axis=1).drop(['horse_no'],axis=1).drop(['won'],axis=1).values)
    horse_no = len(matches)
    matches.insert(0,df[df['race_id']==i].values[0])
    matches = flatten(matches)
    true_df.append(matches)

这个脚本将两个 CSV 文件连接在一起:对于每场比赛，它会找到所有参加比赛的马。该数据被展平并添加到关于比赛的信息中。这样做的结果是，您最终得到一个数据帧，每一行都是一场比赛。每行有 104 个值，包含关于比赛和比赛中每匹马的信息。

true_df = pd.DataFrame(true_df)
true_df

之后，我们可以将列表转换成数据帧。以下是完整的数据框架:

所有的 NaN 值都在那里，因为有些比赛有 14 匹马，而其他比赛只有 12 匹马。对于这 12 场赛马，其他值用零填充。

winners = []
for i in range(len(df['race_id'])):
    try:
        winner = df2[df2['race_id']==i][df2['won']==1]['horse_no'].values[0]
    except:
        print(df2[df2['race_id']==i][df2['won']==1])
        winner = 1
    winners.append(winner)

然后我收集每场比赛的所有结果，并将这些数据添加到每一行的末尾。

true_df['winners'] = winners
true_df = pd.DataFrame(true_df).fillna(0)
true_df.to_csv('Desktop\\Files\\Data\\insert_data.csv',index=False)

然后，我用 0 替换 NaN 和 None 的所有实例，因此它不会影响模型的定型。然后，数据框被保存为 csv 文件。

训练模型:

import os
os.chdir('C:\\Users\\v_sim\\Desktop\\Files\\Data')import pandas as pd
df = pd.read_csv('insert_data.csv')
winners = df['winners'].values
df = df.drop('winners',axis=1).fillna(0)
df = df.drop('0',axis = 1)

将数据帧保存为 csv 文件后，此脚本打开 csv 文件，记录每场比赛的获胜者，然后将他们从数据帧中移除。这是为了让其余的数据可以直接转换为 X 值。

def create_dict(array):
    array = array.astype(str)
    unique = np.unique(array)
    encode_dictionary = dict()
    decode_dictionary = dict()
    for i in range(len(unique)):
        encode_dictionary[unique[i]] = i
        decode_dictionary[i] = unique[i]
    return encode_dictionary,decode_dictionarydef encode_df(df):
    columns = df.columns
    dtypes = df.dtypes
    for i in range(len(columns)):
        if dtypes[i] == 'object':
            encode,decode = create_dict(df[columns[i]].values)
            df[columns[i]] = df[columns[i]].map(encode)
    return dfdf = encode_df(df)
df = df.fillna(0)

这个脚本包含两个函数:一个对列表中的信息进行编码，另一个对 dataframe 中的列应用该函数，其中的数据是非数字的。

X = df.values.reshape(len(X),103,1)
y = np.array(y)

该函数根据应用于初始数据集的操作定义 X 和 y 值。

from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Flatten,BatchNormalization
from keras.layers import Dropout
from keras.layers.convolutional import Conv1D
from keras.layers.convolutional import MaxPooling1D
from keras.optimizers import Adam
import kerasmodel = Sequential()
model.add(Conv1D(filters=256, kernel_size=2, activation='relu', input_shape=(103,1)))
model.add(MaxPooling1D(pool_size=2))
model.add(BatchNormalization())
model.add(Conv1D(filters=512, kernel_size=2, activation='relu'))
model.add(MaxPooling1D(pool_size=2))
model.add(BatchNormalization())
model.add(Conv1D(filters=1024, kernel_size=2, activation='relu'))
model.add(MaxPooling1D(pool_size=2))
model.add(BatchNormalization())
model.add(Flatten())
model.add(Dense(64,activation = 'relu'))
model.add(Dense(128,activation = 'relu'))
model.add(Dense(256,activation = 'relu'))
model.add(BatchNormalization())
model.add(Dense(14, activation='softmax'))model.compile(loss='categorical_crossentropy', optimizer='adam',metrics = ['accuracy'])

这是我最终选择的型号。这是一个典型的卷积网络，用于图像分类。我把它用于一维数组和多类分类。

from keras.models import Sequential, load_model, model_from_json
from keras import callbacks, optimizers
symbol = 'horse_racing'
h5 = symbol + '_best_model' + '.h5'
checkpoint = callbacks.ModelCheckpoint(h5,
                                       monitor='loss',
                                       verbose=0,
                                       save_best_only=True,
                                       save_weights_only=True,
                                       mode='auto',
                                       period=1)
callback = [checkpoint]
json = symbol + '_best_model' + '.json'
model_json = model.to_json()
with open(json, "w") as json_file:
    json_file.write(model_json)
model.fit(X,y,epochs = 5000,callbacks = callback,validation_split = 0.1)

这个脚本使用检查点回调来训练模型，以便可以保存和重新加载模型的最佳迭代的权重。这防止了计算资源的浪费。

在对模型进行一段时间的训练后，我发现该模型对训练数据有 92%的准确性，但对验证数据的准确性相对较差。

from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Flatten,BatchNormalization
from keras.layers import Dropout
from keras.layers.convolutional import Conv1D
from keras.layers.convolutional import MaxPooling1D
from keras.optimizers import Adam
import kerasmodel = Sequential()
model.add(Conv1D(filters=64, kernel_size=2, activation='relu', input_shape=(103,1)))
model.add(MaxPooling1D(pool_size=2))
model.add(BatchNormalization())
model.add(Dropout(0.3))
model.add(Conv1D(filters=128, kernel_size=2, activation='relu'))
model.add(MaxPooling1D(pool_size=2))
model.add(BatchNormalization())
model.add(Dropout(0.3))
model.add(Conv1D(filters=256, kernel_size=2, activation='relu'))
model.add(MaxPooling1D(pool_size=2))
model.add(BatchNormalization())
model.add(Dropout(0.3))
model.add(Conv1D(filters=512, kernel_size=2, activation='relu', input_shape=(103,1)))
model.add(MaxPooling1D(pool_size=2))
model.add(BatchNormalization())
model.add(Dropout(0.3))
model.add(Conv1D(filters=1024, kernel_size=2, activation='relu'))
model.add(MaxPooling1D(pool_size=2))
model.add(BatchNormalization())
model.add(Dropout(0.3))
model.add(Conv1D(filters=2048, kernel_size=2, activation='relu'))
model.add(BatchNormalization())
model.add(Dropout(0.3))
model.add(Flatten())
model.add(Dense(64,activation = 'relu'))
model.add(Dense(128,activation = 'relu'))
model.add(Dense(256,activation = 'relu'))
model.add(Dropout(0.3))
model.add(BatchNormalization())
model.add(Dense(14, activation='softmax'))model.compile(loss='categorical_crossentropy', optimizer='adam',metrics = ['accuracy'])

这个模型是我用来解决这个问题的模型:这个模型更深也更广。该模型更深，以便可以发现更复杂的模式，它更宽，以便更好地处理辍学问题。

结论:

这个项目只是体育分析的机器学习的一个基本实现，只是为了好玩。我认为这是相当成功的，但是对数据的过度拟合仍然是一个问题。

我的链接:

如果你想看更多我的内容，点击这个链接。

新冠肺炎患者住院时间的预测

原文：https://towardsdatascience.com/predicting-hospitalized-time-of-covid-19-patients-f4e70456db9b?source=collection_archive---------19-----------------------

医疗保健中的监督机器学习

作者照片

2020 年新冠肺炎疫情的爆发导致美国医疗保健系统出现巨大的设备、材料短缺和床位短缺问题[1]。医院不仅需要照顾常规病人，还需要照顾突然增加的新冠肺炎病人。医院系统的良好规划和管理变得非常重要。

本文介绍了如何使用机器学习来预测新冠肺炎患者在入院时需要住院多长时间(以天为单位)的新方法。这可以帮助医院专业人员对患者治疗和资源(例如，房间、床位等)进行优化规划。)分配。这也可以减少医院访客的数量，从而减少工作人员和访客感染的机会。

本文其余部分安排如下:

数据理解
数据准备
建模
模型评估
部署考虑

1.数据理解

数据集从 Kaggle 的网站【1】获得。本文中使用了三个文件:

train_data.csv :包含与患者、医院和住院时间相关的特征(标签)
test_data.csv :包含与患者、医院相关的特征。需要预测每个病例 id 的“住院时间”
train _ data _ dictionary . CSV:包含训练和测试文件中的特征信息。

如图 1 所示，该数据集中有 318，438 个数据样本，总共 17 个特征和 1 个标签列( Stay )。

图 1: 训练数据集的转置视图。

图 2a 显示了数据集中以下数字特征的统计摘要:

案例 id
医院代码
城市代码医院
医院提供额外房间
河床坡度
patientid
城市代码患者
有病人的来访者
入场 _ 存款

图 2a: 数据集中数值特征的统计汇总。

上述数字特征分布的可视化如图 2b 所示。

可以看出， case_id 特征值均匀分布在仓上，因为它们是唯一的序列号。由于缺乏预测能力，此功能可能会被删除。

图 2b: 数字特征分布。

图 3 显示了患者就诊分布。我们可以看到许多患者多次(从 10 次到 50 次)重访医院。所以病人身份在预测中很重要。

图 3: 患者就诊分布。

图 4a 显示了分类特征和标签列的分布:

医院类型代码
医院区域代码
部门
病房类型
病房设施代码
录取类型
疾病的严重程度
年龄
停留(标签)

我们可以看到标签的分布明显向右倾斜。换句话说，数据是不平衡的。从“41–50”到“61–70”的数据样本非常少。这将对预测能力产生显著的负面影响。

图 4a: 分类特征分布。

图 4b 显示了每个标签类中的数据样本数量。

图 4b: 标签类计数。

2.数据准备

有了数据理解，下一步是探索、清理收集的原始数据集并将其转换为适当的格式，以便转换后的数据可以被目标机器学习模型有效地使用。

2.1.处理缺失数据

如图 5 所示，床级特征列有 113 个缺失数据，城市 _ 代码 _ 患者特征列有 4532 个缺失数据。与 318，438 行的数据集相比，缺失数据的总数相对较少(总共 4，645 行)。在这种情况下，我们可以删除缺少数据的行，或者用 0 替换缺少的数据。我选择用 0 替换丢失的数据，以便能够预测部署中带有丢失特征值的 test_data 数据集的结果。详见data_preprocessing.py中的DataCleaning类【6】。

train_data.isnull().sum()

图 5: 缺失数据计数。

2.2 删除没有预测能力的要素(列)

如前所述， case_id 特性不具备预测能力，因此在本项目中被丢弃(参见data_preprocessing.py [6]中的DataCleaning类)。

2.3 分类编码

2.3.1。分类标签编码

标签列在这个数据集中停留是分类的。必须转化为数字，用于分类特征目标编码[7]和深度学习模型。LabelEncoder 算法[8]用于转换(参见data_preprocessing.py [6]中的TargetEncoding和OneHotEncoding类)。

2.3.2 分类特征目标编码

目标编码[7]的优势在于它不会增加数据集的维度。它已经在这个项目中用于将分类特征转换为集成机器学习模型XGBoost【2】和Random Forest【3】的数字，因为这些模型由于高维度而不能很好地与一键编码一起工作。参见data_preprocessing.py【6】中的TargetEncoding类。

2.3.3。分类特征一键编码

作为比较，流行的 one-hot 编码方法用于转换分类特征，也用于深度学习模型(参见data_preprocessing.py [6]中的OneHotEncoding类)。

2.3.4。其他分类特征转换

我注意到分类年龄特征(例如“21–30”)一旦转换成数字就有了更强的预测能力，因为年龄的顺序有所不同。在这个项目中，每个年龄范围(例如，“21-30”)都被转换成一个平均数，比如(21+30)/2 = 25.5(参见data_preprocessing.py [6]中的OneHotEncoding类)。

2.4.特征标准化

数字特征归一化到深度学习的[-1, 1]范围内(见data_preprocessing.py【6】中的FeatureNormorlization类)。

2.5.数据分割

最后，预处理后的数据集被分成两个子集:一个用于模型训练，另一个用于模型评估。

2.6.数据预处理管道

为方便起见，数据准备步骤 2.1–2.5 已合并到数据预处理管道中:

目标 _ 编码 _ 预处理
预测的目标编码预处理
onehot _ encoding _ 预处理
one hot _ encoding _ preprocessing _ for _ prediction

详见data_preprocessing.py【6】。

3.建模

数据准备好后，我们就可以开始建模了。建模的主要目标包括:

识别潜在的机器学习模型
训练模型并调整模型的超参数

3.1.型号选择

这个项目解决了一个分类问题，因为标签是分类的。这适用于XGBoost【2】、随机森林【3】、深度学习多层感知器(https://en.wikipedia.org/wiki/Multilayer_perceptron**)分类器等有监督的机器学习分类模型【4】。

由于数据是表格形式，特征数量相对较少，所以相比深度学习模型，一般首选 XGBoost 和随机森林。

本项目选择 XGBoost 、随机森林、、 MLP 、分类器进行实验。

3.2.模型训练和超参数调整

XGBoost 和随机森林模型训练均采用 10 文件夹交叉验证。网格搜索用于选择超参数的最佳组合。交叉验证也用于训练深度学习模型。参见train_test_classifier.py中的以下功能:

build_xgboost_model
构建 _ 射频 _ 模型
构建 _ 深度学习 _ 模型

4.模型评估

一旦训练了不同的机器学习模型，就需要评估这些模型的性能，以便我们可以选择最佳的模型进行部署。

分类准确度、F1 分数和混淆矩阵被用作该项目的主要评估指标。详见train_test_classifier.py中的以下功能:

evaluate_xgboost_model
evaluate_rf_model
evaluate_dl_model

通常，在具有不平衡数据的二进制分类的情况下，准确度不是一个好的度量，因为它可以通过简单地预测多数类来容易地实现高百分比的准确度。然而，在多类分类中这不是必须的。例如，在这个项目的数据集中，大多数类别 21-30 只有 87，491 个数据样本。数据样本的总数是 318，438。如果一个模型总是预测多数类，精度将是大约 27.5%。因此，在多类分类的情况下，精度仍然可以是良好的模型性能测量，因为它表示不同标签类的分类的平均精度。

除了准确性之外，F1 分数还用于测量 XGBoost 和随机森林模型性能，因为它可以测量准确性和召回率的平衡，这适用于不平衡的数据。

使用混淆矩阵是因为它可以清楚地告诉我们模型犯了什么预测错误。

4.1.MLflow

为了有效地跟踪模型超参数和性能指标，使用了 MLflow 工具【5】。特别是，我开发了train_test_classifier.py中的mlFlow()功能，将以下活动合并到一个过程中:

加载训练数据
预处理数据
培训模式
评估模型

例如，下面的 mlFlow ()函数调用为 XGBoost 模型产生结果(例如，图 6 中的混淆矩阵)。

*target_encoders, label_encoder = mlFlow()*

图 6: XGBoost 混淆矩阵。

图 6 中的混淆矩阵表明，数据越多，预测结果越好。例如，真阳性的最大数量 14，429 在 21–30 的类别中。

图 7 显示了四个模型评估的结果:

XGBoost 带目标编码
**随机森林带目标编码
MLP 用目标编码
MLP 采用一键编码

我们可以看到 XGBoost 在给定数据集的准确性和 F1 分数方面都具有最佳性能，因此如果其性能满足业务需求，我们可以选择它进行部署。

如图 7 所示，最好的准确率分数只有 42.4%左右。这是因为在大多数标记的类别中数据太少，例如以下范围:41-50，从61-70一直到more than 100。

如果可以收集更多的数据来平衡数据集，准确性得分将会增加。作为实验，我只选择了类别为11-20和21-30的数据样本，并注意到准确率提高到了大约 63%。图 8 显示了来自经过训练的随机森林模型的相应混淆矩阵。

图 8: 带有两个标签类别的随机森林模型的混淆矩阵。

为了理解不同的特征如何影响预测，图 9 显示了由训练的随机森林模型产生的特征重要性。

图 9: 随机森林模型产生的特征重要性。

我还研究了特性和目标标签之间的相关性，如图 10 所示。

图 10: 特征和目标标签(Stay)相关系数。

使用相关系数来确定特征和目标之间的关系的强度是棘手的，因为相关系数仅指示线性关系。具有非常低的相关系数的特征(例如 patientid )不一定表示该特征和目标之间没有关系。例如，patient id具有非常小的相关系数，但是其特征重要性很高。

我尝试删除一些功能重要性较低的功能(例如，医院 _ 地区 _ 代码、城市 _ 代码 _ 医院等)。)和具有非常小的相关系数的特征(例如，City_Code_Hospital ),并且观察到这无助于提高准确度分数。

5.部署

一旦在模型评估中确定了部署的最佳模型，我们就可以进入最后一步，将确定的模型部署到生产环境中。一种常见的部署方法是将模型作为 Web 服务部署在服务器上，目标生产系统中的其他组件可以调用它来预测结果。

为了支持部署，在模型训练后，所选择的训练模型(如 XGBoost 和相关的编码对象(如 LabelEncoder 对象、 TargetEncoder 对象)都被保存到 Python pickle 文件中。这些保存的编码对象和模型将被加载回来，以便在部署中进行预测。

例如，以下代码加载到test_data.csv中，用于部署中的预测。图 11 显示了加载的测试数据集的转置视图。注意，这个数据集没有标签列 Stay 。

*test_data = load_data('test_data.csv')
print(test_data.shape)
test_data.transpose().head(100)*

图 11: 预测前的测试数据。

下面的代码执行以下操作:

加载保存的模型并编码对象
使用它们来预测测试数据集中每个患者的住院天数
显示结果数据帧中的前 100 条记录，带有特性和预测标签(保持列)(参见图 12)
显示预测标签的分布。

我们可以从图 4 和图 13 中看到，图 13 中预测标签的分布模式与图 4 中标签的分布模式非常相似。

*label_encoder, target_encoders = load_encoders()
result_df = predict(label_encoder, target_encoders, test_data_file='test_data.csv')
result_df['Stay'].value_counts().plot(kind='bar')
result_df.transpose().head(100)*

图 12: 带预测标签的测试数据。

图 13: 预测标签分布。

改进

如第 4.1 节所示，所选的最佳模型 XGBoost 仅实现了约 42.4%的准确性和 0.39 的 F1 分数。一个主要问题是数据严重失真，如图 4a 和 4b 所示。一个可能的改进是尽可能收集更多数据和/或使用数据论证技术生成更多数据样本以平衡数据集。

结论

本文介绍了如何使用不同的机器学习模型来预测新冠肺炎患者的住院时间，使用的数据集来自 Kaggle [1]。这个数据集是困难的，因为它是一个多类单标签的情况，并且数据集是显著偏斜的。

实验结果表明，使用具有目标编码和特征工程(例如，年龄特征的转换)的 XGBoost 在预测准确度(42.4%)和 F1 分数 0.39 方面实现了最佳性能。这一结果与 Kaggle [1]中描述的结果具有竞争性。

参考

ka ggle 中的新冠肺炎数据集
XGBoost
随机森林分类器
Keras 顺序模型
MLflow
Github 中的源代码
目标编码器
标签编码器

鸣谢:我要感谢 Udacity reviewer 的指导性评论和 Kaggle 的数据集。

用机器学习预测房价

原文：https://towardsdatascience.com/predicting-house-prices-with-machine-learning-62d5bcd0d68f?source=collection_archive---------1-----------------------

高级回归技术

Kaggle 高级回归技术竞赛的端到端项目

美国宇航局在 Unsplash 拍摄的照片

简介

我想我应该在 Kaggle 的高级回归技术竞赛中一试身手带你一起踏上旅程。如果你正在进入机器学习领域，并希望看到一个完整的项目，请留下来。我将向您介绍我所采取的步骤，同时尝试提供机器学习的速成课程。

目标和数据

比赛的目标是预测爱荷华州埃姆斯的房屋销售价格。您会得到一个 csv 格式的训练和测试数据集以及一个数据字典。

训练:我们的训练数据包括 1460 个房屋示例，其中 79 个特征描述了房屋的各个方面。我们得到了每栋房子的销售价格(标签)。训练数据是我们用来“教授”我们的模型的。

测试:测试数据集由 1459 个样本组成，特征数量与训练数据相同。我们的测试数据集不包括销售价格，因为这是我们试图预测的。一旦我们的模型已经建立，我们将运行最好的一个测试数据，并提交给 Kaggle 排行榜。

你可以在比赛页面熟悉数据。

任务:机器学习任务通常分为三类；有监督，无监督和强化。对于这次比赛，我们的任务是监督学习。

监督学习使用例子和标签来发现数据中的模式

从你拥有的数据和你的目标中，很容易识别你面前的机器学习任务的类型。我们获得了由要素和标签组成的房屋数据，我们的任务是预测训练数据之外的房屋标签。

工具

比赛用的 Python 和 Jupyter 笔记本。Jupyter 笔记本在数据科学家中很受欢迎，因为它们易于跟踪并显示您的工作步骤。

请注意，此代码不是用于生产目的，它不遵循软件工程最佳实践。为了便于解释，我牺牲了一些。

库:这些是 python 中处理常见任务的框架。我恳请任何初露头角的数据科学家熟悉这些库:

熊猫 —用于处理结构化数据

Scikit Learn—用于机器学习

NumPy —用于线性代数与数学

Seaborn—用于数据可视化

项目管线

一般来说，机器学习项目遵循相同的流程。数据摄取、数据清洗、探索性数据分析、特征工程以及最终的机器学习。

流水线不是线性的，你可能会发现你必须在不同的阶段之间来回跳跃。我提到这一点很重要，因为教程经常让你相信这个过程比现实中要干净得多。所以请记住这一点，你的第一个机器学习项目可能会一团糟。

在我们开始之前，我要重申，机器学习是一个迭代的过程，很少是简单明了的！如果你发现自己迷失在一个 ML 项目中，请不要气馁。坚持阅读，坚持实验，坚持提问，总有一天会成功的。

本文的其余部分将讨论项目管道的各个阶段。在有用的地方，我会加入来自 python 的代码示例。完整的端到端项目可以在这里使用和发挥。我会在文末分享这个的链接。

数据清理

Kaggle 尽力为用户提供干净的数据。但是，一定不能变懒，数据总有惊喜。

警告！不要跳过数据清理阶段，这很无聊，但会帮你省下几个小时的头痛时间。

重复&NaN:我从删除数据中的重复开始，检查是否有缺失或 NaN(非数字)值。检查 nan 很重要(不仅仅是因为这是社会道德)，因为它们会导致机器学习模型中的错误。

分类特征:当房屋的某个特征不存在时，有很多分类变量被标记为 N/A。例如，当没有小巷存在时。我确定了在训练和测试数据中发生这种情况的所有案例，并用更具描述性的内容替换了 N/a。n/a 会导致机器学习出错，所以把它们去掉吧。

日期特性:在这个练习中，日期最好作为类别而不是整数来使用。毕竟，我们关心的不是数量级，而是日期代表不同的年份。解决这个问题很简单，只需将数字日期转换成字符串。

解码变量:一些分类变量已经被数字编码。请参见下面的示例。

作者生成的图像

这里的问题是，机器学习算法可以将数字的大小解释为重要的，而不仅仅是将其解释为不同类别的特征。为了解决这个问题，我逆向工程的类别，并重新编码。

探索性数据分析(EDA)

这是我们的数据可视化之旅经常开始的地方。机器学习中 EDA 的目的是探索我们数据的质量。需要记住的一个问题是:有没有什么奇怪的模式让我们挠头？

标签:我在柱状图上绘制了销售价格。销售价格的分布是右偏的，这是意料之中的。在你家附近，看到一些相对昂贵的房子可能并不罕见。

在这里，我执行了我的第一个功能工程(告诉过你这个过程是混乱的)。我将对销售价格应用对数变换来压缩异常值，使分布正常。

离群值会对使用最小化平方误差的损失函数的模型产生毁灭性的影响。尝试应用变换，而不是删除异常值。

用 Python 绘制直方图

由作者生成的图像—对数变换前后的销售价格直方图

相关性:绘制一个相关性矩阵通常有助于了解数据中存在的关系。也可以指导你的模型建立。例如，如果您看到许多要素相互关联，您可能希望避免线性回归。

用 Python 绘制皮尔逊相关图

图片由作者生成:数值变量之间皮尔森相关性的热图

这里使用的相关性度量是皮尔逊相关性。在我们的例子中，正方形越亮，两个变量之间的相关性越强。

与空间相关的特征，如地段临街面、车库面积、地面居住面积，都与销售价格正相关，正如人们所料。逻辑是越大的房产越贵。这里没有可疑的关联。

类别关系:销售价格在每个类别的每个级别内近似呈正态分布。没有观察出现，不幸的。一些类别包含很少或没有数据，而其他类别显示很少或没有区分销售类别的能力。查看 GitHub 上的完整项目，了解数据可视化。

特色工程

机器学习模型无法理解分类数据。因此，我们需要应用转换将类别转换成数字。这样做的最佳实践是通过一个热编码。

亲提示！ —确保使用 Sci Kit Learn 的 OneHotEncoder 和避免 panda 的 get_dummies。使用 get_dummies 时，如果训练和测试数据集中的类别级别不同，您将会遇到一大堆问题。

OneHotEncoder 通过可以设置类别和处理未知数的选项解决了这个问题。它有点难用，但对机器学习来说绝对是必要的。

这里有一篇关于 one hoten coder的精彩文章和 python 示例。

机器学习

我遵循机器学习的标准开发周期。作为一个初学者，甚至是一个专业人士，在你能够让你的模型工作在一个高标准之前，你可能不得不经历许多循环的迭代。随着你获得更多的经验，迭代的次数会减少(我保证！).

图片作者:机器学习模型开发周期

型号选择

正如本文开头提到的，任务是监督机器学习。我们知道这是一个回归任务，因为我们被要求预测一个数字结果(销售价格)。

因此，我用三种机器学习模型来处理这个问题。决策树、随机森林和梯度推进机器。我使用决策树作为我的基线模型，然后基于这个经验来调整我的候选模型。这种方法节省了大量时间，因为决策树可以快速训练，并且可以让您了解如何为我的候选模型调整超参数。

模型机制:在这里我不会过多的讨论每个模型是如何工作的。相反，我会使用一行程序，将你链接到描述他们在“幕后”做什么的文章。

决策树 —机器学习中使用的一种树形算法，通过学习决策规则来发现数据中的模式。

随机森林 —一种利用“群体智慧”效应的装袋方法。它并行使用多个独立的决策树从数据中学习，并聚合它们对结果的预测。

梯度推进机器 —一种串联使用决策树组合的推进方法。每棵树都被用来预测和修正前一棵树的误差。

随机森林和梯度推进可以将单个弱决策树变成强预测模型。如果你有像我们这样的小训练数据集，它们是很好的算法。

训练

在机器学习中，训练是指使用训练数据集中的示例来教授模型的过程。在训练阶段，您将调整您的模型超参数。

在我们深入讨论细节之前，我想简单介绍一下偏差-方差权衡。

模型偏差—模型对训练数据的拟合不足，导致对未知数据的预测能力较差。一般来说，模型越简单，偏差越大。

模型差异-模型过度拟合训练数据，导致对未知数据的预测能力较差。一般来说，模型越复杂，方差就越高。

复杂性可以被认为是模型中特征的数量。模型方差和模型偏差具有导致折衷的相反关系。模型复杂度存在一个最佳点，使误差最小。我们试图通过调整我们的超参数来确定这一点。

这里有一篇很好的文章可以帮助你更详细地探索这个东西。

超参数:超参数帮助我们调整模型的复杂性。对于每个模型应该调优哪些超参数，有一些最佳实践。我将首先详述超参数，然后告诉您我为每个模型选择了哪些参数进行优化。

max_depth —给定决策树的最大节点数。

max _ features 考虑在结点处进行分割的要素子集的大小。

n _ estimators 用于提升或聚合的树的数量。该超参数仅适用于随机森林和梯度增强机器。

learning _ rate 学习率用于减少每棵树的贡献。这只适用于梯度增压机。

决策树-调整的超参数是最大深度和最大特征

随机森林-要调整的最重要的超参数是 n 估计量和最大特征[1]。

梯度推进机器——要调整的最重要的超参数是 n_estimators、max_depth 和 learning_rate [1]。

网格搜索:选择超参数的范围是一个迭代过程。有了更多的经验，你会开始对设置什么样的范围有所感觉。好消息是，一旦你选择了可能的超参数范围，网格搜索允许你在这些范围的每个组合上测试模型。我将在下一节详细讨论这一点。

交叉验证:模型经过 5 重交叉验证训练。这是一种技术，它采用您的全部训练数据，在 5 次迭代中将其随机分成训练和验证数据集。

您最终会得到 5 个不同的训练和验证数据集来构建和测试您的模型。这是对抗过度合身的好方法。

更一般地，这种交叉验证被称为 k 重交叉验证。更多关于 k 倍交叉验证点击这里。

实现 : SciKit Learn 帮助我们在使用 GridSearchCv 时轻松地将超参数调整和交叉验证结合在一起。它为您提供了查看每次训练结果的选项。

下面是构建随机森林模型的代码。

评估

这是流程的最后一步。在这里，我们要么高兴地跳起来，要么沮丧地揪自己的头发(开玩笑，我们不会那样做……永远不会)。我们可以使用数据可视化来查看每个候选模型的结果。如果我们对我们的结果不满意，我们可能不得不在从数据清理到机器学习的任何阶段重新审视我们的过程。

我们的性能指标将是负均方根误差(NRMSE)。我用这个是因为它是我在 SciKit Learn 中能得到的最接近 Kaggle 的评分标准。

决策树

可以预见，这是我们表现最差的方法。我们最好的决策树得分-0.205 NRMSE。调整超参数似乎并没有对模型产生太大的影响，但它在 2 秒内完成了训练。肯定有一些范围来评估更广泛的超参数。

作者图片:决策树的 NRMSE 图

随机森林

我们的随机森林模型是对决策树的显著改进，NRMSE 为-0.144。这个模型花了大约 75 秒来训练。

作者图片:随机森林的 NRMSE 情节

梯度推进机

这是我们表现最好的一次，NRMSE 为-0.126。超参数显著影响结果，说明我们在如何调整这些更复杂的模型时必须非常小心。该模型的训练时间约为 196 秒。

图片由作者提供:GitHub 中的梯度推进机器完整版的 NRMSE 图

比赛结果

我在 Kaggle 测试数据上测试了性能最好的模型。我的模型把我放在了前 39%的进入者中(在我写作的时候)。这不是一个坏的结果，但它肯定可以得到改善。以下是我们可以做到的一些方法:

分类变量:数据中的一些分类特征具有很高的基数。因此，树模型可能偏向于这些特征。我们也许可以通过将这些高维特征重新归类到较低的维度来提高模型性能。

超参数调整:我们可以扩大超参数的解空间，希望找到一个更好的位置。请注意，如果你只是在笔记本电脑上工作，这将需要强大的计算能力。

希望这篇文章对你了解机器学习有所帮助。一如既往，请不要气馁，一切都是实践和耐心。

🚀这里有一个包含代码的 Jupyter 笔记本的链接。可以自己试试

https://www.linkedin.com/in/john-adeojo/

参考

[1]布尔科夫，A (2019)。一百页的机器学习书籍，第 84–85 页

用 Keras 预测个体生存曲线

原文：https://towardsdatascience.com/predicting-individual-survival-curves-with-keras-abb1f1f051f?source=collection_archive---------27-----------------------

用于客户终身价值模型的 Kaplan-Meier 估计量的深度学习适应

迈克尔·朗米尔在 Unsplash 上的照片

TL；灾难恢复生存分析模型广泛应用于从医学到电子商务的不同领域。人们越来越关注如何开发个体生存函数，而不是群体生存函数，主要是通过使用深度学习框架。这篇文章介绍了对人口生存分析最常见的非参数方法之一的深度学习改编，卡普兰-迈耶估计器。

简介

在研究和工业中，对预测个体生存函数，即任何给定时间的生存概率函数的兴趣越来越大。这项任务的大多数现有方法要么是参数化的，要么是半参数化的，而很少是严格非参数化的。

一些基于深度学习的最流行模型的 PyTorch 实现可以在 pycox 库中找到，而 scikit-survival 和 XGBoost 为 Survival regression 提供了其他机器学习替代方案，如随机森林和梯度增强。

我们介绍了一种最广为人知的非参数生存分析方法的改进，即 Kaplan-Meier 估计量，用于预测个体生存函数。我们通过深度学习变异的多任务逻辑回归 (MTLR)和 N-MTLR 来实现这一点。我们的模型的主要区别在于，使用样本权重处理删失数据，并且模型在每个时间段的输出是前一个时间段的输出和 sigmoid 层的乘积。