TowardsDataScience-博客中文翻译-2016-2018-四十二-

龙哥盟 / 2024-10-13 / 原文

TowardsDataScience 博客中文翻译 2016~2018（四十二）

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

运营一个预测模型到底意味着什么？

原文：https://towardsdatascience.com/what-does-it-really-mean-to-operationalize-a-predictive-model-1c2864678d40?source=collection_archive---------20-----------------------

仅仅建立一个能够做出预测的 web 服务是不够的。

Original Image Source — Meme overlay by Imgflip

在 2017 年 SAS 调查中，83%的组织在大数据方面进行了中度至显著的投资，但只有 33%的组织表示他们从投资中获得了价值。最*在 T4 的其他调查也显示了类似的结果。我们发现，这种差距的主要原因是未能理解以真正有利于您的业务的方式实施预测所需的全部范围。在这篇文章中，我将带您浏览一个示例场景，并展示成功如何需要一个过程来确保与受影响的人保持一致，保持对要获得的业务价值的关注，并迭代地构建技术平台。

Photo Source

在您的数据科学团队加载第一个数据框之前，模型的操作流程就已开始。一个高功能的数据科学团队将与业务一起产生想法，并展望将产生的业务价值。例如，仅仅说“我们想预测客户流失”是不够的。一个更好的商业假设可能是，“我们希望通过向 10%最有可能流失的客户发送有针对性的促销信息来防止他们流失，从而每年节省 72 万美元”。确定工作积压的优先级时，数据科学团队应该关注那些具有最高潜在投资回报的想法。正如我的同事肖恩·麦考尔指出的，这项任务应该落到数据科学产品负责人的肩上。您可以在下面找到一个计算客户流失率的示例:

`($300 cost of acquisition (measured)
— $100 cost of promotion(assumed))

30% success of retaining with promotion (assumed)
10000 customer churn per month (measured)
= $60K / month
= $720K / year`

一旦数据科学团队开始开发支持业务理念的模型，他们应该从最简单的模型开始，定期与受影响最大的团队分享结果，与他们合作改进模型，并共同决定模型何时足够好。这就是我们先前粗略估价的用处。与你的利益相关者谈论 RMSE、特征向量和 ROC 曲线很可能会让他们失去兴趣。通过将您试图预测的准确性翻译回业务价值陈述，您将说同一种语言。“我们能够以 75%的准确率预测客户流失”听起来要好得多，“根据目前的假设，这将为我们每月节省大约 45，000 美元”，尤其是当您在下一步中实际开始实施该模型时。

当模型背后的团队决定开始在生产中运行模型时，他们还应该了解构建和运行生产版本的成本(包括提供输入数据的数据平台、模型预测端点和模型服务的监控)。这与上面的数据科学家的成本一起，提供了 ROI 等式的成本侧。进行这种估算的细节超出了本文的范围，所以让我们假设成本是 18 万美元。以此成本，该解决方案应在 4 个月内收回成本，并提供 54 万美元的 1 年投资回报。这是一个巨大的回报，因此我们开始了自动化数据馈送的过程，在 web 服务后面部署模型，生成预测，并将预测结果集成到新的和现有的应用程序中，以使它们易于使用。因为我们一直在与预测的最终用户合作，我们知道他们希望看到哪些细节来帮助建立对预测的信任。

现在我们已经到了实际操作模型的地步，我们仍然需要说服人们使用它。在我们之前的例子中，让我们假设提供我们的目标促销的一种方式是手写笔记给客户。首先，我们需要说服某人提供预算来建立一个笔记部门(也许我们会投资一个 Robotica 的那些 Turry 手写机器人)。如果我们不把它全部交给机器人，我们将需要通过展示他们的工作正在产生影响来激励我们的人类笔记团队。我们应该开发一个跟踪系统，看看我们的笔记中的促销活动是否被实际使用，以及有多少百分比的促销活动用户仍然在公司工作。这将允许我们验证业务假设，并帮助通知其他决策。

因此，现在我们已经建立了一个很好的模型托管系统，并且我们正在测量 75%的预期保留率(人们似乎总是高估这些类型的假设，但这没关系，因为我们仍然有望节省 40.5 万美元)，该团队可能会继续构建其他高价值的模型。一个经常被忽视的关键步骤是将跨多个模型的通用操作构建到一个平台或框架中。为了在任何规模下操作模型，底层数据平台必须足够灵活，能够进行快速实验，同时还必须足够可伸缩，能够处理转换，并有助于快速预测大量数据。为了证明这些投资的成本，可以将它们分摊到几个模型的 ROI 中。

随着这一过程的重复，平台变得更加强大，团队在评估价值和与最终用户建立信任方面变得更好，我们能够真正大规模地运营模型。团队开始基于他们的预测模型更快地生产有价值的应用程序、功能和见解，更广泛的业务开始更快地信任这些结果。

然后，6 个月后的某一天，警报响起，客户流失模型不再有效。准确率已经下降到 50%，所以本质上只是猜测。数据科学团队必须努力找出问题所在并加以解决。输入数据发生了什么变化？我们上次部署该模型是什么时候？底层机器上的补丁破坏了什么吗？如果能回到我们训练模型时的确切状态就好了，这样我们就可以确定发生了什么变化。最终，有人发现并纠正了问题(由于错误的部署，所有客户的使用度量被设置为 0)。类似这样的事件导致团队专注于构建主动调试工具，如关键功能的异常检测和预测结果，以更快地检测和隔离问题。

此时，您的组织能够大规模构建和部署高价值的机器学*应用程序，同时将风险降至最低。这就是我们在 Pariveda 所说的“机器学*作为一种商业能力”。

虽然上面的故事是虚构的，但它是基于我们在机器学*旅程的各个阶段与许多客户合作的经验。如果您对此有任何问题，我很乐意讨论支持实验和模型操作的技术平台，以及对架构、流程和工具的指导/实现支持，以使您的团队能够将机器学*作为一种业务能力。

原载于 2018 年 8 月 13 日【http://parivedaperspectives.com】。

它看到了什么？

原文：https://towardsdatascience.com/what-does-it-see-f2dcd9dff9af?source=collection_archive---------17-----------------------

人工智能困惑的目光

前几天，我用人工智能搜索了一张我的阴茎土豆的照片，想看看这项技术会怎么称呼它。它会知道我的土豆是一个土豆吗？尽管它有一个像阴茎一样的突起，这个突起为它赢得了一个昵称。

我让系统查看我的阴茎土豆的几个不同的镜头——有闪光灯和没有闪光灯，室内和室外，以及各种角度——得到的答案从“胡桃南瓜”到“面团”，即使我拍摄土豆的方式是故意隐藏其隐私部分。我当时不知道的是，系统永远不会把我的土豆识别为土豆，不是因为它的阴茎，而是因为它根本不了解土豆。

我使用的人工智能在某些领域很有名，并且在几年前的 ImageNet 大规模视觉识别挑战赛(ILSVRC)中表现出色。对于那些不熟悉这场比赛的人来说，我会把它比作肯塔基赛马会，这对那些对马和赛马感兴趣的人来说是众所周知和同样令人兴奋的。这个人工智能被称为 VGG-19，用于训练和测试它的图像数据集 ImageNet 本身就很有名，它提供了数以千计的标记图像，可供研究人员使用。

据该网站称，到目前为止，ImageNet 包含超过 21，000 个类别的超过 1，400 万张图片；然而，这些类别中只有 1000 个用于比赛——1000 个所谓的 synsets，其中“土豆”不在其中。换句话说，因为人工智能已经在 ILSVRC 竞赛数据集上接受了训练，所以无论我多久向系统展示一次马铃薯，或者马铃薯的形状有多完美，系统都不会想到“马铃薯”这个词，因为它没有被教会识别它。土豆不在 1000 之列。

我看了看的 1000 个类别，得知人工智能应该能够识别胸罩、步枪、羽毛围巾、乳液、井盖、电脑鼠标、风车、祈祷毯和威士忌酒瓶。大多数时候，当我浏览被选中者的名单时，我在想，为什么是这些？

一篇关于比赛的论文解释说，1000 个比赛类别是在比赛的第一年，即 2010 年随机选择的，然后经过精心挑选，以确保它们不会太模糊，并且在等级体系中任何两个类别之间没有重叠(如果包括“猎犬”，那么“猎犬”(超类)或“小猎犬”(子类)就没有重叠)。这些年来，这一套已经发生了变化，但 639 个类别在每次挑战中都被使用过(至少到 2015 年，论文发表的那一年)。换句话说，我要感谢随机性，为什么模型能识别胸罩，但不能识别一幅画，一个石榴，但不能识别猕猴桃，一个土豆泥，不是我的土豆，一个书店，但不能识别一本书。

等等…没有书？

我向人工智能展示了一本书的几张照片，然后我被告知这是一个“橡皮擦”或“信封”，或者有时，更奇怪的是，照片中有一些东西，但我根本没有注意到。例如，当我向人工智能展示一个拿着一摞书的女人时，它将照片归类为“球衣”。

在另一张照片中，人工智能直视正在阅读的人，但识别出背景中的书架是一家书店。人工智能最自信地预测的事情并不是不正确的，只是不一定是当我看照片时我的眼睛被吸引到了哪里。要明确的是，我不期望人工智能看到它不知道的东西，但想想我们在教我们的技术什么，以及他们对什么视而不见，因为我们没有向他们展示例子，这是一件有趣的事情。

由于弗吉尼亚理工大学和佐治亚理工学院研究人员的工作，我能够窥探人工智能，看看它看起来在哪里，他们建造了制导的 Grad-CAM ，我用它来生成上面的插图。制导 Grad-CAM 技术有许多有趣的应用，但给我印象最深的是基于人工智能凝视的方向来识别偏见。在下面的例子中，有偏见的模型注意到一张女性的脸，并将她识别为护士。

(image from the paper: https://arxiv.org/abs/1610.02391)

研究人员写道，有偏见的模型从它被训练的数据中学*其偏见，但使用“从 Grad-CAM 可视化中获得的洞察力，我们平衡了数据集并重新训练了模型。”无偏模型在确定职业时看听诊器不看脸。

在另一项发人深省的研究中，脸书大学的研究人员观察了我们的技术在分类物体方面做得如何，以及它们在哪里失败了，特别是篮球和 ImageNet 中用来说明它们的图像。尽管他们看到的至少出现一个白人或一个黑人的图像的百分比非常相似(前者为 55%，后者为 53%)，但根据这一数据训练的模型表现出意想不到的方式。当要求对选择的一组图像进行预测，以便“两幅图像之间的主要明显差异是人的肤色”时，该模型展示了这种模式:“所有包含黑人的图像都被分类为篮球，而具有不同肤色的人的类似照片被不同地标记”(例如，作为排球、乒乓球或棒球运动员)。换句话说，模型已经学会了一种偏向。

(image from the paper: https://arxiv.org/abs/1711.11443)

研究人员指出:

模型学*这些偏见的原因尚不清楚。一个假设是，尽管在标有篮球的图片中种族分布均衡，但与其他阶层相比，黑人在这个阶层中的比例更高。

我把上面这段话读了几遍，思考了一下其中的含义。我想知道，ImageNet 到底代表了谁，没有代表谁。我们的技术仅仅因为数据中包含(或省略)了谁和什么而获得了什么样的模式？

我们的模型非常擅长识别模式，只有一些模式不是有意的，或者更糟，是有害的。由算法做出的令人不安的决定已经出现在选美比赛、面部识别和自然语言处理等领域。去年，研究人员在我们的几个大型图像数据集中发现了明显的性别偏见。接受这些图像训练的人工智能不仅发现了这些偏见，还放大了这些偏见，将女性与厨房等事物联系起来，将男性与体育用品联系起来(见《连线》杂志的报道)。

我很欣赏为创建和维护我们用来训练和测试人工智能的图像数据集所付出的巨大努力。如果没有 ImageNet 和围绕它的竞争，我不认为我们的技术会发展得如此之快。尽管如此，我还没有在这个数据集中遇到过与肤色和表征相关的研究，我担心的是，将人类肤色与某些类型的事物联系起来，而不是与其他事物联系起来，这意味着什么。

我反复听到图像数据被称为“真实世界数据”。但这些数据反映了现实吗？我们如何确保这些数据不仅仅是在强化我们作为一个社会必须努力克服的偏见？

延伸阅读:

“Grad-CAM:通过基于梯度的定位从深度网络获得的视觉解释”，Ramprasaath R. Selvaraju，Michael Cogswell，Abhishek Das，Ramakrishna Vedantam，Devi Parikh，Dhruv Batra【https://arxiv.org/abs/1610.02391】T2

“超越准确性的 ConvNets 和 ImageNet:解释、偏差检测、对立的例子和模型批评”，Pierre Stock，Moustapha Cisse【https://arxiv.org/abs/1711.11443

“ImageNet 大规模视觉识别挑战赛”，Olga Russakovsky* Jia Deng*苏浩 Jonathan Krause Sanjeev Satheesh Sean Ma 黄志恒 Andrej Karpathy Aditya Khosla Michael Bernstein Alexander c . Berg 李菲菲https://arxiv.org/pdf/1409.0575.pdf

关于数据科学，Kaggle 调查告诉了我们什么

原文：https://towardsdatascience.com/what-does-kaggle-survey-tell-us-about-data-science-1f634ea000b1?source=collection_archive---------15-----------------------

使用 Graphext 理解用户配置文件

Kaggle 最*发表了第二次年度机器学*和数据科学调查。全球约有 24，000 名用户参与了此次调查，透露了许多关于他们的人口统计、行为和观点的信息。它为机器学*和数据科学行业提供了一个独特的视角。

通过分析调查，我们想探索对特定人群来说什么是最重要的。但是任何调查分析的挑战总是在于，定义“一个群体”的最佳方式是什么？应该根据人口统计特征还是行为来划分人群？我们如何彻底调查数据，以便了解宏观趋势(例如，全球技术行业)和微观趋势(例如，在巴西工作的女性数据科学家主要使用 R )?在本文中，我们试图使用我们的软件 Graphext 运行调查分析来回答这些问题。

Graphext 的妙处在于，我们允许用户通过两种方式探索数据:一是通过无监督的数据分割；第二，通过回答具体问题。

第 1 部分——无监督分割

在将数据集上传到 Graphext 后，软件自动绘制出调查数据的拓扑结构(在这种情况下，它看起来像一个巨大的热气球)，并自动将响应分成几个集群。就我个人而言，我总是发现从一个概括的个人资料或用户考虑许多不同的特征开始非常有帮助。一旦我能想象出这个用户是谁，他/她每天做什么，通常他们的行为对我来说更有意义。

所以看看这些由无监督学*分割的聚类，一些有趣的轮廓从数据中跳出来。

蓝色集群(人口的 20%):约翰 38 岁，住在旧金山。他在一家科技公司工作，担任高级数据科学家。他拥有计算机科学博士学位，过去 6 年一直在数据科学领域工作。他的公司在技术方面相当成熟，所以他主要从事大数据方面的工作。他的工作包括构建原型，然后在 AWS 上运行 ML 模型。他使用 Python，尤其是 Scikit-learn 库，因为他主要处理表格、文本和时间序列数据。

红簇(人口的 10%):来自上海的年轻研究员明。他今年 25 岁，正在探索不同的 ML 方法来推进他的研究。他的研究重点是图像识别。他主要使用 Python、TensorFlow 和 Keras 库来处理图像数据。由于他不使用大数据集，他主要使用托管解决方案，但偶尔会使用阿里云。他拥有软件工程师学位，在 ML 领域只有 2-3 年的经验。对他来说，ML 是一个黑盒子，虽然他使用它，但他不觉得有必要向他的观众解释输出。

棕色人种(占总人口的 8%):Karina 是来自伦敦的商业分析师。她 27 岁，在一家保险公司工作。她拥有统计学本科学位，尽管她对数据科学非常感兴趣，但她从未接受过任何培训。她已经做了 4 年的工作，她的主要目标是发展分析来影响公司的决策者。她很少使用 ML，但是当她使用时，她使用随机森林和插入符号库来处理数字数据。对她来说，向她的利益相关者解释她的模型的输出并避免任何偏见是非常重要的。

如您所见，要构建丰富的用户资料，您需要提供许多详细的特征。当您有太多的数据维度需要考虑时，很难手动完成。但是有了 Graphext 这样的工具，你可以在几分钟内得到一个无偏的结果。

第二部分——回答具体问题

一旦你对调查人群有了一个总体的了解，通常，你会想用这些数据来回答一些特定的问题。在这种情况下，我们想知道欧洲的用户和美国的用户有什么不同。为此，我们选择了两组用户:来自排名前五的欧洲国家(英国、德国、法国、西班牙、意大利)的用户和来自美国的用户。我们简单地将它们分组以缩小我们的分析范围

Graphext 有一个“比较”功能，可以让你通过自动突出显示可以从统计上解释它们差异的变量来比较两个或多个组。下面是我们使用这个函数得到的结果(美国用蓝色表示，欧洲用橙色表示):

首先，欧洲用户的薪资水平远低于美国用户。从他们的背景来看，欧洲用户似乎更具技术性:他们更有可能拥有计算机科学、数学和物理学的硕士或博士学位，他们的工作是数据科学家和研究科学家。而在美国，用户更可能拥有工程、商业或生命科学方面的学士学位。除了像数据科学家这样的典型角色，他们还担任数据分析师和业务分析师。技术经验的水平也反映在他们使用的工具类型上。

当我们继续探索他们的差异时，我们发现欧洲用户更多地使用时间序列数据，而美国用户更多地使用数字数据。当我们观察这些用户工作的行业时，美国医疗和制药行业的用户比例几乎是欧洲用户比例的两倍。此外，与美国相比，欧洲男性用户的比例似乎略高。

尽管有这些不同，他们的挫折似乎是普遍的。他们都在数据清理上花了太多时间，他们发现很难解释黑盒模型，很难让工作易于重用，很难让算法公平或无偏见。我想这些共同的挫折是我们在 DS 和 ML 学科中的纽带，让我们互相学*。

我希望你喜欢阅读这篇文章。如果我的分析引起了你的兴趣，那么我鼓励你向我们索取一个演示来亲自看看 Graphext 在探索数据方面能做些什么！

是什么让美国如此伟大？科学家的视角

原文：https://towardsdatascience.com/what-does-make-america-great-a-scientists-perspective-e23284a74b37?source=collection_archive---------4-----------------------

从我们走上街头为科学游行到现在刚刚一个多星期。这是多么不可思议的一天——因为你参加了 600 多次游行！！！

为什么我对这个话题这么有热情？下面是我演讲的视频和全文(你还可以在频道找到巴拉通德·瑟斯顿、亚当·沙维奇等许多人的演讲)。我还用当天的一些图片和我收到的问题(例如，我穿的衬衫是什么？).

那么，现在怎么办？

我们游行。现在我们行动。正如我在演讲中所说，科学不能等待。我们等不及了。为了我的孩子，你的孩子，我们孩子的孩子，我们现在需要科学进步。你可以这样做！

保持接触！我们需要你在 www.marchforscience.com 报名参加这项运动。
让别人听到你的声音！你的声音很棒，我们在游行时听得很清楚。因此，通过打电话给你当地的代表、参议员和任何其他公共领袖，让他们听到你的声音。打电话给你的学校董事会，确保他们教进化论。写信、写专栏等。
分享你的故事！告诉世界科学是如何影响你的，以及我们为什么需要科学。
不要让紧急的事情妨碍了重要的事情。会有很多噪音。会有好戏看。会有可供选择的事实。我们必须保持参与，专注于有影响力的事情。
看到什么，说什么。我们总是听到诸如我不擅长数学或科学之类的话。或者男生化学比女生好。或者气候变化是编造的。如果你听到了，就大声说出来。如果我们保持沉默，我们就是同谋。
把它变成一项团队运动！让朋友订婚。我们通常不会带那些对科学有困难的人来。那些被科学吓倒的人。那些对数学感到沮丧的人。那些在课堂上有过糟糕经历的人。不要丢下他们。不要居高临下地对他们说话。我们队里需要他们！与他们分享你的激情。帮助他们明白为什么我们都应该关心科学。做一个倡导者！

是什么让美国如此伟大？(演讲全文)

Look at all of you who showed up!

谢谢你出来支持科学！

我们现在生活在一个有趣的时代……关于是什么让美国变得伟大，这个问题一直存在。所以，我想和你谈谈为什么科学让美国变得伟大。我将通过我在布什政府和最*在奥巴马政府的白宫时有机会与之交谈的来自全国各地的一些了不起的美国人的故事来讲述这个故事。

My daughter’s sign at the SF March For Science

在过去的两年里，我最喜欢的事情之一是我们把白宫变成了一个科学博览会。我们邀请了全国各地的孩子来展示他们的研究。哇哦。这些项目是美国之所以伟大的缩影。

以内森为例，他当时 15 岁，建立了机器学*和人工智能算法，以检测可能导致癌症的基因突变。

Simon-Peter、Maya 和 Grayson 在他们十几岁的时候设计了一种新的假腿，可以让截肢者步行、管理不平坦的地形，甚至(我最喜欢的部分)玩滑板！

或者奥利维亚(Olivia)，她在 17 岁时开发了一种快速、便携、廉价的埃博拉病毒诊断测试。

这些孩子来自各行各业。从 T4 到美洲的每一个地方。花五分钟和他们在一起，你会带着难以置信的自卑感离开谈话。

不只是那些孩子，看看这里所有的孩子。男生和女生。你们是我们未来的科学家。你们将带领我们走向星星，你们将理解物理学的深层奥秘，开启数学之美，发现下一个医学突破，发明下一种新型材料。

我的朋友、前国防部长阿什·卡特经常提醒我，安全就像空气。没有的时候才知道需要。科学也是如此。

我国国家和经济安全的基础是科学技术。自从我们伟大的国家成立以来，这一点一直如此。

在这个国家，大陆会议和我们的第一任总统乔治·华盛顿创建了陆军工程兵团。他们的使命是——在和平时期和战争时期提供重要的公共工程服务，以加强我们国家的安全，振兴经济，降低灾害风险。

这个国家颁布了《国家航空航天法》,建立了美国国家航空航天局。创造了一条赢得登月竞赛的前进道路，今天继续引领我们努力去理解上面的地球和宇宙。

这个国家建立了美国国家卫生研究院(NIH ),以推动下一轮突破，确保我们拥有世界上最好的医疗保健。该机构通过积极的投资，成为众多人的黄金标准和希望灯塔。

这个国家率先保护我们的水资源，确保我们有清洁的空气，建立了环境保护署，其中超过一半的员工是工程师、科学家和环境保护专家。

这个国家建立了令世界羡慕的学院和大学。

这是创造了互联网的国家。

这不是政府一个人做的。它点燃了火焰，但工业、学术界和公私合作助长了火焰。例子？全球定位系统，DNA 和基因测序的发现，机器人技术，甚至数据科学。我们正在人工智能和自动驾驶汽车上看到这一幕。

但是让我告诉你。我们不能认为这是理所当然的。当我们没有领先优势时，我们只会知道我们已经失去了领先优势。我们之前的几代人所做的投资和牺牲是我们今天正在受益的。这包括那些来自世界各地的移民和难民，以使这个国家更加强大。2016 年，美国大学的 6 名研究人员和科学家获得诺贝尔奖。共同的线索？这 6 个人都出生在美国以外。

The shirt I was wearing at the SF March for Science — for more check out my naturalization speech

感谢那些为科学和创新奉献一生的人。对于那些曾在我们的军队或公共服务中服役的人们，我永远感激你们。对于那些教师，感谢你们已经做的和将要继续做的一切。你是我们的秘密配料。我们的超级大国已经并将继续培养最优秀和最聪明的人来应对当今最大的挑战。

理工科不能等。慢下来不是一个选项。密歇根州弗林特的孩子们仍然没有干净的水。气候正在变化。下一个疫情可能就在眼前。我们有越来越多的世界人口需要养活和教育。我们的国防将继续依靠创新。癌症和罕见疾病继续夺走太多人的生命。这也是我在白宫花费大量时间致力于通过精准医疗倡议和癌症登月寻找下一代医疗方法的原因之一。

我遇到的其中一个人是詹妮弗·比特纳，她给总统写信——是的，我们的确读过你写的信。关于詹妮弗，你首先要知道的是。她是个美丽的人。她是丈夫罗德的好妻子，也是他们的儿子和即将出生的孩子的好母亲。她是自然的力量。以下是詹妮弗自己说的话:

我被诊断患有第四期转移性乳腺癌，已经扩散到我的肝脏、肺部、肾上腺、脾脏、卵巢、脊柱、臀部、肋骨、股骨、肩胛骨、锁骨和许多其他骨头。一位医生说我会在三个月内住进收容所。虽然很难用语言来表达我有多感激过去几年拥有这美好生活的每一刻，但这确实不容易。我每天都在接受化疗或其他治疗。我已经忍受了多次手术和放疗，以及每周肿瘤标志物和每三个月扫描的焦虑。我的治疗副作用具有挑战性，有时会使人虚弱。尽管如此，转移性乳腺癌患者的平均寿命只有短短三年。

人生还没过半，三年就太短了。研究对于延长和改善癌症患者的生命绝对至关重要——尤其是现在我们正处于免疫疗法等一些令人难以置信的医学突破的边缘。…这就是研究得到充分资助如此重要的原因。我们如此接*，但我们大多数人不能再等了。”

问题是，如果我们不加快速度，詹妮弗就看不到她的孩子学会骑自行车、阅读或参加班级演出。她的孩子将被剥夺拥有母亲的机会。与任何一位科学家交谈，他们都会告诉你詹妮弗是对的，我们可以走得更快。与任何病人交谈，他们都会和詹妮弗说同样的话——我们必须走得更快。

癌症不等人。罕见病不等人。流行病不会等待。我们的孩子等不及了。寻找治疗方法需要对所有科学进行投资。数学、生物、物理、化学、材料科学、计算机科学、社会学、心理学、生态学，甚至数据科学。

这是我们欠所有詹妮弗·比特纳的。因为其中一个珍妮弗可能是我们的亲人。

当我们作为一个国家走到一起时；当我们作为一个团体关注时；当我们坚定不移地支持所有科学的时候，我们将保持科学的正确地位，引领我们的国家前进。为我的孩子争取一个积极的未来。你的孩子。世界儿童。我们孩子的孩子。

科学不能等。我们开始工作吧。

愿你们都长命百岁，事业兴旺。

-dj

“重大”是什么意思？

原文：https://towardsdatascience.com/what-does-significant-mean-3088aaefc244?source=collection_archive---------7-----------------------

最*，我写了一篇文章，建议决策者需要更多的数学知识才能在当今更加数据驱动的环境中有效运作。在这篇文章中，我想把重点放在数学的一个方面，我认为这是商业世界中非常缺乏的，并且可能导致经常性的严重错误决策:研究数据时的显著性的概念。

阅读本文的读者很可能已经深刻理解了统计学意义的概念。但是根据经验，我怀疑相当大比例的读者不会做出这样的声明。所以我想用一种既直观又有用的方式来介绍意义的概念。我还希望它能让人们比现在更多地询问重要性，并在没有对分析结果进行适当的显著性检验的情况下暂停妄下结论。

扔硬币

开始理解意义的最好方法是看看扔硬币的想法。这很容易理解，因为抛硬币只有两种结果:正面或反面。你可以想象一个公平或正常的硬币有相等的概率抛出一个头或一个尾巴。但是一枚有偏或有负载的硬币可能不会。例如，它可能是一种有两个头的硬币。

假设我们有一个硬币，我们被告知至少有一面是正面的，我们想确定这个硬币实际上是否是双面的。有人会为我们抛硬币，只要我们愿意，抛多少次都行，而且对结果总是诚实的。

掷一次硬币，结果是正面朝上。如果硬币是公平的，那么偶然发生的概率是二分之一。你对这两种说法有多满意？

硬币抛了一次，结果是正面朝上。
硬币有偏差

希望你对陈述 1 100%满意，对陈述 2 不太满意。很好。现在让我们第二次扔同样的硬币。又是正面。连续两个头偶然出现的概率是 1/4。也许你现在更倾向于同意第二种说法。也许不是。

假设硬币被抛了十次，十次的结果都是正面。这种事情偶然发生的概率小于 1/1000。大多数人现在会更有信心做出上面的陈述 2。

什么是意义？

作为一个概念，意义从根本上涉及三个事实:

答:我们周围的世界是不确定的
b:你永远无法对事物进行足够多的测试来 100%确定一个结论
c:尽管有 A 和 B，生活中还是需要做决定

在掷硬币的情况下，不管你掷多少次硬币，总是有正面朝上的可能性，不管这个可能性有多小。但你不能永远扔硬币否则你会在做决定之前死去(B)，所以你需要确定一个点，在这个点上你可以自信地说硬币是有偏差的(C)。

每个人都有不同的确定感。我可能需要看到硬币被扔了十次才愿意伸出头来，声称硬币是有偏差的，但我的朋友可能会对扔三次硬币感到高兴。为了处理这些人类的自然差异，几个世纪以来，统计学家建立了一个确定性标准。这一标准有许多要素，但最常被引用的是这样一种观点，即要声称显著性，这种现象偶然发生的概率需要小于 0.05 或 1/20。所以在我们的掷硬币的例子中，要做出一个统计显著性的声明，你至少需要连续掷 5 次头才能达到规定的确定性水平。

这对我的工作意味着什么？

假设一个勤奋的分析师找到你，给你看他们做的分析。在此分析中，分析师查看了您组织中的所有员工，将他们分为男性和女性，并显示了以下内容:

在过去的 12 个月里，100 名女性中有 20 人离开了公司，离职率为 20%
同一时期，200 名男性中有 30 人离开了公司，离职率为 15%

现在，您将在图表上放置一个标题来显示这一分析。您可以选择两个标题:

在我们组织过去的 12 个月里，女性的离职率比男性的离职率高 5 个百分点
女性比男性更有可能离开我们公司

我希望你马上想到掷硬币的例子。标题 1 是一个很好的标题，你可以立即写下来。但是你不能在没有看到显著性测试结果的情况下写下标题 2。如果你要做这样的测试，你会发现这些比例偶然发生的概率(称为 p 值)约为 0.27，远没有低到足以自信地提出第二项主张。

这很重要，因为标题 2 是一个非常严肃的陈述。这可能会导致付出大量努力和投资来解决一个可察觉的问题。所以你和分析师有责任回去获取更多的数据，这样你就可以支持正确的统计标准。

什么时候该问意义？

每当一个有限的数据集被用来支持一个一般性的陈述时，你都应该询问它的重要性。这可以通过多种方式实现。就像上面的例子一样，一个或多个群体可能会根据特定的标准进行比较，以表明某些群体与其他群体不同。或者可以使用关于相关性的数据来声明特定的关系。不同的统计测试存在于不同的情况下，你应该有一个知道这些并能应用它们的人。

显著性通常取决于观察到的差异大小和观察到差异的人群大小。在我们上面的女性与男性的例子中，在相同规模的人群中，差异需要更大才能声称显著性，或者差异需要相同，但在更大的人群中。当你看数据时，这应该引导你的直觉。

但我从丰富的经验中知道，直觉并不总是正确的，所以我的建议是:永远要测试，不测试就不要下结论。以下是我最重要的建议，让重要性成为你的分析文化的一部分:

养成拥有包含 p 值的脚注的*惯
在没有支持显著性的 p 值的情况下，不要写关于分析结论的一般性陈述
不要害怕在同事面前卖弄学问。以身作则！

在商业世界的大多数情况下，重要性并不是一个复杂的概念，但它却被大大低估了。在一个越来越数据驱动的世界里，不进行显著性测试就做出决定是越来越糟糕的做法。是时候改变了。

最初我是一名纯粹的数学家，后来我成为了一名心理计量学家和数据科学家。我热衷于将所有这些学科的严谨性应用到复杂的人的问题上。我也是一个编码极客和日本 RPG 的超级粉丝。在 LinkedIn 或Twitter上找我。

社会科学能为数据产业提供什么？

原文：https://towardsdatascience.com/what-does-social-science-have-to-offer-the-data-industry-b026211a61ca?source=collection_archive---------4-----------------------

我会使用任何我需要的工具来得到结果。但我不会凭信仰拿工具。

我昨天在推特上打架了——不是故意的。

“Coursework will include math, statistics, and computer science as well as machine learning, computational modeling, and how neural nets works.’ Where are the social sciences?”

在宣布一所大学将提供人工智能本科学位，并开设“数学、统计学、计算机科学以及机器学*(和)计算建模”课程时，有人问了一个问题:“社会科学在哪里？”

作为一名训练有素的人类学家，他已经做了十多年的数据科学家，这个问题切中要害。在我的职业生涯中，我一直试图在我作为一名社会科学家的自我认同和用我的雇主和客户关心的术语阐述我的价值的实际需要之间取得平衡。几年前，当我刚刚开始自称为数据科学家时，我曾经写过这个主题(例如，这里的和这里的和和)，最*我发现自己回到了这个主题，因为我试图解释人种学方法是我的技术工作的核心部分。

社会科学在哪里？他们应该在哪里？这些是我在职业生涯中一直努力想要回答的问题。我试图通过回复我上面链接的推文来开始关于这个问题的对话，但事情很快变得很糟糕。可能只是我沟通不好吧。也许 Twitter 只是一个试图谈论任何实质性问题的可怕地方。也许两者都有。真的，我只是一遍又一遍地重复同一个问题:

我从未得到答案，但我仍然想要一个。

这是关于整个学科，而不是人。当然，我相信许多个体社会科学家做了值得称赞的工作，正如我相信许多个体计算机科学家做了非常糟糕的工作一样。但是在最初的推文中隐含的问题不是“你为什么不让特定的社会科学家 X 教一堂课？”，而是“为什么不把社会科学系的课程纳入课程表？”这个相同的问题是由一个人在线程中提出了一个澄清问题暗示的:

“How can you be an anthropologist and data scientist and not understand how essential an understanding of human factors and human behaior is to the development of artificial intelligence? Genuine question.”

我认为这个问题引出了另外两个问题:

对人类因素/行为的理解对人工智能的发展至关重要吗？
通常被称为“社会科学”的学科是否可靠地提供了对人类因素/行为的可信理解？

回答问题 1:我不知道，但我很怀疑。如果我们用机器学*的温和术语谈论人工智能，而不是用某种奇点式一般智能的明显不那么温和的术语，那么我们在谈论一个工程问题，这意味着我们在谈论修补。我认为绝对必要的是，我们积极建立方法来监控数据系统如何对个人和社会产生下游影响。但我认为，我们通过构建然后逐步修改人工智能来了解人类行为的可能性，与其他方式相比是一样的。我认为，假设我们理解人类行为的能力目前已经足够强大，可以首先实现理解，然后在理解的基础上建立系统，这是错误的。事实上，我认为科学的大部分历史都是由修补系统和建立理解组成的。纳西姆·塔勒布已经写了关于这一点的文章(这里是他的一些观点的一个更加用户友好的摘要)。

回答问题 2:我职业生涯中的一个主要遗憾是，我不得不回答不，而我非常希望能够回答是。我的职业生涯是在工业界度过的，所以我根据工具实现实际效果的能力来判断它。例如，我根据病人康复和病人康复的记录来判断医学。如果医学的某一部分有不良记录，或者没有记录，我判断该领域的该部分的理解水平是差的。我不在乎有多少研究或有多少人写了关于这个主题的文章:如果你不能得到结果，那么你不能声称理解。

将单词单独归类为结果是错误的。如果你能做点什么(改变行为，赚钱等。)在现实世界中使用工具——“工具”可以指一种方法或理论观点以及一段代码或机器——那么这个事实是理解的必要但不充分的证明。那是我自称理解的最低门槛。

除了人种学方法之外，我想不出任何一个源于社会科学的工具可以明确地声称遇到了这一障碍。即使是在人种学的情况下，我认为我对被证明的价值的断言也是有争议的。我不介意不完美的工具——它们总是可以改进的。我确实介意那些在现实世界中从未取得实际效果的工具。我想有更多的例子表明，起源于社会科学的工具遇到了障碍，而我只是没有意识到。但即使是这样，社会科学中的噪声与信号之比简直太高了。就构建人工智能而言，这一比例远远高于计算机科学等学科。这并不意味着计算机科学被证明是有价值的，社会科学被证明是没有价值的。这意味着，在这个世界上，我保住工作的能力取决于我为雇主和客户提供价值的能力，搜索计算机科学工具的回报比搜索社会科学工具的回报高得多。

我希望不是这样。我为自己是人类学家而自豪。在我的职业生涯中，我经常不得不淡化这一事实，因为为我的技能付费的人没有认识到这一称号的任何价值，尽管我的人类学技能是让我提供他们想要的结果的很大一部分。这让我难过，有时让我沮丧，但它早已不再让我惊讶。

那么社会科学在哪里呢？在很大程度上，他们似乎在忙着自言自语。被纳入大学课程、研究议程或商业计划是一种尊重的标志——一种认可价值的标志。社会科学经常被排除在外，这表明它们没有得到广泛重视。从我作为一个从业者的角度来看，我希望我能说他们目前应该得到更多的重视，但是我不能。我希望这种情况会改变。与此同时，我有我需要建造的东西。我会用任何能帮我的工具。但是我不会带走任何工具，尤其是成套的工具。

电力革命告诉了我们人工智能的未来。

原文：https://towardsdatascience.com/what-electricity-revolution-tells-us-about-our-future-with-a-i-69eff44295d4?source=collection_archive---------14-----------------------

All illustrations by J. P. Solano

我们并不总是有机会见证或经历一场革命，一场真正的革命。历史已经表明革命如何改变人们的生活。无论何种类型(社会、宗教、艺术或技术)，所有革命都有一个共同的核心模式: 思考或想象事物方式的突然、彻底或完全的改变 。

革命并不总是每个人都失去理智的暴力骚乱；大部分时间都是缓慢的过程，需要数年才能完全展现，给人的印象是什么都没有改变，更像是煮青蛙的寓言。

也许如果我们分析像电这样最具革命性的发明之一，我们就能理解人工智能会有什么样的前景。

本杰明·富兰克林(1706-90)一生中，作为一名作家、企业家、政治家和科学家，开辟了一条成功项目的非凡道路。最重要的是，他是一个发明家，为普通问题创造解决方案，创新新技术。尽管他从未申请过一个专利，但他的许多发明仍然在我们身边，比如双焦眼镜或摆动鳍。1752 年 6 月的一个下午，在一个暴风雨的日子里，他认为这是去放风筝以展示闪电的电学性质的最佳时机。这个实验打开了一个新领域的大门:电学。127 年过去了，托马斯·爱迪生(1847-1931)终于在 1879 年在他的实验室里制造出了一个可靠、耐用的电灯泡。从那时起，在接下来的 50 年里，从木炭到电力的转变是缓慢的，远远不是一个自然的过程。总的来说，人类的劳动、城市和生活质量都不会一样。然而，电在我们的生活和日常事务中变得如此重要，以至于没有它我们无法在正常的日子里思考。但情况并非总是如此。商业和工业用了将* 30 年才完全适应，住宅电气化用了 20 年。在这个时期，电从一种神秘的力量变成了一种重要的公用事业。深入了解商业、城市和家庭如何采用电力，可以给我们一些关于人工智能和机器学*革命将如何改变我们思维方式的提示。

在工业革命的巅峰时期，理想的工厂应该是这样的:一个附属于大型多层建筑的蒸汽机房。原因很简单:工厂布局受到传动轴和单一电源的限制。这种设计昂贵且低效，但比人力工作站更有效率。

在向电力过渡的初期，制造商不愿意放弃他们大量的知识来采用最初只是略微优越的技术。其结果是，生产流程几乎没有变化，只是将现场的蒸汽机换成了电动机。这一过程仍然效率低下，但他们发现木炭费用的节省已经足够好，不需要再努力了。他们遵循一条软适应路径。

然而，电气化注定是有史以来最具破坏性的技术之一，在 1888 年至 1905 年间形成的工业部门中，超过 40%在 1930 年初失败。那些在这些“电力冲击”中幸存下来的人看到，巨大的收益不是来自简单地用蒸汽机代替电动机，而是来自生产过程本身的重新设计。像亨利·福特(1863-1947)，在电气化和其他创新方面遵循艰难适应道路的领导者，结束了我们今天所知的工厂和生产的重新设计。

经济史学家保罗·大卫和加文·莱特发现，用了这么长时间才完全认识到电力的变革潜力的主要原因是“需要在任务和产品的定义和构造方式上进行组织上，尤其是观念上的变革。

这种布局将标志着作者安德鲁·迈克菲和埃里克·布林约尔松所说的“第一个机器时代”或工业革命，即使用机器来自动化和增强我们的肌肉(身体)力量。

另一方面，家庭电气化还面临着其他挑战，如令人担忧的媒体报道和家用电器的缺乏。还需要 20 年的时间，城市和房屋才能反映出电力对提高我们生活质量的真正影响。

解读:我们人类倾向于寻找阻力和风险较小的道路。然而，创新和革命恰恰相反，因为它充满了变化和机遇。就电力而言，我们倾向于维护现状，直到我们被迫改变并接受一种新常态。从 1880 年到 1930 年，企业、城市和家庭不得不采用最新技术来保持竞争力和效率。适应过程显示了这种模式:

拒绝与批判。由媒体和普通人领导。
软适配路径。由关注经济影响的早期业务采纳者领导。
硬适应路径。由专注于颠覆传统的商业远见者领导。
拥抱变化。每个人都追随这项技术的大规模应用。

如果我们在创新时间轴上快进，我们将到达我们的时代。人类已经见证了计算机和软件的崛起，这开启了第二个机器时代:机器现在不仅被用来扩展体力，还被用来论证我们的认知能力。这为一系列新的挑战打开了大门，但也为一个新的进步单位打开了大门:指数级

未来学家杰森·希尔瓦 (1982 -)说大脑在一个线性和局部的世界中进化，但我们现在生活在一个全球化和指数化的世界中。他说，在一个带着线性镜头的思想家的世界里，技术变革正在以指数速度发生，所以我们永远看不到未来的到来。举个例子来理解线性增长和指数增长的区别，如果你走 30 步线性增长，你会得到 30 步，但是如果你走同样的 30 步指数增长，你会得到 10 亿。

在破解了英格玛机器并为二战中打败纳粹德国做出了贡献之后，数学家艾伦·都灵(1912–1954)着迷于创造一种能够学*并成为人工智能的“学*机器”的可能性。正如他指出的那样，“思考”很难定义，正因为如此，他在 1950 年发表了他著名的图灵测试，这是一项测试机器表现出与人类同等或不可区分的智能行为的能力的测试。不幸的是，他因为自己的性倾向而被起诉，并在多年后自杀，但都灵给人工智能留下的遗产就相当于本杰明·富兰克林给电。

人工智能只在大学和实验室中可见，直到 80 年代 Geoffrey Hinton 教授(1947 —)和同事对多层神经网络的研究，创建了一个使用机器学*和深度学*(人工智能的一个子集)的清晰模型。然而，许多冬天过去了，直到人工智能获得主流关注。

但是，为什么人工智能现在如此重要，而不是在 20 或 30 年前，那时所有的理论和概念都已经存在了？答案是计算能力和可用的数据量。当我们与人类的表现相比时，以前在一般问题中使用人工智能的尝试显示出平庸的结果。2014 年，谷歌聘请辛顿教授将人工智能作为重中之重，并开放了对互联网产生的大型数据集的访问。随着计算机性能的不断提高，所有这些变化都为人工智能(特别是深度学*)的商业改编创造了完美的条件。

对人工智能的大肆宣传。来自深度学*在某些特定领域取得的令人难以置信的进展。但同时，邪恶人工智能的大肆宣传或终结者的场景这只是媒体策略的一部分，以获得一些容易出售的新闻的关注。事实是人工智能远不能代表对人类的真正威胁。

作为斯坦福大学的教授，吴恩达 (1976 -)，一直是深度学*和机器学*研究的先驱。他联合创立并领导了谷歌大脑项目，曾任 VP &首席科学家；当我们试图理解人工智能对我们社会的影响和作用时，他也是最受尊敬的声音之一。

他创造了这个短语:

“人工智能是新的电力，”他说。“就像 100 年前电力改变了一个又一个行业一样，人工智能现在也将这样做。”

以下是一些例子:

医学:

基于人工智能的临床决策；
医学知识工程；
图像分析；
生物和临床医学中的计算智能:

自动驾驶汽车:

交通即服务
免费邮递
较少的车祸

学历:

课外辅导和支持
面向所有学生的普及教育
差异化和个性化学*

数字助理:

阿莱夏
戒指
谷歌主页
索诺斯

人工智能的想法已经讨论了一段时间，但直到 2006 年，世界才意识到可行的人工智能的两个主要要求:更快、更便宜的计算机(云计算)和大量的数据(互联网)。从那时起，人工智能，特别是深度学*的成就已经呈指数级增长(就像 AlphaGo 一样)，这意味着我们可能不必再等 50 年才能看到人工智能的全面发展。

人工智能的适应过程如下:

拒绝和批评是预期媒体报道的一部分，但每次关于人工智能的新闻越来越少启示性，越来越科学
从业务角度来看，许多公司正在寻找人工智能的软适应路径，例如，通过增加聊天机器人服务来取代呼叫中心的人工操作员，而无需重新思考业务流程。正如 100 年前发生那样，这将代表边际成本节约，但不是真正的竞争优势。
亚马逊、谷歌、苹果、微软等其他公司已经开始了人工智能的艰难适应之路，进行真正的结构重组，并在世界各地开设人工智能研究实验室。谷歌报告称，通过使用与 AlphaGo 类似的方法，DeepMind 能够将谷歌数据中心的能效提高 15%
我们正处于家庭大规模适应数字辅助的开端。亚马逊 Alexa、谷歌 Home 和其他公司都在努力赢得家庭的关注。

人工智能作为一种革命性的颠覆将需要可治理性规则和明确的界限。我们对社交媒体公司的艰难觉醒，是一个伟大的工具如何被用于邪恶提议的例子。

更多来自 J.P .索拉诺的帖子:

在世界上最好的餐厅之一用餐是什么感觉？
大卫·海涅梅尔分享了一些违背常理的原则
重要的是平台，而不是应用程序。
开发 SaaS 产品前你想知道的事情
通勤自我意识
企业家、可信度和辛纳特拉测试
每位企业家都应该参加斯巴达赛跑的 8 个理由
斯蒂芬·金的 20 条作家法则适用于企业家
应力悖论
99u IDEO 工作室的 10 个经验教训
El bulli 如何将用餐变成一种体验
分享你的想法，反正没人会在意
为什么不利用自己呢？
释放你内心的超级英雄

Infer.NET 代码中潜伏着哪些错误？

原文：https://towardsdatascience.com/what-errors-lurk-in-infer-net-code-e9c52ecc389e?source=collection_archive---------22-----------------------

微软发布的项目资源是进行分析的一个很好的理由。这次也不例外，今天我们就来看看 Infer.NET 法典中发现的可疑之处。不要做总结，说重点！

项目及分析仪简介

推断。NET 是微软专家开发的机器学*系统。项目源代码最*在 GitHub 上可用，这引起了它的检查。更多关于该项目的细节可以在这里找到。

该项目由 PVS-Studio 6.26 静态代码分析器检查。我提醒一下，PVS-Studio 正在搜索 Windows、Linux、macOS 下 C\C++\C#(很快还有 Java)代码中的错误。C#代码目前为止只在 Windows 下分析。你可以下载并在你的项目上试用这个分析器。

支票本身非常简单，没有任何麻烦。在检查之前，我从 GitHub 下载了项目源代码，恢复了所需的包(依赖项),并确保项目成功构建。这是必需的，以便分析人员可以访问所有需要的信息来执行全面的分析。在几次点击之后，我通过 Visual Studio 的 PVS-Studio 插件运行了解决方案分析。

顺便说一下，这不是微软的第一个项目，用 PVS-Studio 检查过——还有其他的:罗斯林、 MSBuild 、 PowerShell 、 CoreFX 和其他。

注意。如果您或您的朋友对 Java 代码分析感兴趣，您可以通过选择“我想要分析 Java”写信给我们的支持人员。目前还没有公开的测试版本，但它很快就会出现。有人在一个秘密实验室里(隔壁)人们正在积极地研究它。

然而，哲学对话已经谈得够多了——让我们看看代码中的问题。

是 Bug 还是特性？

我建议你自己找出错误——这是一个完全可能的任务。我保证没有烧伤符合文章“2017 年 C++项目十大 Bugs】”中的内容。因此，请花时间阅读代码片段后给出的分析器警告。

**private** **void** **MergeParallelTransitions**()
{
  ....
  **if** (   transition1.DestinationStateIndex == 
         transition2.DestinationStateIndex 
      && transition1.Group == 
         transition2.Group) 
  {
    **if** (transition1.IsEpsilon && transition2.IsEpsilon)
    {
      ....
    }
    **else** **if** (!transition1.IsEpsilon && !transition2.IsEpsilon) 
    {
      ....
      **if** (**double**.IsInfinity(transition1.Weight.Value) &&    
          **double**.IsInfinity(transition1.Weight.Value))
      {
        newElementDistribution.SetToSum(
          1.0, transition1.ElementDistribution,
          1.0, transition2.ElementDistribution);
      }
      **else**
      { 
        newElementDistribution.SetToSum(
          transition1.Weight.Value, transition1.ElementDistribution,
          transition2.Weight.Value, transition2.ElementDistribution);
      }
  ....
}

PVS-Studio 警告:v 3001有相同的子表达式 double。IsInfinity(transition1。Weight.Value)'的左边和右边的'&'操作符。运行时自动机。Simplification.cs 479

从源代码片段中可以看出，该方法使用了几个变量— transition1 和 transition2 。使用相似的名字有时是合理的，但值得记住的是，在这种情况下，在某个地方偶然犯错误的可能性会增加。

所以在检查无穷上的数字时发生了( double。IsInfinity )。由于错误，同一个变量的值转变 1。重量值被检查了两次。变量跃迁 2。第二子表达式中的 Weight.Value 必须成为一个检查值。

另一个类似的可疑代码。

internal MethodBase **ToMethodInternal**(IMethodReference imr)
{
  ....
  bf |=   BindingFlags.Public 
        | BindingFlags.NonPublic 
        | BindingFlags.Public
        | BindingFlags.Instance;
  ....
}

PVS-Studio 警告:v 3001有相同的子表达式' BindingFlags。“|”运算符左侧和右侧的“Public”。编译器 CodeBuilder.cs 194

形成 bf 变量值时，枚举器 BindingFlags。公共使用两次。该代码包含冗余标志设置操作，或者代替第二次使用 BindingFlags。公共的另一个枚举器必须在这里发生。

顺便说一下，这段代码是在源代码中用一行代码写的。在我看来，如果它是以表格的形式格式化的(就像这里)，就更容易发现问题。

我们继续吧。我引用了整个方法体，并再次建议您自己找出一个(或多个)错误。

**private** **void** **ForEachPrefix**(IExpression expr,
                           Action<IExpression> action)
{
  *// This method must be kept consistent with GetTargets.*
  **if** (expr is IArrayIndexerExpression)
    ForEachPrefix(((IArrayIndexerExpression)expr).Target,
                  action);
  **else** **if** (expr is IAddressOutExpression)
    ForEachPrefix(((IAddressOutExpression)expr).Expression,
                  action);
  **else** **if** (expr is IPropertyReferenceExpression)
    ForEachPrefix(((IPropertyReferenceExpression)expr).Target,  
                  action);
  **else** **if** (expr is IFieldReferenceExpression)
  {
    IExpression target = ((IFieldReferenceExpression)expr).Target;
    **if** (!(target is IThisReferenceExpression))
      ForEachPrefix(target, action);
  }
  **else** **if** (expr is ICastExpression)
    ForEachPrefix(((ICastExpression)expr).Expression,
                  action);
  **else** **if** (expr is IPropertyIndexerExpression)
    ForEachPrefix(((IPropertyIndexerExpression)expr).Target, 
                  action);
  **else** **if** (expr is IEventReferenceExpression)
    ForEachPrefix(((IEventReferenceExpression)expr).Target,
                  action);
  **else** **if** (expr is IUnaryExpression)
    ForEachPrefix(((IUnaryExpression)expr).Expression,
                  action);
  **else** **if** (expr is IAddressReferenceExpression)
    ForEachPrefix(((IAddressReferenceExpression)expr).Expression, 
                  action);
  **else** **if** (expr is IMethodInvokeExpression)
    ForEachPrefix(((IMethodInvokeExpression)expr).Method,
                  action);
  **else** **if** (expr is IMethodReferenceExpression)
    ForEachPrefix(((IMethodReferenceExpression)expr).Target,
                  action);
  **else** **if** (expr is IUnaryExpression)
    ForEachPrefix(((IUnaryExpression)expr).Expression,
                  action);
  **else** **if** (expr is IAddressReferenceExpression)
    ForEachPrefix(((IAddressReferenceExpression)expr).Expression, 
                  action);
  **else** **if** (expr is IDelegateInvokeExpression)
    ForEachPrefix(((IDelegateInvokeExpression)expr).Target,
                  action);
  action(expr);
}

找到了吗？让我们检查一下！

【PVS-Studio 警告:

V3003 检测到“if (A) {…} else if (A) {…}”模式的使用。存在逻辑错误的可能性。检查线路:1719，1727。编译器 CodeRecognizer.cs 1719

V3003 检测到“if (A) {…} else if (A) {…}”模式的使用。存在逻辑错误的可能性。检查线路:1721，1729。编译器 CodeRecognizer.cs 1721

让我们简化代码，这样问题会变得更加明显。

**private** **void** **ForEachPrefix**(IExpression expr,
                           Action<IExpression> action)
{
  **if** (....)
  ....
  **else** **if** (expr is IUnaryExpression)
    ForEachPrefix(((IUnaryExpression)expr).Expression,
                  action);
  **else** **if** (expr is IAddressReferenceExpression)
    ForEachPrefix(((IAddressReferenceExpression)expr).Expression, 
                  action);
  ....
  **else** **if** (expr is IUnaryExpression)
    ForEachPrefix(((IUnaryExpression)expr).Expression,
                  action);
  **else** **if** (expr is IAddressReferenceExpression)
    ForEachPrefix(((IAddressReferenceExpression)expr).Expression, 
                   action)
  ....
}

如果语句重复，条件表达式和然后-几个的分支。也许，这段代码是用复制粘贴的方法写的，导致了一个问题。现在结果是然后——副本的分支永远不会被执行，因为:

如果条件表达式为真，则从相应对中执行第一个 if 语句的主体；
如果条件表达式在第一种情况下为假，那么在第二种情况下也为假。

由于then-分支包含相同的动作，现在看起来像冗余代码，令人困惑。也许，这里有一种不同的问题——必须运行其他检查，而不是重复检查。

我们继续。

**public** **int** **Compare**(Pair<**int**, **int**> x, Pair<**int**, **int**> y)
{
  **if** (x.First < y.First)
  {
    **if** (x.Second >= y.Second)
    {
      *// y strictly contains x*
      **return** 1;
    }
    **else**
    {
      *// No containment - order by left bound*
      **return** 1;
    }
  }
  **else** **if** (x.First > y.First)
  {
    **if** (x.Second <= y.Second)
    {
      *// x strictly contains y*
      **return** -1;
    }
    **else**
    {
      *// No containment - order by left bound*
      **return** -1;
    }
  }
  ....
}

PVS-Studio 警告:

v 3004‘then’语句相当于‘else’语句。运行时 RegexpTreeBuilder.cs 1080

v 3004‘then’语句相当于‘else’语句。运行时 RegexpTreeBuilder.cs 1093

这段代码看起来非常可疑，因为它包含两个条件语句，这两个条件语句的主体完全相同，分别是和以及 else 分支。大概在这两种情况下，都值得返回不同的值。另一方面，如果它是构想行为，那么移除冗余的条件语句将是有用的。

我遇到了一些更有趣的循环。下面是一个例子:

**private** **static** Set<StochasticityPattern> 
IntersectPatterns(IEnumerable<StochasticityPattern> patterns)
{
    Set<StochasticityPattern> result 
      = **new** Set<StochasticityPattern>();
    result.AddRange(patterns);
    **bool** changed;
    **do**
    {
        **int** count = result.Count;
        AddIntersections(result);
        changed = (result.Count != count);
        **break**;
    } **while** (changed);
    **return** result;
}

PVS-Studio 警告:v 3020一个循环内的无条件‘中断’。编译器 DefaultFactorManager.cs 474

由于无条件的 break 语句，恰好执行一次循环迭代，甚至不使用控制改变的变量。一般来说，代码看起来很奇怪，很可疑。

同样的方法(精确复制)发生在另一个班级。相应的分析仪警告: V3020 一个循环内无条件的‘中断’。可视化工具。windows factor manager view . cs 350

顺便说一下，我在一个循环中偶然发现了一个无条件的 continue 语句(分析器通过相同的诊断发现了它)，但是在它上面有一个注释，声明它是一个特殊的临时解决方案:

*// TEMPORARY*
**continue**;

让我提醒你，在无条件的 break 语句旁边没有这样的注释。

我们继续吧。

internal **static** DependencyInformation **GetDependencyInfo**(....)
{
  ....
  IExpression resultIndex = null;
  ....
  **if** (resultIndex != null)
  {
    **if** (parameter.IsDefined(
          typeof(SkipIfMatchingIndexIsUniformAttribute), false))
    {
      **if** (resultIndex == null)
        **throw** **new** InferCompilerException(
                     parameter.Name 
                 + " has SkipIfMatchingIndexIsUniformAttribute but " 
                 + StringUtil.MethodNameToString(method) 
                 + " has no resultIndex parameter");
      ....
     }
     ....
  }
  ....
}

PVS-Studio 警告:v 3022表达式' resultIndex == null '始终为 false。编译器 FactorManager.cs 382

我想直接指出的是，在声明和给定检查之间， resultIndex 变量的值可能会改变。但是，在检查之间 resultIndex！= null 和 resultIndex == null 该值不能更改。因此，表达式 resultIndex == null 的结果将始终为 false ，从而永远不会生成异常。

我希望即使没有我的建议，你也有兴趣独立搜索 bug 来发现问题，但为了以防万一，我会建议再做一次。方法代码很小，我就全部引用了。

**public** **static** Tuple<**int**, string> ComputeMovieGenre(**int** offset,
                                                   string feature)
{
  string[] genres = feature.Split('|');
  **if** (genres.Length < 1 && genres.Length > 3)
  {
    **throw** 
      **new** ArgumentException(string.Format(
            "Movies should have between 1 and 3 genres; given {0}.",
            genres.Length));
  } **double** value = 1.0 / genres.Length; var result 
    = **new** StringBuilder(
            string.Format(
              "{0}:{1}",
              offset + MovieGenreBuckets[genres[0]],
              value));
  **for** (**int** i = 1; i < genres.Length; ++i)
  {
    result.Append(
      string.Format(
        "|{0}:{1}", 
        offset + MovieGenreBuckets[genres[i].Trim()],
        value));
  } **return** 
    **new** Tuple<**int**, string>(MovieGenreBucketCount, result.ToString());
}

让我们看看这里发生了什么。输入字符串由字符“|”解析。如果数组的长度与预期的不匹配，就会产生一个异常。等等… 流派。长度<1&1&流派。长度> 3 ？因为不存在适合表达式( [int。最小价值..1) 和 (3..里面的 MaxValue] ，表达式的结果永远是假。因此，该检查不提供任何保护，并且不会引发预期的异常。

这就是分析器阻止我们讲述的:v 3022表达‘流派。长度< 1 &体裁&。长度>3’始终为假。这里可能应该使用' || '运算符。Evaluator Features.cs 242

我发现了一个可疑的组织行动。

**public** **static** **void** **CreateTrueThetaAndPhi**(....)
{
  ....
  **double** expectedRepeatOfTopicInDoc 
    = averageDocLength / numUniqueTopicsPerDoc;
  ....
  **int** cnt = Poisson.Sample(expectedRepeatOfTopicInDoc);
  ....
}

PVS-Studio 警告:v 3041表达式被隐式地从“int”类型转换为“double”类型。考虑使用显式类型转换来避免小数部分的丢失。举个例子:double A =(double)(X)/Y；。LDA Utilities.cs 74

这里的可疑之处在于:执行了整数除法(变量 averageDocLength 和numuniquetopisperdoc属于 int 类型)，但是结果被写入一个 double 类型的变量中。这就引出了一个问题:这是故意的还是暗示了实数的除法？如果变量expectedrepeatoftopiciindo属于 int 类型，这将禁止可能的问题。

其他地方的方法阿松。例如，使用其自变量是可疑变量的样本，如下所述。

**int** numUniqueWordsPerTopic 
  = Poisson.Sample((**double**)averageWordsPerTopic);

averagedwordspertopic为 int 类型，在其使用的地方被强制转换为 double 。

这是另一个使用的地方:

**double** expectedRepeatOfWordInTopic 
  = ((**double**)numDocs) * averageDocLength / numUniqueWordsPerTopic;
....
**int** cnt = Poisson.Sample(expectedRepeatOfWordInTopic);

请注意，变量与原始示例中的名称相同，只是在初始化时使用了实数的 expectedRepeatOfWordInTopic除法(由于显式的 numDocs 转换为 double 类型)。

总的来说，上面提到的由分析器用警告突出显示的起始源代码片段值得一看。

让我们把是否修复这个问题的思考留给代码作者(他们知道得更多)，我们会走得更远。下一个可疑部门。

**public** **static** NonconjugateGaussian **BAverageLogarithm**(....)
{
  ....
  **double** v_opt = 2 / 3 * (Math.Log(mx * mz / Ex2 / 2) - m);
  **if** (v_opt != v)
  {
    ....
  }
  ....
}

PVS-Studio 警告:v 3041表达式被隐式地从“int”类型转换为“double”类型。考虑使用显式类型转换来避免小数部分的丢失。举个例子:double A =(double)(X)/Y；。运行时 ProductExp.cs 137

分析器再次发现一个可疑的整数除法运算，因为 2 和 3 是整数数值，表达式 2 / 3 的结果将是 0 。因此，表达式如下所示:

**double** v_opt = 0 * expr;

你必须承认，这有点奇怪。好几次我都回到这个警告，试图找到一个窍门，而不是试图将它添加到文章中。该方法充满了数学和公式(坦率地说，拆除并不十分吸引人)，这里有很多值得期待的东西。此外，我尽量对这些警告保持怀疑的态度，我在文章中提到了这些警告，并在对它们进行了初步的深入研究后对它们进行了描述。

我恍然大悟——为什么需要像 0 这样的乘数，写成 2 / 3 ？因此，这个地方无论如何都值得一看。

**public** **static** **void** 
  **WriteAttribute**(TextWriter writer,
                 string name,
                 object defaultValue, 
                 object value, 
                 Func<object, string> converter = null)
{
  **if** (   defaultValue == null && value == null 
      || value.Equals(defaultValue))
  {
    **return**;
  }
  string stringValue = converter == null ? value.ToString() : 
                                           converter(value);
  writer.Write($"{name}=\"{stringValue}\" ");
}

PVS-Studio 警告:v 3080可能的空引用。考虑检查“价值”。编译器 WriteHelpers.cs 78

相当公平的基于条件的分析器警告。表达式值中可能出现空引用取消引用。等于(默认值)，如果值== null 。由于该表达式是运算符||的右操作数，对于其求值，左操作数必须具有假值，为此，至少一个变量默认值 \ 值不等于空值就足够了。最后，如果 defaultValue！= null ，并且值== null :

default value = = null->-false；
default value = = null&value = = null->false；(值检查未执行)
值。equals(default value)->-NullReferenceException，asvalue-null。

让我们看另一个案例:

**public** **FeatureParameterDistribution**(
         GaussianMatrix traitFeatureWeightDistribution, 
         GaussianArray biasFeatureWeightDistribution)
{
  Debug.Assert(
    (traitFeatureWeightDistribution == null && 
     biasFeatureWeightDistribution == null)
     ||
     traitFeatureWeightDistribution.All(
       w =>    w != null 
            && w.Count == biasFeatureWeightDistribution.Count),
    "The provided distributions should be valid 
     and consistent in the number of features.");
  ....
}

PVS-Studio 警告:v 3080可能的空引用。请考虑检查“traitFeatureWeightDistribution”。推荐功能 ParameterDistribution.cs 65

让我们省略额外的字符串，只留下计算布尔值的逻辑，以便于整理:

(traitFeatureWeightDistribution == null && 
 biasFeatureWeightDistribution == null)
||
traitFeatureWeightDistribution.All(
  w =>   w != null 
      && w.Count == biasFeatureWeightDistribution.Count)

同样，运算符||的右操作数只有在对左操作数求值的结果为 false 时才会被求值。左操作数可以取 false 值，包括当traitfeatureweightdession = = null和biasfeatureweightdession！= null 。然后运算符||的右操作数将被求值，并调用traitFeatureWeightDistribution。所有的将导致抛出 ArgumentNullException 。

另一段有趣的代码:

**public** **static** **double** **GetQuantile**(**double** probability,
                                 **double**[] quantiles)
{
  ....
  **int** n = quantiles.Length;
  **if** (quantiles == null)
    **throw** **new** ArgumentNullException(nameof(quantiles));
  **if** (n == 0)
    **throw** **new** ArgumentException("quantiles array is empty", 
                                nameof(quantiles));
  ....
}

PVS-Studio 警告:v 3095“分位数”对象在验证为空之前被使用。检查线路:91，92。运行时 OuterQuantiles.cs 91

注意分位数。访问长度属性，然后检查分位数是否等于空值。最后，如果 quantiles == null ，该方法将抛出一个异常，但是是不正确的异常，并且位于错误的位置。大概是线反了。

如果你已经成功地发现了前面列出的错误，我建议你用下面的方法发现一个错误，然后给自己泡一杯咖啡，试着重复一次英雄行为。为了让它更有趣一点，我将引用整个方法代码。

(全尺寸)

好吧，好吧，那是个玩笑(还是你干的？！).让我们简化任务:

**if** (sample.Precision < 0)
{
  precisionIsBetween = true;
  lowerBound = -1.0 / v;
  upperBound = -mean.Precision;
}
**else** **if** (sample.Precision < -mean.Precision)
{
  precisionIsBetween = true;
  lowerBound = 0;
  upperBound = -mean.Precision;
}
**else**
{
  *// in this case, the precision should NOT be in this interval.*
  precisionIsBetween = false;
  lowerBound = -mean.Precision;
  lowerBound = -1.0 / v;
}

好点了吗？分析仪发出以下代码警告:v 3008‘lower bound’变量被连续赋值两次。也许这是一个错误。检查线路:324，323。运行时 GaussianOp.cs 324

事实上，在最后一个 else 分支中， lowerBound 变量的值被连续赋值两次。显然(从上面的代码判断)，变量 upperBound 应该参与其中一个赋值。

我们继续吧。

**private** **void** **WriteAucMatrix**(....)
{
  ....
  **for** (**int** c = 0; c < classLabelCount; c++)
  {
    **int** labelWidth = labels[c].Length; columnWidths[c + 1] = 
      labelWidth > MaxLabelWidth ? MaxLabelWidth : labelWidth;
    **for** (**int** r = 0; r < classLabelCount; r++)
    {
      **int** countWidth = MaxValueWidth;
      **if** (countWidth > columnWidths[c + 1])
      {
        columnWidths[c + 1] = countWidth;
      }
    } ....
}

PVS-Studio 警告:v 3081“r”计数器不在嵌套循环内使用。考虑检查“c”计数器的使用情况。命令行分类赋值模块. cs 459

请注意，内部循环计数器— r 没有用在这个循环的主体中。因此，在内部循环的所有迭代中，执行具有相同元素的相同操作——在索引中，也使用外部循环的计数器，而不是内部循环的计数器( r )。

再来看看其他有趣的问题。

**public** **RegexpFormattingSettings**(
         **bool** putOptionalInSquareBrackets,
         **bool** showAnyElementAsQuestionMark,
         **bool** ignoreElementDistributionDetails,
         **int** truncationLength,
         **bool** escapeCharacters,
         **bool** useLazyQuantifier)
{
  **this**.PutOptionalInSquareBrackets = putOptionalInSquareBrackets;
  **this**.ShowAnyElementAsQuestionMark = showAnyElementAsQuestionMark;
  **this**.IgnoreElementDistributionDetails = 
    ignoreElementDistributionDetails;
  **this**.TruncationLength = truncationLength;
  **this**.EscapeCharacters = escapeCharacters;
}

PVS-Studio 警告:v 3117没有使用构造函数参数' useLazyQuantifier '。运行时 regexpformattingsettings . cs 38

在构造函数中，没有使用一个参数— useLazyQuantifier 。鉴于在一个类中，一个属性是用一个适当的名称和类型定义的，这看起来特别可疑——T2 uselazy quantifier。显然，有人忘记通过相应的参数进行初始化。

我还遇到了几个潜在危险的事件处理程序。下面是其中一个例子:

**public** **class** **RecommenderRun**
{
  ....
  **public** event EventHandler Started;
  ....
  **public** **void** **Execute**()
  {
    *// Report that the run has been started*
    **if** (**this**.Started != null)
    {
      **this**.Started(**this**, EventArgs.Empty);
    }
      ....
  }
  ....
}

PVS-Studio 警告:v 3083事件“Started”的不安全调用，NullReferenceException 是可能的。请考虑在调用事件之前将其分配给一个局部变量。评估员推荐 Run.cs 115

事实是，在检查 null 不等式和处理程序调用之间，如果在测试 null 和调用事件处理程序之间的时间内，事件没有订阅者，则会引发异常 NullReferenceException ，则可能会发生事件取消订阅。为了避免这样的问题，例如，您可以将对委托链的引用保留在一个局部变量中，或者使用？.'运算符来调用处理程序。

除了上面的代码片段，还找到了 35 个这样的地方。

顺便说一下，785v 3024 警告发生了。使用运算符比较实数时发出 V3024 警告！= '或' == '。我不会详述为什么这样的比较不总是正确的。关于这个的更多信息写在文档中，还有一个到 StackOverflow 的链接。

考虑到经常遇到公式和计算的事实，这些警告即使被置于第三级也可能是重要的(因为它们几乎与所有项目都不相关)。

如果您确定这些警告是不相关的，您几乎只需点击一下就可以删除它们，从而减少分析仪触发的总数。

结论

不知何故，碰巧我很久没有写关于项目检查的文章了，所以我很高兴再次参与到这个过程中。我希望你从这篇文章中学到一些新的\有用的东西，或者至少带着兴趣阅读它。

我希望开发人员快速修复问题，我想提醒大家，犯错误是可以的，因为我们是人。这就是为什么我们需要像静态分析器这样的额外工具来发现一个人遗漏了什么，对吗？无论如何，祝你的项目好运，谢谢你的工作！

此外，记住静态分析器的最大使用是在它的常规使用时获得的。

万事如意！

什么是计算机视觉？

原文：https://towardsdatascience.com/what-even-is-computer-vision-531e4f07d7d0?source=collection_archive---------11-----------------------

粗略的探索

非常可爱的计算机科学家、企业家、风险投资家保罗·格拉厄姆曾经在他的文章《像你说的那样写》中提到:

非正式语言是思想的运动服。

记住这一点，让我们讨论一下计算机视觉“甚至是什么”，从不真正了解它开始。

TechCrunch 巧妙地用这个想法打开了话题:

房间对面有人扔给你一个球，你接住了。简单吧？事实上，这是我们试图理解的最复杂的过程之一——更不用说重现了。

现在，快速浏览一下维基百科:

计算机视觉是一个跨学科领域，研究如何让计算机从数字图像或视频中获得高层次的理解。

粗略翻译:计算机视觉和它听起来的一样，只是有一些额外的考虑和与其他相关领域的区别。

Extracting and Classifying Features in Video

再次引用维基百科，计算机视觉包括:

使用借助几何学、物理学、统计学和学*理论构建的模型，从图像数据中解开符号信息。

用不经意的语言来说:计算机视觉是一个丰富而令人兴奋的领域，充满了研究论文，在这个领域，人们不会像说话一样写东西(除了这个家伙)。

计算机视觉漫长而传奇的历史

大约在华特·迪士尼去世和维基百科创始人诞生的时候，人们就一直试图赋予计算机视觉的天赋:

可以说，半个世纪以来，计算、数学和相关领域的进步使我们取得了很大进步。

数字图象处理

计算机视觉在很大程度上依赖于数字图像处理和维恩图，听起来也是如此，但这是不同的。可以说以下任务属于数字图像处理的范围:

模式识别:自明。找到规律。
特征 提取:将图像分解成不同的特征。
分类:这一簇边/形状看起来像汽车吗？一只狗？
多尺度信号分析:还有哪些方式可以看到这个图像？
图形投影:我们如何用 2d 表现 3d 物体？

Some ways to project a 3d object into two dimensions: An image processing task

算法模式识别使我们能够自动定位图像的关键点，如角和边。例如，当我们比较连续视频帧之间显著点的相对位置时，我们可以做一些事情，如补偿 x 和 y 轴的过度移动；我们可以稳定颤抖。你可以用 python 中的开源代码很容易地做到这一点。

Shaky on the left, stabilized on the right

多尺度信号分析可能是这些图像处理子任务中最令人兴奋的，但在高层次上，它也和它听起来的一样:在几个“尺度”上，呃，从几个角度分析一个信号(比如一幅图像)。Photoshop 在其锐化工具中使用多尺度分析。

Sometimes, to sharpen an image, you gotta blur it up first to help figure out where the edges are.

一个有趣的方法是通过对 取导数来分离图像。这是一种帮助找到图像边缘的方法，然后可以帮助我们将图像的各个部分聚集成单独的对象，然后这些对象可以接收标签——人类、狗、豹猫、运动球等等。这经常发生在多个“尺度”上。

Brightness at the pixel level. Images do start to look like numpy arrays…

上面是诚实的安倍的照片。它的分辨率足够低，你可以看到单个像素。由于我们使用的是 8 位灰度，这些数字代表每个像素的亮度值，范围从 0 到 255。

如果你沿着 x 轴对任何给定的像素取离散导数，这意味着你将把它与它左边和右边的像素进行比较，然后得到它们亮度值之间的瞬时变化率的估计值。你可以沿着 y 轴(它的列)对同一个像素进行离散求导，然后将这两条信息结合起来，就可以计算出这个像素是否位于边缘。

Imagine x is a pixel’s position in a discrete row of pixels, and y is its brightness value. You couldn’t get its derivative from the bar graph, but you could estimate it from a curve of best fit.

边缘往往在亮度或颜色值之间具有更大的瞬时变化率。我的意思是，看看亚伯的黑胡子的对比边缘。无论如何，这里有一个去年最新的物体检测演示，它实时结合了许多这些技术:

Joseph Redmon et al’s YOLOv3 Object Detection Algorithm. His resumé is awesome.

计算机视觉与机器视觉

那么，计算机视觉和数字图像处理的区别是什么呢？有很多重叠，但计算机视觉通常被认为更广泛:计算机视觉倾向于要求一些关于世界的假设作为输入，并且还试图输出一些可操作的决策。

这里有一种方式来思考这种区别:想象一下我们从飞机上扔下一个配备有降落伞和摄像机的简单机器人。如果它只是在降落时进行数字图像处理，它可能能够分析其摄像头的反馈，以识别其下方的陆地和海洋区域——但它不知道什么是陆地和海洋也不知道对它们做了什么。

有了计算机视觉，我们可以给我们的机器人一些关于世界的假设，比如“水和热熔岩不适合着陆，”以及“这就是热熔岩和水的样子。”然后，我们的机器人可以使用数字图像处理来分析它的摄像头，将周围的区域分为陆地、海洋或熔岩，并根据它之前的假设，决定在哪里着陆最好——然后去那里。

这个假设的跳伞实际上是机器视觉的一个例子，是计算机视觉的应用工程子类。机器视觉的一个更现实的应用可能是，自动化和加速装配线上的视觉质量控制任务。计算机视觉与这一学科的理论和科学元素有更多的关系，而不是帮助跳伞机器人安全着陆的实地工作。

憎恨者不会同意这些定义。有人说，数字图像处理只寻求以某种方式转换图像，而计算机视觉做任何和所有的模式识别、分析、解析斑点等等。在这一系列学术术语中，它仍然有点像狂野的西部。

未来:好与坏

我们已经疯狂地给予计算机*乎实时地观察事物并描述它们是什么的能力。未来工作的重点将是进一步开发通用系统，让计算机能够理解它们看到的东西，并做出适当的反应。

我们需要这样的系统来让自动驾驶汽车安全运行。为了让医学成像变得更好更便宜，我们需要它们。我们将需要它来做许多好事，但正如人类建造的任何闪亮的新工具一样，我们必须记住一件事:一旦建立在这些基础上的工具以有意义的方式出售，那些从剥削、战争和其他邪恶行为中获利的人就会拿出他们的支票簿。来自 Gizmodo :

伦敦著名的皮卡迪利广场正在安装一个巨大而可怕的…巨大的屏幕……【它】可以探测附*的车辆、年龄，甚至人们的情绪，并通过播放有针对性的广告做出反应。

多黑的镜子。

机器学*和数字图像处理的进步正在融合。想到在我有生之年，在仓库工作的机器人将能够看到我正在向它扔扳手，理解这意味着什么，决定它应该做什么，抓住它，这并不疯狂。

每个 CEO 需要了解的人工智能知识。第一部分:增长

原文：https://towardsdatascience.com/what-every-ceo-needs-to-know-about-ai-part-one-growth-5c9c9d21374?source=collection_archive---------21-----------------------

简单地将 AI 委托给你的数字团队是错误的。以下是您如何利用它来改变您业务的方方面面。

人工智能(AI)允许公司思考以前不可想象的事情。然而，尽管微软、亚马逊、脸书、谷歌和百度等科技巨头将人工智能作为其核心，并定期利用其潜力，但大多数其他非科技公司现在才开始意识到人工智能给他们带来的机遇。

很少有首席执行官意识到人工智能可以帮助他们实现商业目标并塑造 P & L 。他们知道如何利用组织重新设计、削减成本、并购、业务和产品发布以及地理扩张，但未能看到人工智能是一个可以添加到他们工具包中的强大工具。

由于大多数非科技公司的首席执行官不知道如何将人工智能融入他们的商业战略，他们倾向于将人工智能工作委托给他们的数字团队。但是这些团队不可避免地从技术的角度而不是 P&L 的角度来看待它。我看到的是数字团队迷失在树林中，而牺牲了森林。后者需要高级商业领袖充分理解和欣赏人工智能如何帮助他们。

每个首席执行官都应该能够在人工智能的帮助下重新想象他们的业务和 P&L。作为一个指南，我确定了首席执行官可以在人工智能的帮助下塑造的 17 个杠杆，以提高他们的损益。我开发的框架(如下)既可以用作评估你的团队围绕人工智能所做努力的当前状态的晴雨表，也可以用于发现新的机会。这 17 个杠杆展示了人工智能如何帮助推动卓越的增长，提高资本回报率，以及管理可取和不可取的风险。

该框架将帮助您与您的团队围绕如何利用人工智能的力量进行结构化和集中的讨论，关注以下问题:

奖金的潜在规模有多大？
市场进化到了什么阶段？
早期采用者实现了什么？
要避免哪些陷阱？

持续高速增长

我们先来看增长。持续的高速增长是难以捉摸的。没有必胜的公式。但成功的公司似乎掌握了战略、资本配置、创新、市场扩张以及卓越的销售和营销的调配权。这些杠杆中的最后三个一直是人工智能早期采用者的关注点。

创造新的

推动增长的秘诀是大胆开发一种全新的产品，这在以前是不可能的。以亚马逊的智能音箱 Alexa 为例——现在每六个美国家庭中就有一个。这是一项创新，打破了电信巨头、手机制造商和家庭娱乐系统提供商对进入家庭的“声音”的束缚。

在零售领域，在线超市集团 Ocado 已经将人工智能置于其新客户服务中心运营方式的核心——我们过去称之为仓库。该公司坚持认为，组装订单的时间已经从几个小时减少到几分钟。算法运行仓库以确保速度、准确性和质量——甚至确保西瓜不是放在一箱鸡蛋上面。人工智能平台不仅让 Ocado 有效地运营自己的业务:它还将该系统出售给了海外的其他零售商。

微小的进步，比如给现有产品添加一些人工智能，可能会帮助你保持竞争力。但它不太可能增加你的收入或利润，除非你是苹果公司推出具有面部识别功能的 iPhoneX，或者你可以模块化你的产品并为人工智能模块定价。

接触更广泛的客户群体

有远见的公司已经开始使用人工智能来服务以前被认为不值得为之烦恼的顾客。

以提供信贷为例。机器学*可以查看数据，如个人过去的购物*惯、公用事业账单和租金的支付情况，以建立他们可能的信用状况。有了这些信息，公司就可以决定是否发放贷款——即使相关人员过去没有信用记录。全球约有 17 亿成年人仍然没有银行账户。然而，需要特别注意隐私法和客户的同意和偏好；该行业正面临一些监管阻力。

同样，小企业在寻求信贷时也可以接受评估:人工智能可以查看从脸书、LinkedIn、易贝和 PayPal 等地收集的销量、客户评论和数据等信息，来衡量一家公司是否有可能支付账单。

从现有客户那里获得更多

人工智能现在已经接*实现大规模个性化。它可以将传统数据与从在线浏览、社交媒体和可穿戴设备等来源收集的客户行为详细信息结合起来。这样就可以在正确的时间提供正确的产品，传达正确的信息。麦肯锡估计，这种大规模个性化可以将销售额提高 10%或更多。

例如，在亚马逊，我们已经看到机器学*被用来向现有客户提出建议:他们会收到一个推荐的“下一个要购买的产品”。这些想法是通过查看您的人口统计资料、您过去购买的产品以及具有类似资料的客户购买的产品而产生的。一度，亚马逊约 30%的销售额来自其推荐引擎。

企业对企业的公司可以采取类似的策略，通过挖掘过去的订购模式，并将它们与销售给类似客户的情况进行比较。

不要忽视人工智能在减少客户流失和留住客户方面的潜力。机器学*可以查看客户登录的频率、他们对电子邮件的回复率以及他们致电服务台的频率等指标。然后，它可以估计客户转向竞争对手的可能性，并进行干预，以尽量减少取消订单的数量。

以网飞为例。如果花超过 60 到 90 秒的时间才能找到他们想看的东西，客户很可能会失去兴趣。通过使用个性化和推荐，该公司认为它节省了超过 10 亿美元(7.57 亿英镑)的收入，否则它会失去这些收入。

获得合适的价格

没有自然法则说每个顾客都应该为给定的产品或服务支付相同的价格——事实上，也没有理由说一个顾客每次购买给定的东西都应该支付相同的价格。

优步提供了一个最著名的可变价格的例子:当一个特定地区的需求相对于可用的司机数量而言很高时，乘车的价格就会上涨。

同样的想法也适用于无数其他行业。移动电话运营商正在尝试使用机器学*来预测需求，并衡量一小批消费者的价格敏感度。然后，他们可以利用这些信息来决定需求价格的取舍，以实现收入和盈利能力的最大化。

在 B2B 领域，公司可以使用数据科学来确定具有相似购买模式的客户群，识别相似的交易，并生成有关支付价格的信息。让销售人员掌握这些信息可以帮助他们在不损失业务的情况下谈判出尽可能好的价格。

提高销售效率

销售人员大约三分之二的时间用于日常工作，如与潜在客户联系、安排约会、接受订单和准备合同。公司已经开始将此类活动自动化，让销售人员有时间完成交易、培养关系和管理非同寻常的交易。

一个能够识别最有可能促成销售的线索的公司将比其竞争对手更有优势。公司正在使用人工智能的预测能力来确定最有希望的线索，并根据他们过去的销售历史将这些线索发送给最适合完成这些交易的销售人员。此外，公司正在使用人工智能记录、转录和分析销售电话、演示和会议。观察最成功的销售代表是如何引导对话的，有助于公司指导其他员工提高水平，获得更多交易。

让营销支出更有效

个性化现在是营销的核心。它可以在营销支出上获得巨大的回报。

但有远见的营销人员现在可以走得更远。分析顾客的行为仅仅是开始。现在，企业可以根据客户的行为、偏好和情感来确定营销目标，利用自然语言处理(NLP)技术创建情感智能的个性化内容，这种技术可以在所有营销渠道中大规模部署。全球银行花旗(Citi)聘用了营销语言云公司 Persado，其电子邮件“打开率”增加了 70%，点击率增加了 114%。

(本文原载于《伦敦商学院评论》。)

待关注:每个 CEO 都需要知道的人工智能知识。第二部分:资本回报率

每个 CEO 需要了解的人工智能知识。第二部分:退货

原文：https://towardsdatascience.com/what-every-ceo-needs-to-know-about-ai-part-two-returns-4965712633df?source=collection_archive---------19-----------------------

利用人工智能的力量可以帮助你提高生产力，改善预测和最大限度地提高效率

在推动增长的同时确保健康的资本回报是所有企业领导人面临的一个关键挑战。削减成本为实现这一目标提供了一条显而易见的途径。但营业利润的改善需要聪明且有粘性，才能持续并产生长期增长。人工智能可以提供一系列方法来提高生产率，改善预测，减少停机时间，并堵塞生产，供应链，采购，客户服务和行政管理费用的昂贵漏洞。

服务公司:提高效率

Blue Prism、Automation Anywhere、Pega 和 UiPath 等软件机器人执行日常任务，如访问应用程序、数据输入和计算。它们模仿人类所做的活动，所以遗留的 IT 系统不需要改变。

许多公司已经安装了软件机器人来实现快速节约。但在许多情况下，好处被证明是难以捉摸的。组织是围绕过程而不是任务构建的，而这些过程分布很广:它们是分散的。因此，组织面临着将任务自动化转化为节约的挑战。

那些成功抓住人工智能技术全部潜力的公司已经采取了一种全面的方法，而不是仅仅追求机器人技术。他们重新构想了流程和组织结构，并以集成的方式部署了多种技术，如机器学*和认知应用，以及机器人技术。对于这些公司来说，在流程简化和数字化的同时应用人工智能技术带来了巨大的节约——有时高达 30 %- 70%。如此规模的节约甚至使得将一些活动从离岸地点迁回成为可能。更快的流程改善了客户体验。

看看汽车保险索赔是如何处理的，这有力地说明了应用整套人工智能技术是如何产生影响的:

保险公司一直在使用光学字符识别(OCR)将手写索赔转换为机器可读数据。但是 OCR 并不总是准确的。现在，总部位于加州的 Captricity 公司使用其 Shreddr 技术，估计可以达到 99.9%以上的准确率。
机器人可以接管手动任务，例如通过验证申请人的身份创建第一份损失通知，搜索保单细节，输入损失损坏和维修估计信息，检查保单覆盖范围，上传照片并将其放入正确的评估队列。
计算机视觉可以帮助验证索赔。英国第三大汽车保险公司 Ageas 使用总部位于伦敦的 Tractable 公司的计算机视觉技术来加快维修成本的评估。Tractable 系统存储了数百万个碰撞修复图像和相应的修复估计值。因此 Ageas 可以每分钟检查数千个评估，并向其专家标记不必要的修复。
自然语言生成可用于编写叙述性报告，从索赔和维修中识别信息，然后详细说明趋势、解释和潜在的下一步行动。

制造企业:提高生产效率

在过去的二十年里，公司已经采用精益和自动化来减少浪费和提高效率。随着进一步的改进变得越来越难以实现，人工智能已经成为允许他们进入下一个生产力水平的白衣骑士。

将从工业机器收集数据的物联网(IoT)的进步与人工智能相结合，使公司能够减少资产停机时间。基于人工智能的算法监控设备层面的声音或热信号，以及维护日志和天气模式等其他数据。如果系统随后发现异常，它可以标记出维护需求，从而减少停机时间。Pitney Bowes 引入了通用电气的 Predix 系统，机器产量增加了 20%,零件更换节省了 15%,技术支持成本降低了 10%。
工人的生产率可以通过使用“协作”机器人来提高，这些机器人可以在无法完全自动化的工作中与人类工人一起操作。计算机视觉使机器人能够意识到周围的情况。人类工人只需握住机器人的手臂，引导机器人完成所需的动作，就能给机器人“编程”。仍然需要人，但是他或她的生产力大大提高了。
人工智能可以对能源消耗产生重大影响。一个突出的例子是谷歌的 DeepMind，它将谷歌用于冷却其数据中心的能源减少了 40%。算法查看温度、功率和泵速等方面的历史数据，以预测未来的温度，然后决定最大限度减少功耗的最佳设置。铝、水泥和造纸等能源密集型行业也可以采用类似的方法。
通过将计算机视觉与机器学*相结合来简化检测，更准确地检测异常并给出一致的结果，可以加快质量控制。有了好产品和有缺陷产品的图像，人工智能系统还可以识别以前未知的缺陷。

让供应链更加敏捷

机器学*和机器人技术已经允许零售、包装消费品和高科技行业的公司将其供应链转变为竞争优势的来源。公司正在使用人工智能来准确预测客户对大量不同商品的需求。然后，他们用灵活高效的供应来补充改进后的预测。他们有自动化的仓库流程，使用机器人进行拣选和包装；并使物资运输和交付能够响应实时信息，如天气预报和交通流量。

德国电子商务商家 Otto 现在可以以 90%的准确率预测未来 30 天内将出售的商品，每年减少五分之一的过剩库存和超过 200 万件商品的退货。算法不仅考虑历史销售，还考虑广告活动、商店开门时间、当地天气和节假日，以预测每个商店对各种产品的需求。

亚马逊使用 Kiva 机器人给站在平台上的工人送包裹。亚马逊将库存能力提高了 50%，运营成本降低了 20%。

以更低的成本增强客户服务

人工智能可以帮助公司满足客户对个性化服务和直接获得他们想要的东西的日益增长的期望。

减少传入的失败需求:当某样东西不能满足客户的需求时，他们可能会联系呼叫中心。找出问题所在既有助于避免重复缺点，又能减少对呼叫中心的需求。记录和分析客户来电可以找出投诉的根本原因。电话的精确转录变得越来越可能。谷歌、IBM 和微软的系统现在可以以大约 95%的准确率转录电话对话。使用自然语言处理和文本挖掘，可以对呼叫进行分析，以得出需求趋势和故障模式；然后，可以采取适当的行动。
减少打给呼叫中心代理的电话数量:模仿人类说话的在线聊天机器人已经被广泛使用。在银行业，聊天机器人全天候回答简单的查询，并帮助客户完成日常交易，如检查余额和支付。聊天机器人充当看门人，处理简单的任务，然后将他们无法处理的呼叫转移到呼叫中心代理。下一次发展将会看到聊天机器人与机器人配对，可以进行端到端的交易，例如注销被盗的信用卡并发行一张新的信用卡。
消除花在身份验证上的时间:呼叫中心平均花 30 到 45 秒来验证客户的身份。这相当于每年 1000 万次通话需要大约 10 万个小时。汇丰银行和花旗银行等银行已经部署了 Nuance 和 Nice 等公司的语音生物识别技术，以消除这种浪费的时间。该系统将呼叫者的声音与存储的声音签名进行比较。面部识别也正在成为一项可行的技术——尤其是在中国。许多中国银行允许用户在网上和自动取款机上仅通过面部识别身份。
加快处理呼叫:呼叫中心代理通常会在呼叫过程中和呼叫结束后，花费多达四分之一的时间访问不同的系统来查找和更新数据。简化的机器人桌面控制台允许自动填充或验证数据，可以大大节省代理的时间，使其专注于工作的其他方面。HMRC 推出了一种仪表板，将代理在通话中点击鼠标的次数从 66 次减少到 10 次。结果是:处理一个电话的平均时间减少了 40%。
代理人蔻驰:呼叫记录可以帮助呼叫中心代理人学*他们表现最好的同行的运作方式。随着聊天机器人越来越多地涵盖简单的查询，代理将被留下来处理复杂的查询。基于转录的辅导将帮助他们更顺利地过渡。提高产能利用率:呼叫中心可以使用 Random Forest 和脸书的 Prophet 等机器学*模型来准确预测呼叫中心的需求。提前六个月的准确预测将有助于呼叫中心做出更好的招聘和技能组合决策。提前一周的准确预测将有助于呼叫中心更好地安排代理。

削减采购成本

购买的商品和服务通常占产品成本的 60-80%。人工智能可以用信息和洞察力武装采购经理，以确保更好的交易。但许多公司的采购数据是不干净的，没有按照支出类别分类，分散在不同的系统中。然而，Coupa 软件使用机器学*来自动清理和分类信息。它声称已经分析了超过 1.3 万亿美元的支出。企业可以通过自动化订单管理(尤其是针对长尾支出的订单管理)来堵塞不合规和低效率导致的漏洞，从而进一步降低采购成本。典型的泄漏率为 3-4 %,相当于 60 亿英镑支出中的 1 . 8-2 . 4 亿英镑。

减少开销

使用人工智能来重新想象行政流程有着广阔的空间。想象一下，一个系统拍摄一张收据的照片，并使用光学字符识别来读取文本，然后由机器学*来识别金额、日期、货币和费用类型:把它们放在一起，它就可以创建一个费用条目。

吸引和留住人才

随着人力资源部门从传统的服务角色升级到战略业务合作伙伴的职责，他们可以从迈克尔·刘易斯的书《金钱球》中得到启示，获得关于人才的数据驱动的见解。

寻找潜在的高绩效者:具有前瞻性思维的人力资源团队正在利用数据科学来识别使某人成为高绩效者的特质，并定义可能在特定角色中表现出色的员工的特征。此外，人工智能可以强调高绩效员工来自哪里，并识别有前途的人才来源。
降低招聘成本和时间:早期采用者已经采用算法来加速筛选申请人的简历。算法可以识别最有可能被雇用的最合适的候选人，从而让专家专注于优先考虑的人才库。公司可以使用人工智能自动更新埋在候选人数据库中的数百万份简历，并从网上获取最新的工作历史。客户关系管理公司 Beamery 允许雇主在潜在候选人申请工作之前就与他们接洽。它的算法根据求职者的兴趣向他们提供内容、新闻和信息。该公司声称，其客户的合格候选人数量增加了两倍，招聘成本降低了一半以上。
减少流失:员工会在社交媒体上留下求职的痕迹。社交媒体元数据和历史人力资源数据可以帮助公司确定哪些员工最有可能辞职。然后，雇主可以想办法留住表现最好的员工。

(本文原载于《伦敦商学院评论》。)

待关注:每个 CEO 都需要知道的人工智能知识。第二部分:风险

脸书关闭数据经纪人的决定意味着什么

原文：https://towardsdatascience.com/what-facebooks-decision-to-shut-down-data-brokers-means-70a6a3aca8de?source=collection_archive---------9-----------------------

社交媒体可以说是*年来最重要的技术进步之一，帮助人们通过点击按钮与世界各地的亲人沟通。然而，*年来，随着脸书和其他社交媒体加大广告力度，试图将他们的服务货币化，用户已经提出了隐私问题。起初只是一些广告，现在已经变成了脸书和它的广告商全力以赴向你推销服务和产品。

随着社交媒体网站受到《观察家报》、《卫报》和其他媒体的负面报道，更多的争议随之而来，暴露了脸书与第三方数据经纪人的关系。Experian、TransUnion 和 Epsilon 等公司一直在从用户互动中收集信息，既有公开张贴在墙上的，也有私下通过邮件收集的。这些经纪人使用数据定位技术向用户销售产品，而脸书则不为所动，以保持强劲的收入流。然而，社交媒体网站在这样的报道之后改变了主意。

该网站表示，为了增加用户的隐私，它将关闭这些数据经纪人的广告定位方法。此举不会立即发生，但脸书表示将逐步取消这些被称为合作伙伴类别的做法。该公司表示，虽然这是行业惯例，但我们相信，这一步骤将在未来 6 个月内逐步结束，这将有助于改善脸书人们的隐私。许多人认为电视网的决定是积极的，将对整个行业产生深远的影响。

为了确定这些变化将如何影响依赖脸书及其第三方数据的公司，我联系了 Blinker ，这是一款允许人们完全通过智能手机自己购买、出售、融资和再融资汽车的应用程序。“我们已经收集了一个重要的 CRM 列表，因此随着脸书消除第三方数据源，Blinker 将进一步利用其现有的客户数据来创建我们可以锁定的定制受众群体。我们的长相相似的观众一直是表现最好的目标，所以我们预计我们的宣传策略或表现不会有太大变化。”Blinker 的营销副总裁安德鲁·普莱斯在一份书面声明中说。

以下是脸书决定改变其广告做法的后果:

1)增加隐私

自然地，用户会更舒服地使用社交媒体网站与朋友、家人和爱人讨论个人问题。脸书还表示，它将改变隐私设置，以便让用户更容易选择与谁分享他们的个人和专业信息。此举看起来像是一个在不泄露用户信息的情况下保持其用户连接网络的决定，尽管一些人认为该公司出于邪恶的原因将第三方数据经纪人从其网络中移除。

2)获得竞争优势

脸书可能只是对基于其做法而受到的媒体反弹做出反应，但也许该公司只是没有像它希望的那样赚钱。然而，这一决定可能是该公司试图从谷歌等竞争对手那里吸引用户的含蓄尝试，这些竞争对手仍在使用第三方数据经纪人。母公司 Alphabet 一直在使用这些做法，在 YouTube 和搜索引擎等各种数字渠道上向你宣传产品和服务，看起来脸书正在逆势而为。

3)制定行业标准

虽然脸书清理其行为的决定可能是一种公关举措或获得竞争优势的一种方式，但它可能会改变该行业的运作方式。谷歌等公司尚未讨论此事，但脸书的政策变化可能会带来一笔意外之财，即其他公司会清理自己的行为，以保持自己在行业中的高地位。其他社交媒体可能会很快效仿，而搜索引擎等科技领域的其他行业可能会在广告定位方法上变得更加专业化。

4)你仍然会看到广告

我们可能不会再收集你的个人数据和互动信息来向你发送广告，但脸书仍在与公司合作做广告。不同的是，社交媒体网站现在必须使用自己的目标工具，如“定制受众”，其中包括与他们希望销售的用户有事先关系的公司。脸书没有完全消除广告，而是找到了一个中间地带，既能改变公众对信息系统服务的看法，又不损害其底线。

5)政治起了作用

总统大选已经过去一年半了，脸书仍因未能删除网站上的假新闻和错误信息而备受指责。具有明显政治倾向的用户正在接收适用于他们的新闻——无论是真实的还是虚假的——而一些处于政治光谱边缘的人仍在接收错误信息，以这样或那样的方式影响他们。最*在脸书上发现了一个功能，它显示了对一条可能不可靠的新闻的警告，鼓励用户在相信媒体来源告诉他们的东西之前做自己的研究。将第三方广告经纪人从他们的文件夹中删除将允许网站消除发送给用户的错误信息，这些信息可能会影响他们对某个政党或候选人的看法。

底线…

脸书的决定在很多方面都是有意义的，因为它将提升自己的公众形象，让自己比竞争对手更有优势，同时还会向你发送一些广告，以保持收入流。随着时间的推移，用户会有更多的隐私，对在网站上分享数据会感到更舒服，而政治也会更客观，因为网络上的假新闻会更少。从长远来看，我们可能会将脸书的举动视为一个转折点，标志着从过度饱和的广告向更私人的在线体验的转变。

是什么让机器学*项目中的数据科学家感到沮丧？

原文：https://towardsdatascience.com/what-frustrates-data-scientists-in-machine-learning-projects-3398919a7c79?source=collection_archive---------9-----------------------

Photo by Vance Osterhout on Unsplash

如今，人们对数据科学的兴趣激增。一个人只需要插入标语“由人工智能驱动”，任何东西都可以卖出去。

但是，这就是问题的开始。

数据科学的推销通常是异想天开。然后，客户将期望值提高一个档次，启动他们的登月计划。最终，把客户带到月球上，还是把他们留在荒岛上，都要由数据科学家来决定。

早先的一篇文章，数据科学家工作面试失败的 4 种方式研究了候选人在追求数据科学职业生涯时犯的主要错误。现在，我们走进数据科学项目期望的幻想世界，找出客户持有的最大误解。

在这里，我们将讨论我在机器学*项目中看到的 8 个最常见的神话，以及它们为什么会让数据科学家感到烦恼。如果你刚刚进入数据科学，或者已经成为主流，这些都是可能扔向你的潜在手榴弹。因此，知道如何处理它们会很方便。

“所有的模型都是错的，但有些是有用的。”—乔治·博克斯

Photo by Andre Hunter on Unsplash

误区一。“我们想要一个人工智能模型..造一个来解决这个问题”

分析领域的大多数行业问题都可以通过简单的探索性数据分析来解决。如果机器学*对这些来说是多余的，我们甚至不要开始讨论为什么人工智能在这里是无用的。为什么要用大炮打死一只苍蝇？

是的，高级分析很酷。每个企业都喜欢谈论成为行业中部署最新技术的第一人。而哪个厂商不想标榜一个 AI 项目呢？但是，人们需要教育客户，并找出真正保证 ML 军械库重型火炮的用例。对于所有其他需求，通过使用探索性数据分析、统计或其他此类久经考验的技术展示商业价值来说服客户。

“到目前为止，人工智能最大的危险是，人们过早地断定他们理解它。”—埃利泽·尤德科夫斯基

误区二。“拿着这个数据..并带着变革性的见解回来”

通常，客户认为他们的责任到移交数据就结束了。有些甚至停留在问题定义上，但是我们将在第 4 点看到这一点！他们要求分析师获取数据，并带回一套惊天动地的商业见解，这将在一夜之间改变组织。

不幸的是，与创造性写作不同，人们不能孤立地想出可行的商业建议。它要求与业务用户就什么对他们是相关的和可行的进行持续的迭代和富有成效的对话。在整个项目中，定期与业务人员一起计划优质时间。

“如果你不知道如何问正确的问题，你将一无所获。爱德华·戴明

误区三。“构建模型，通过跳过不必要的分析来节省时间”

许多数据科学家忽视了在打开模型工具箱之前进行数据辩论和探索性分析的重要性。因此，当客户要求从关键路径中删除【不必要的分析】以节省宝贵的项目时间时，他们看不到风险。

数据探索和分析是机器学*和所有其他高级技术的强制性先决步骤。没有对数据的感觉，发现异常值或发现潜在模式，模型除了在黑暗中拍摄什么也不做。总是指定时间进行分析，并通过分享有趣的发现来说服客户。

炼金术士在寻找黄金的过程中发现了许多其他更有价值的东西。——亚瑟·叔本华

误区四。“我们有上周的数据，你能预测未来 6 个月吗？”

这是数据科学家最讨厌的事情。客户在电子表格中拼凑几行数据。然后，他们希望人工智能能像水晶球一样凝视未来。有时，当客户承认没有任何数据，然后真正想知道机器学*是否可以填补空白时，这变得非常奇怪。

数据质量和数量是不容讨价还价的。“垃圾进垃圾出”同样适用于分析。当你的数据有限时，统计技术会派上用场，当你的数据更少时，它们会帮助你提取更多的数据。例如，估算缺失点， smote 生成数据或使用更简单的低容量模型。但是这需要降低客户对模型结果和项目成果的期望。

Performance of analytics techniques with data volume: Source Andrew Ng

误区五。"你能在两周内完成建模项目吗？"

在任何业务关键型项目中，结果都是在昨天就可以预期的，即使项目启动是在今天计划的。在匆忙破坏项目时间表的过程中，一个常见的损失就是模型工程阶段。随着模型 API 的免费提供和对 GPU 计算的轻松访问，客户想知道是什么减慢了数据科学家的速度。

尽管 Auto-ML 有所进步，但是在建模过程中有一个不可缺少的手工元素。数据科学家必须检查统计结果、比较模型和检查解释，通常需要经历痛苦的迭代。这是无法自动完成的。至少，现在还没有。最好通过分享示例和说明如果跳过某些步骤可能会遗漏什么来启发客户关于数据科学生命周期的知识。

建模一部分是实验，一部分是艺术，所以里程碑驱动的项目计划可能不会太精确。

误区六。"你能替换结果变量并点击刷新吗？"

在数据科学家解决了业务行为建模的问题后，新的客户请求经常会以增量变化的形式出现。有时，他们会要求替换结果变量，并通过重新运行模型来快速刷新结果。客户没有意识到这种变化不仅仅是移动球门柱，而是将比赛从足球转换到篮球。

虽然机器学*是高度迭代的，但核心挑战是为给定的结果变量挑选正确的影响者，并映射他们的关系。客户必须事先了解这是如何运作的，以及他们可以自由使用的杠杆。他们还必须注意那些需要预先仔细规划的参数，以及如果这些参数的变化超出了定义的里程碑，将会发生什么情况。

神话 7。“我们能有 100%的模型准确率吗？”

人们经常被错误率所困扰。就像盲目追求考试成绩一样，客户希望准确率接* 100%。当准确性成为压倒所有其他因素的唯一焦点时，这变得令人担忧。建立一个复杂到无法实时制作的高度精确的模型有多大用处？

以最高精度赢得百万美元网飞奖的模型从未上线，因为它的极端复杂性意味着沉重的工程成本。而精度较低的型号采用了。始终平衡准确性与简单性、稳定性和业务可解释性。这需要果断的权衡和判断，信任客户。

Model Engineering: Achieving the fine balance and trade-off

误区八。“训练出来的模型能永远保持聪明吗？”

在投入大量精力进行模型构建和测试后，客户想知道机器是否已经学会了它所需要的一切。一个常见的问题是，它能否保持智能，适应业务动态的所有未来变化？

可惜机器不是终身学*的。模型需要不断耐心的教导。他们需要每隔几周或几个月快速复*一次，就像学校里那些努力学*的学生一样。当环境改变时，更是如此。这就是分析行业目前的状况，尽管它在快速发展。所以，现在，为模型维护和病人更新做时间和精力的预算。

结论

我们已经看到了项目中的 8 个主要误解，这些误解也可以分为 ML 建模生命周期的 6 个阶段，如下所示。

Machine learning project lifecycle

几乎所有的上述误解都是由于缺乏意识和项目中的优先级错位造成的。毕竟，每个客户和企业都是在严格的时间表、紧张的预算和不那么完美的数据流下进行团队合作的。数据科学家应该能够与客户产生共鸣，理解这些脱节的真正原因。这将使他们能够教育利益相关者，并提供实例来阐明他们的观点。

数据科学团队应该采取温和刺激和友好权衡的结合。他们应该做出不影响项目最终结果的决定。祝你在下一次机器学*项目中处理这些常见问题时好运！

这里还有没有列出其他的误解？请在下面留下您的评论，继续对话。

如果你觉得这很有趣，你可能想看看我写的其他相关文章:

让你在数据科学生涯中不可或缺的 4 种超能力
数据科学家面试失败的 4 种方式

对数据科学充满热情？随时在LinkedIn上加我，订阅我的 简讯。

在数据科学领域找一份工作会是什么样子

原文：https://towardsdatascience.com/what-getting-a-job-in-data-science-might-look-like-f94ddb788a5e?source=collection_archive---------0-----------------------

备选标题:我的人生故事:)

我读过一些文章，这些文章阐述了进入分析和数据科学领域有多难。这不是我的经历，所以我想分享一下。我们将看看面试，我目前使用的工具，我在学校没有准备好的行业，以及我的职业轨迹是什么样子的。但不是按那个特定的顺序。

在我们开始之前，快速回顾一下我的教育可能是有意义的！

2004 年——获得了麻省理工学院达特茅斯分校的数学学士学位

我的专业平均成绩为 3.8 分
在那里学了 FORTRAN(不擅长)
没有实*
我热爱数学，热爱我在学校的时光

老实说，2004-2007 年没什么值得注意的。我在“寻找自我”，或者别的什么。

2007 年——开始在 WPI 兼职统计学硕士，同时为考德威尔银行家房地产经纪公司工作。

“房地产泡沫”破裂(大衰退的开始)，与此同时，我很幸运地获得了 WPI 的助教职位。
搬到伍斯特，完成了我的全日制硕士学位(2010 年毕业)
在课堂上使用 SAS & R
仍然没有实*机会(经济不景气，我还没有学会很多找工作、建立关系网的知识，也没有利用职业中心)
我想在社区大学教书，但是两位教授问我是否有兴趣去当地的公用事业公司面试(而那家公司刚好离我父母家 3 英里)。

我在那家公司面试并接受了那份工作。

我毕业后的第一份行业工作是 NSTAR(现在是 Eversource)，我是一名预测分析师，使用计量经济学时间序列分析来预测天然气和电力负荷(阅读——我们需要多少天然气和电力来服务客户)。

我每天都在构建 ARIMA 模型，使用各种统计测试来测试数据中的结构突变，单位根测试来测试平稳性，我写了一个证明来解释为什么我选择的值大于 1 的 t-stats(即使 p 值可能是 0.2)有利于模型的预测。

我建立了很酷的神经网络来预测每小时的电力负荷。这种方法很有意义，因为电力负荷和天气之间存在非线性关系。模型结果非常好，并被用来决定如何在预计需要高负载的日子里满足容量。

这是我第一次了解到，一旦你完成了一个人们关心的项目，你很可能会写一套解释问题和结果的材料..然后你去“巡回演出”。也就是说，我制作了 PowerPoint 幻灯片，并向其他团队展示了我的作品。我的第一个幻灯片不是很好。我花了多年的经验才达到这样一个地步，现在我认为我的套牌在视觉上很吸引人，适合我演讲的观众(有正确的信息“水平”)，而且引人入胜。

在 NSTAR 我也用了一点 SAS。这是以重新运行他人先前编写的代码的形式。它有时也涉及到稍微修改别人写的代码，我肯定不会认为这是一项密集的工作。更像是“SAS 按键”。

我每天构建的模型都是在“点击”软件中构建的。

到目前为止，NSTAR 是我最“统计”的工作，但是时间序列只是统计世界中的一小部分。我想拓展我的视野，并了解到在分析领域有大量的机会…

我其余职位的快速概述:

silver link communication s 分析顾问

提供市场研究、细分、研究海报和宣传活动，旨在支持管理式医疗机构(mco)、药房福利经理(pbm)和疾病管理(DM)客户。

vista print 分析经理

Vistaprint 在网上销售名片和其他营销产品。他们的主要客户群是小企业。
管理一个分析师团队来优化 Vistaprint 网站。
担任过许多其他角色，并在分析领域从事大量不同的项目

资深数据科学家，常接触

Contant Contact 提供电子邮件营销解决方案。也是电子商务，也针对小企业。

两个月来我一直保持联系。我的第一个目标是:

检查已经存在的模型的有效性
改进他们目前的测试方式。然后自动化！
试图在客户群中识别季节性客户。
学*很多新东西！

关于标题的说明:

标题很棘手。一个头衔可能听起来很时髦，报酬也不高，有时一个较低的头衔可能会比你预期的报酬更高！

随着将数据用于商业目的变得越来越流行，人们对某个职位通常包含哪些角色、职责和技能更加困惑。探索你所有的选择！你可以在许多不同的网站上查看职位的平均工资。

www.glassdoor.com
www.payscale.com

我使用的工具(从最基础的开始):

我去过的地方都用过 Excel。做以下事情的能力:

数据透视表
垂直查找
使用“记录”按钮编写一个简单的宏来自动执行一些数据操作
这些类型的东西可以让你看起来像一个其他领域的商业奇才。(没说是对的，只是说事情就是这样)
在我的职业生涯中，我一直使用这些东西。

随着数据变得越来越大，公司开始走向 Tableau。我自己对它还不熟悉，但它让我不用看着一份 Excel 文档花很长时间保存。我认为等待大型 Excel 文件的日子已经成为过去。

对于 Excel 来说，数据很快变得太大，我发现任何高于 400k 行(多列)的数据都变得很难操作。
漂亮的可视化，可以是交互式的，快速的，点击式的。

Screenshot of Analysis in Tableau

Tableau 还可以直接从 SQL(一个. csv 和一堆其他格式)中获取数据。

SQL 中数据科学工作的真正核心。我认为没有人会反驳这一点。

在学校，大部分数据都以一种很好的形式给了我，我所要做的就是分析和建模。在工业中，在 100 或 1000 个不同的表中有数百万行。需要使用相关标准从相关表格中收集这些数据。大多数时候，您将操作 SQL 中的数据，使其变成您非常熟悉的漂亮/可用的形式。这是一个时间密集型的过程，你会开始意识到，在你用 R 或 Python 写一行代码之前，你工作的很大一部分就是决定你需要什么数据，找到数据，转换数据使之适合建模。

我在工业界的前 3 份工作都涉及到 SQL，而我只做过 4 份工作。

你可以直接从 SQL 中提取数据到 Excel 或 R 或 Python 或 Tableau 中，这个列表还在继续..

SQL 有许多不同的“风格”。如果你知道一个，你可以学*其他任何一个。过去，我曾被列出 AP 或其他变体的招聘信息吓到。语法上可能会有细微的差别，但它们实际上只是要求你了解 SQL。不要被吓倒！

下面是一个简单查询的例子。我选择了一些 id、月份、年份，以及基于“where”语句中给定标准的变量“sends”的计数。该查询还显示了一对表连接，用“join”表示，然后我给出了连接的条件。

SQL has been invaluable in my career. Couldn’t live without it

一旦您理解了 SQL，转向大数据就不那么困难了。使用 Hive(在工作描述中看起来也很吓人)，很像 SQL(加上一些您可能需要处理的嵌套数据)，您可以从 Hadoop 中查询数据。

我使用命令行来访问 Hive，但是很好的 ui 已经出来了。如果你仔细看，你会看到我的查询只是“从联系人限制 1 中选择 account _ id，只说“给我一个联系人表中的 account_id”，它看起来就像 SQL。

At the time of this screenshot, I had just kicked off this query. Because there is so much data. It may take over a minute to get me 1 account id from this table

当我获得统计学硕士学位时，每个人都在使用 r。甚至一些统计学家现在也在转向 Python。以前，我所有的建模都是在 R 中进行的，但是我自己正在测试 Python waters！

我在 Coursera 自学了 Python，目前正在我的新工作中使用。这就是互联网的美妙之处。想学一个新工具？去学吧，资料唾手可得。

下面是我在 JupyterLab 中的 Python 代码的一个例子。这是全新的，而且我的截图并没有做到这一点。你可以在这里阅读更多关于木星实验室的信息:木星实验室

This is what JupyterLab looks like. Although I don’t have any pretty charts here (sorry), I’m just working on a little Quality Control problem.

一个的小纸条。我把我上过的课程放在 LinkedIn 的“成就”下面。这是个不错的主意。

关于工业我不知道的事情:

你可能会有一些旅行的机会——目的地的乐趣会有所不同

我去过拉斯维加斯、奥兰多、巴塞罗那、温莎安大略、新泽西州和马里兰州工作。

通常会有个人发展预算

一本你想读的相关的书？你可能会花掉它。
Coursera 上有相关的课程吗？你可能会花掉它。
他们有时会送你去参加会议
——我在 3 月 21 日参加了 Jupyter 弹出窗口，我将参加 5 月份的开放数据科学大会。
不要羞于问你的老板是否有预算。对大多数人来说，看起来你很关心自己的事业，并对其进行了投资！

裁员是一件事。我最*才了解到这个第一手资料。我的经历很棒。

Vistaprint 决定裁员 2000 万美元(182 人)。

我得到了一份相当丰厚的遣散费。
小费！可以同时领取失业和遣散费！

这是我多年来第一次有机会真正思考文化和方向，并真正思考我的下一步行动。

Vistaprint 支付了一个职业蔻驰帮助我:

简历(他们更新了我的内容和格式)。
求职信提示(描述如下)
建立工作关系网
采访
谈判！

我从来没有见过这种风格的求职信，但它有惊人的回复率！

I literally took the requirements from the job and pasted them on the left. Then took my qualifications from my resume and posted them on the right. Took less than 15 minutes for each cover letter.

采访

我从教练那里学到的最大收获和我自己面试数据科学家职位的经历是…

以星形格式练*回答问题。
https://www.vawizard.org/wiz-pdf/STAR_Method_Interviews.pdf

在一个电话屏幕上(和克罗诺斯在一起)，我被问到所有我已经准备好的问题:

告诉我你向非技术观众解释技术结果的一次经历？
告诉我你改进流程的一次经历？
告诉我一个与难相处的利益相关者一起工作的例子，以及它是如何解决的？

连续两天，和不同的公司(其中一家是 Spotify)，我被要求回答 FizzBuzz。

做好准备应对初级编码问题或 SQL 问题，这是工作描述中要求的技能之一。
http://rprogramming.net/fizz-buzz-interview-test-in-r/

准备以面试你的人(可能没什么背景)能够理解的方式谈论你的一个项目。高水平，注重结果。说真的，在你开始谈论这个项目之前，先描述一下目标是什么，很容易一头扎进某样东西，却意识不到对方根本不知道你在说什么。

我真的可以一直谈论上面列出的话题，但我想简要概述一下我的一些不同经历。也许我稍后需要详细说明。

谢谢你看了我的经历。我希望你在进入数据科学领域的道路上取得巨大成功。当你到了那里，我希望你会觉得很充实。我知道。

访问我的网站！这里

报名接收我的新文章:这里

Tensorflow Dev Summit 2017 上发生了什么-第 1/3 部分:社区和应用

原文：https://towardsdatascience.com/what-happened-at-the-tensorflow-dev-summit-2017-part-1-3-community-applications-77fb5ce03c52?source=collection_archive---------0-----------------------

TL；速度三角形定位法(dead reckoning)

2017 年 2 月 15 日，人工神经网络软件框架 tensor flow1.0 版本在加州山景城的谷歌 TensorFlow Dev 峰会上发布。

活动期间，在项目的四个不同领域进行了演示和公告:社区、应用、部署策略、工具和技术。这次活动是现场直播的，所有的视频都可以在网上看到。

通过这一系列的帖子，我将重点介绍最有趣的部分，并就活动期间涉及的主题给出实用的建议。

社区

传奇人物杰夫·迪恩给我们讲述了这个项目的故事，拉开了峰会的序幕。Tensorflow 并不是谷歌大脑团队创建通用机器学*框架的第一次尝试。之前关闭的源代码项目被称为 DistBelief 。

Tensorflow 于 2015 年 11 月开源，从其公开发布开始，谷歌内部和社区的采用情况令人印象深刻。

在一年多一点的时间里，开源 Github 库成为了“机器学*”类别中的第一名，拥有超过 44，000 颗星，500 名程序员开发并提交了他们的软件，每月提交数千份，5500 个名为 Tensorflow 的独立库现在出现在 Github 上。各大高校已经开始使用 TensorFlow 教授机器学*。

许多公司也支持这个项目。IBM、 Movidius 和高通正与谷歌合作，全力支持 Tensorflow 平台的硬件加速。来自高通的 Travis Lanier 展示了 tensorflow 的 InceptionV3 模型在Hexagon DSP上运行时的 8 倍性能(114.495 毫秒对 1968.753 毫秒或其他指标 8.7 帧每秒对 0.5 帧每秒)，同样在对移动设备至关重要的功效方面。

Jeff Dean 说 Tensorflow 是为每个人准备的，我们鼓励每个人使用它，并把他们的想法变成现实。

有趣的是，围绕这个项目的社区发展得如此之快。峰会会场挤满了来自不同公司、城市和背景的与会者。该活动是现场直播的，世界各地的许多 Tensorflow 社区，如纽约、马德里、阿姆斯特丹、开罗、吉隆坡和其他各种城市，组织了当地聚会来现场观看该活动。

但是为什么这么感兴趣呢？用 Tensorflow 可以做什么？做了什么？

应用程序

峰会期间有许多应用程序，如著名的日本黄瓜分类农场，其中通过形状选择黄瓜的过程由所有者手动执行，直到他们的儿子使用 Tensorflow、相机和树莓皮创建了一个自动分类器。

检测黄瓜的形状听起来很有趣，也很实用，但是我们还能检测什么呢？

Lily Peng 医学博士、博士兼谷歌研究院产品经理研究并开发了一种检测糖尿病视网膜病变的工具。这种疾病是世界上导致失明的主要原因之一。如果及时发现，它是可以治疗的，但在世界上的一些地方，如印度，缺乏眼科医生，45%的患者在能够接受诊断之前就遭受视力下降。

该网络在由 54 名眼科医生标记的 130，000 幅图像上进行训练，生成 880，000 幅标记图像的数据集。

她强调，工作的重点不再是机器学*部分，他们在预先训练的数据集上使用重新训练的、众所周知的架构，并将工作更多地转移到理解问题、获取数据和构建工具来优化这一过程。

Nature cover and article

使用 Tensorflow， Brett Kuprel 展示了他如何训练一个神经网络来检测皮肤癌，其表现优于一般的皮肤医生。发表在《自然》上的研究登上了封面。使用 Inception V3 模型训练神经网络，在 129K 个图像的数据集上进行迁移学*，其中约 2K 个图像是疾病(707 个癌，225 个黑色素瘤+ 1010 个黑色素瘤皮肤镜检查)。

How 20 Doctors classified around 100 images

一个有趣的方面是算法性能与所选皮肤科医生的比较。首先，这 20 名医生只分类了大约 100 张图像，(正如 Brett 评论的那样，他们有比分类成千上万张图像更好的事情要做)，其次，与机器(蓝线)相比，他们的性能是可变的(图中的红点)。

这项皮肤癌研究并不是第一次获得《自然》杂志的封面，谷歌 Deepmind 的另外两项技术过去也获得过。

Nature front page of deep learning algorithms

第一期和第二期《自然》封面由谷歌的 Deepmind 获得。第一场展示了 DQN，第二场展示了 AlphaGo，这是一个神经网络，能够击败人类世界冠军之一。

Deepmind 的研究工程师 Daniel Visertin 表示，Tensorflow 是实现的关键，因为训练这种神经网络的过程非常复杂。Deepmind 于 2016 年 4 月宣布全面采用 tensor flow。

AlphaGo 使用强化学*的理论来决定在特定状态下可能的行动中的最佳移动。这一决策过程也可以应用于其他场景，如通过调节冷却系统来优化数据中心的能源消耗。

Cooling System of Google’s Datacenter

建模是在模拟器中离线完成的，以确保算法不会开始尝试随机的事情，并可能摧毁数十亿美元的数据中心。该模型不仅使用可用的数据，而且还进行一些探索性分析，以便可以从人类操作员的基线进行改进。探索性分析对于找到更好的策略是很重要的(否则只会有操作人员已经在做的事情)。

Graph of the energy effectiveness after activating the model.

在初步研究和实施之后，该系统被打开，显示出电力使用效率 (PUE)的明显下降，导致数据中心的账单减少了 40%。

保持时间序列的主题，Deepmind 的另一大成就是创造了 Wavenet 。这种神经网络可以以前所未有的精确度将文本转换成语音和音乐。这个网络改变了以前在文本到语音合成中使用的范例，从使用预先录制的语音片段的连接/参数方法到直接产生声波的。使用【MOS】(MOS 是主观声音质量测试的标准衡量标准)，结果清楚地显示了性能的提高。

这个神经网络也能够生成完整的音乐波形！这些只是 Deepmind 团队在 2016 年取得的众多成果中的几个精选例子。

音乐和艺术生成的主题非常有趣，Tensorflow 有一个完整的项目致力于让所有艺术家都可以使用这项技术:Magenta 项目。

Magenta 是由谷歌大脑的研究科学家道格拉斯·埃克创造的，他回答了一个问题:深度学*和深度强化学*能否产生像音乐和艺术一样引人注目的媒体？

The Art exhibition by Mike Tyka that was installed at the event is an example of generative art.

谷歌大脑团队还通过他们的学*艺术风格的表现例子，设法改进了艺术风格的原始神经算法。虽然第一项工作发现了如何教会单个神经网络如何将风格从单个绘画转移到单个图片，但这项工作能够训练一个新的神经网络，它能够学*并同时应用一组不同的风格。

Tensorflow 对计算机视觉的另一个创造性应用是图像修复，卷积神经网络被训练生成任意图像区域的内容。图像的一部分被移除，并且神经网络能够从可用的环境中重建缺失的部分。

这种输入的概念也可以应用于音乐，给定一组乐曲的音轨，神经网络可以以与歌曲其余部分合拍的方式填充空白部分。

Example of counterpoint generation from music context

神经网络可以诊断皮肤癌，可以玩游戏，可以管理数据中心，可以说话，甚至可以播放音乐。那为什么不自己编程呢？我们当然有这方面的神经网络！

学*用梯度下降法学*用梯度下降法学*和用强化学*的神经架构搜索是神经网络自身产生和改进神经网络的两个例子。

这里的想法是使用 AlphaGo 中相同的决策原则，但不是进行游戏移动，而是网络试图决定在定义神经网络的操作序列中使用什么数学函数。

神经架构搜索神经网络生成了一个名为 NASCell 的新细胞，它优于之前所有人类生成的细胞，以至于已经可以在 Tensorflow 中使用。神经网络的这种特殊应用真正引起了我的兴趣和兴奋，因为每次神经网络优化技术有所改进所有的神经网络都会立即改进，创建那些指数反馈循环，最终导致更接*“真正”人工智能预期的系统。

第一部分的结论

这是第一部分的结尾。我们讨论了 Tensorflow 项目的两个方面:社区和应用。在第 2 部分中，我将介绍工具和技术，在第 3 部分中，我将回顾部署策略。

这篇文章故意写得有点高，非专业读者也可以阅读。在接下来的文章中，我将更多地讨论框架的内部结构以及如何使用这些工具，看到更多的代码片段，可能还会展示一些操作视频。

如果你喜欢这篇文章，你想知道下一部分什么时候出来，请在 medium 和 twitter 上关注我，不要忘记分享这篇文章:)

保持饥饿，保持愚蠢，保持关注

关于数据科学，什么样的纸牌屋是正确的(和错误的)

原文：https://towardsdatascience.com/what-house-of-cards-got-right-and-wrong-about-data-science-41218f69c7f5?source=collection_archive---------2-----------------------

鉴于最*发布的两部《纸牌屋》第五季预告片和即将发布的值得狂欢的《T4》网飞系列第五季，这是做两件事的绝佳机会:

观看(或重新观看！)立即串联。
回顾一下《纸牌屋》第四季如何使用数据科学家，以及他的工作如何很好地反映了现实世界的数据科学。

剧透预告: 本帖包括《纸牌屋》第四季之前的剧透。如果你还没有看完第四季，我建议就此打住。

快速回顾:

在第三季和第四季中，弗朗西斯·安德伍德(凯文·史派西饰)是美国总统。他和妻子克莱尔·安德伍德(罗宾·怀特饰)分别以总统和副总统的身份竞选 2016 年总统大选。他们聘请琳恩·哈维(内芙·坎贝尔饰)担任竞选经理，负责监督和管理他们的总统竞选活动。她聘请艾丹·麦卡伦(达米安·杨饰)担任竞选活动的数据科学家，他的工作是收集选民的数据和信息，以便做出更好的竞选决策。

你可以在这里 找到第 1-4 季 更详细的总结。

小组讨论

总统的幕僚长道格·斯坦普(Doug Stamper)认为，安德伍德总统选择他的妻子作为竞选伙伴将会是竞选的一场灾难。即将成为竞选经理的 Leann Harvey 反对他使用焦点小组作为证据:

丽安:你做了一些民意调查，那又怎么样？

道格:焦点小组也是。

丽安:毫无意义。

《纸牌屋》做对了什么:焦点小组通常由 30 人组成，他们坐在一个房间里，被问及对一个人、一个想法或刚刚看完的一个广告的感受。Leann 是正确的，焦点小组并不能很好地反映人们会如何投票；如果我们对 30 名随机投票者进行投票，该投票的误差率将高达 18% 。(相比之下，美国大多数总统民调的误差率在 4%左右。)18%的误差率意味着你的选举预测将非常不精确。例如，一项民意调查显示 60%的人会投票给克林顿，误差率为 18%，这意味着美国人投票给克林顿的“真实比例”估计在 42%到 78%之间！用一个焦点小组作为证据来证明为什么克莱尔会成为一个好的或坏的副总统候选人，嗯，有点傻，不是一个好主意。

此外，焦点小组包括参与者之间的讨论。在这些讨论中，人们经常改变他们的想法或说出一个在群体中似乎受欢迎的观点，即使他们实际上并没有这样的感觉。心理学家 Solomon Asch 对这个想法进行了一项臭名昭著的研究。如果你以前在美国投过票，你就会知道你是独自去投票站，在没有其他人压力的情况下做出决定的。这表明焦点小组没有提供选举结果的准确估计——因为他们没有反映我们实际投票的情况！

《纸牌屋》出了什么问题:正如 Leann 所说，尽管焦点小组对选举结果既不提供准确的估计，也不提供精确的估计，但这并不意味着它们完全没有意义。焦点小组通常用于定性研究:例如，人们如何感知信息或人们如何对他人的意见做出反应。听取焦点小组成员对他们刚刚观看的广告的反应，可以洞察例如一个家庭或一群朋友如果在家观看广告可能会有什么反应。理解参与者反应的言辞和想法对营销人员或政治家来说是非常宝贵的。

Ken Bone, American hero and global meme.

监督学*

背景:数据科学家 Aidan Macallan 和活动经理 Leann Harvey 在一家爵士乐俱乐部会面，背景音乐是表演者的演奏。Leann 想知道安德伍德夫妇需要做些什么才能赢得更多的选票，但 Aidan 还没有找到任何答案。

Leann:“我们给了你权限——我需要的比我们得到的更多。你应该告诉我人们想要什么。”

艾丹:“直到第一次听到爵士乐，人们才知道他们想要爵士乐。我可以让他们喜欢这音乐——我不会作曲。给我一些我可以用的东西。”

Claire Underwood discovering “beyond” in South Dakota.

正如 Aidan 和 Leann 讨论的那样，Aidan 没有能力为 Underwoods 在竞选中说些什么……但是一旦 Frank 和 Claire 说了一些能引起选民共鸣的话，Aidan 就能抓住选民的情绪，鼓励 Underwoods 一遍又一遍地说。艾登发现克莱尔在南达科他州的一次演讲中使用了“超越”这个词，开始让选民转向安德伍德一家。然后他们尽可能频繁地使用“超越”这个词——交谈

纸牌屋做对了什么:数据科学不是魔法。在现实世界中，如果我们想测试一个政治广告是否会使选民转向一个方向，首先必须有人制作这个广告， ，然后 ，我们可以运行一个实验来测试它。这不仅限于政治。实验(在非学术环境中通常称为 A/B 测试)在许多领域都很常见，包括临床试验、网站布局以及电子邮件营销活动。

在没有观察到选民更有可能投票给你的任何情况下，预测会导致选民投票给你的情况是可以理解的困难。艾丹的观点是，他无法预测选民会开始改变主意的情况，但一旦他观察到选民改变主意，他就能确定为什么会发生这种情况。(在数据科学中，我们使用术语监督学*来指代类似这样的情况，我们已经观察到一些输出，如增加的投票者认可。)

虽然“超越”这个词对于选民“想听的”来说可能是一个奇怪的选择，但 2016 年美国总统大选中有许多词可能有助于打动选民。想想唐纳德·特朗普给那些反对他的人起的绰号:

说谎的泰德(克鲁兹)
小马可(卢比奥)
高飞·伊丽莎白·沃伦
弯曲的希拉里(克林顿)
低能杰布(布什)

知道哪些词语会对选民产生影响对竞选公职的人来说是无价的。

什么纸牌屋出了问题:数据科学家可以在这个问题上取得进展，而不需要一个特别好的广告或短语。想想超级碗广告中的常见主题——狗、情感诉求和政治主题似乎是谈论最多的广告主题。数据科学家可以使用像回归这样的机器学*技术来查看什么产生了最多的流量，即使他们还不能检测出什么会导致选民以特定的方式投票。类似地，数据科学家可以观察现有的政治广告，试图区分什么是“好”广告，什么是“坏”广告。

使聚集

背景:数据科学家艾丹·麦卡伦(Aidan Macallan)正在推销他的分析公司，以赢得一份美国国家安全局的合同，该合同监控所有美国人的手机，以识别和跟踪潜在的恐怖分子。(然而，安德伍德夫妇希望利用这些数据来确保他们赢得选举。)

What data scientists do when their code is running.

艾丹:以枪支为例。如果我们从每个合法拥有枪支的人开始，通过他们的手机追踪地理定位模式，我们就开始描绘出枪支拥有者的生活、饮食、购物等一切。由此，我们预测了每个可能想要枪支但没有登记的人。他们可能会表现出和正常人一样的行为。你可以用它来帮助那些对阿拉伯语感兴趣的人，那些想去中东旅行的人，那些对美国政府失望的人。

《纸牌屋》做对了什么:数据科学家确实可以使用技术来找到符合某一类别的个人。在缺乏“拥有枪支”和“绝对不想拥有枪支”这两个类别的实际数据的情况下，数据科学家可能会使用聚类分析来识别不同的选民群体，了解枪支所有者倾向于在哪里生活、吃饭和购物，然后开始关注那些在相同地方生活、吃饭和购物但没有枪支的人。聚类分析包括查看数据，并通过观察看起来彼此“接*”的观察结果或个人来识别组。一个经常被引用的聚类分析的真实例子是，Target 的统计学家在一个女孩的父亲知道她怀孕之前就知道她怀孕了，因为她的购物*惯与其他孕妇相匹配(理解为“接*”)。

什么纸牌屋出了问题:某人把手机放在哪里——也就是艾丹提到的地理定位模式——并不是数据科学家进行预测的唯一方法。事实上，目标怀孕预测模型是基于购物*惯。数据科学家将经常使用购买历史和人口统计信息等变量来组织消费者、投票者，甚至基于他们的“相似”程度来组织字体。一个很酷的例子是Ideo设计的这个字体地图，它依靠人工智能来直观地布局不同字体有多相似。

Credit to Joseph Nelson for putting this GIF (pronounced “jif”) together.

结论

总而言之，《纸牌屋》在展现最佳数据科学实践方面做得很好。该节目的编剧没有将数据科学视为解决故事的杀手锏。老实说，“纸牌屋出了什么错”主要是为了更完整地描述数据科学是如何运作的，而不是展示者的错误陈述。对于一个组织来说，这并不奇怪，因为它不仅雇佣了数据科学家，还举办了一场挑战，利用数据科学来改进推荐算法。

我的意思是，即使是克莱尔·安德伍德也知道价值观是怎么回事。

Ba-dum-tiss.

感谢约瑟夫·尼尔森、劳拉·李波芙和丽贝卡·路易的编辑，这篇文章有了很大的改进！

我从 Udacity 自动驾驶汽车纳米学位项目第一学期学到的东西。

原文：https://towardsdatascience.com/what-i-have-learned-from-the-first-term-of-udacity-self-driving-car-nanodegree-program-7d36b011f300?source=collection_archive---------0-----------------------

我叫哈迪·阿布·斯内赫，来自约旦安曼。我曾在德国约旦大学学*机电一体化工程。我决定接受挑战，参加 Udacity 自动驾驶汽车项目。在德国生活了一年半之后，促使我寻找替代方案，并思考解决我们在约旦遇到的事故和驾驶心态的方法。在这篇文章中，我将简要说明我的项目是关于什么的，以及我在第一学期学到了什么。

注意:所有代码都是用 Python 编程语言编写的，使用了一些有用的库，如 OpenCV。

项目 1:寻找道路上的车道线:

第一个项目是机器视觉和基本图像处理方法的基本介绍。这个项目的目的是使用基本算法检测视频中的车道线。这个项目的目标是提供对图像处理和计算机视觉中使用的重要算法和方法的良好理解，例如:

Canny 边缘检测:这是一种用于检测图像边缘的算法。有关此方法的更多信息，请点击此处。
区域屏蔽:该函数用于拟合多项式，屏蔽图像中不需要的部分，以便只显示感兴趣的区域(ROI)。例如:

Unmasked image on the left vs. the ROI image on the right

3.霍夫空间(Hough space ):通常，在图像空间中绘制图像，将图像上的每个点表示为 X 对 1962 年，Paul hough 发现了一种表示图像的新方法。新的空间被称为霍夫空间，其以笛卡尔形式用 m 对 b 或者以极坐标形式用 r 对θ来表示每个图像。图像空间中的一条线由 Y=mX+b 表示。这意味着图像空间中的每一条线由一个点表示。这种变换有助于找到图像中线条之间的关系。为了成功地执行霍夫变换并检测正确的线，需要注意不同的参数。有关此转换的更多信息，请点击此处并检查 OpenCV 中的函数，请点击此处。

4.在实现代码之前，需要将图像转换为灰度图像，而不是红绿蓝(RGB)色彩空间。高斯模糊也用于模糊图像并去除图像中存在的一些噪声。

在使用霍夫变换找到霍夫线之后，基于它们的斜率和位置过滤这些线，以确保检测到的线仅仅是车道线。您可以在管道中的 draw_lines 函数中看到这一点。

第一个项目的代码可以在我的 Github 库这里看到。

这是第一个项目的最终结果:

Lane line detection video.

项目 2:交通标志识别分类器:

第二个项目侧重于不同的原则，即神经网络(NN)。我会试着在这里简单地解释一下，但是我也会提供一些有用的链接给你查看。

首先，深度学*使用算法和多层来提取特征、学*和预测结果。神经网络是一种深度学*方法，用于教会计算机预测特定的结果。

神经网络由不同平行层组成。每层由一个或多个节点组成。一个节点包含一个特定的数学运算。神经网络的输入称为特征。它们代表从比如说一幅图像中提取的选定信息。例如:图像的像素值。输出是图像的结果，称为标签。例如:指定图像中的物体是什么(狗、猫等)。像素值进入节点，并乘以随机权重，以创建表示图像像素之间关系的数学方程。这些特征进入不同的节点，从而产生不同的方程和不同的关系。

This is an example of a simple Neural Network.

节点还包含激活功能，以确定是否触发网络中的下一个节点，例如:如果结果> 0，则激活下一个节点，如果< 0，例如-0.5，则将其设为 0，不激活下一个节点。

开始时，网络将完成一次转发。结果不会非常准确，因为等式的权重是随机的，这意味着我们可能最终会放大不太重要的特征，并减少更重要的特征(在等式中，w=2 会使特征加倍，而 w=0.5 会将其减半)。因此，计算误差或均方误差将显示预测结果与实际结果的差距。为了获得更小的误差，我们需要更新权重，以获得最小的误差。换句话说，我们的目标是通过在下面的图像中更深入来降低梯度，直到梯度几乎为零。这是梯度下降。

Example of the gradient descent to reduce error. The goal is to reach the bottom (Gradient of almost Zero).

为了更新权重，有一个称为反向传播的过程。它使用在网络末端获得的误差，并且主要使用链规则来寻找每个节点处的误差和梯度。因此，网络向前，找到误差，然后向后更新权重，并一直这样做，直到达到最小均方误差。

在更高级的网络中，任何预测的结果都将是多个标签。每个都有正确结果的概率和误差。因此，在其他标签中，最大的概率和最小的误差应该是正确的猜测。有不同的程序和算法用于提高神经网络的效率和准确性，例如 softmax 函数，它将网络的输出转换成概率。

因此，由标签矩阵 Y 表示的 NN 的标签是等式 Y=Xw+b 的结果，其中 b 是偏差，X 是特征矩阵，w 是整个网络的权重矩阵。在训练过程中，X 中的每一行代表图像像素。要训练网络，必须有一个具有已知标签的大型数据集，以便您可以向网络输入 x。首先，权重将是随机的，当计算与已知 Y 相比的误差时，权重会更新等等。在训练网络之后，通过向网络提供新的图像(X)并使用网络应该能够成功预测结果的更新的权重(标记 Y)来测试网络。完成该操作后，计算精度。

因为数据集非常大，所以矩阵 X 会非常大。这意味着使用普通计算机 CPU 训练网络将花费大量时间，而使用 GPU 要快得多。

训练网络的目标是泛化。我们需要创建一个足够通用的网络来预测任何新的观察结果并给出正确的结果。需要避免的一个重要情况是过度拟合。你可以认为过度拟合是一个网络，它在与训练过的网络相似的观察(图像)中表现得非常好。但是一旦给出一个新的稍微不同的图像，结果就变得不对了。因此，该网络不能推广到成功预测不同的给定。这也意味着训练误差很低，而测试误差很高。应该防止这种情况，这种情况在许多情况下都会发生，例如增加历元数。在神经网络的训练中，历元是向前一遍和向后一遍。另一个原因是通过使用与训练数据相同的数据来测试网络。

A plot shows how overfitting affects the test results.

神经网络有许多参数可以调整以达到最佳精度。例如:改变历元数或学*率。学*率是在每个时期更新权重的速率。

关于神经网络 NNs 或者甚至非常相似的卷积神经网络 CNN 的进一步信息，我推荐这些链接:

用于视觉识别的卷积神经网络
CS231N —卷积神经网络

不同的公司和组织创建了 CNN 架构，将节点组合在一起，以产生最佳效果。我使用 LeNet 架构实现了我的项目，这是一个非常简单的 CNN，可以提供合理的准确性。

该项目是关于创建一个交通标志分类器，它能够识别汽车前置摄像头检测到的不同交通标志，并区分它们。正如你从下图中看到的，分类器能够对我从互联网上随机选择的交通标志图像进行分类。

Result of the traffic sign classifier in predicting traffic sign images.

要查看我的项目报告，其中我解释了所有实施的步骤和结果，请按此处。并点击此处查看我的项目管道。

项目 3:行为克隆:

这个项目的目标是建立一个能够克隆汽车行为的 CNN。通过模拟器，汽车在轨道上行驶。汽车的前窗装有摄像头。摄像机的转向角度和图像可以在任何位置记录并保存。分类器将图像作为特征，将转向角作为 CNN 的标签。在使用用户保存的所有数据集(记录的图像和赛道上的转向角度)训练网络之后，汽车应该能够在从相机获取图像作为输入时，通过预测转向角度，在相同的赛道上自动驾驶。

为了能够构建高效的 CNN，使用了 Keras，这是一种基于 Tensorflow 构建的高级神经网络 API。如果你点击这里，你可以看到我用来实现让汽车自动驾驶的代码。

下面是汽车在自主模式下的视频:

要看我写的关于这个项目的报告，请点击这里。

项目 4:高级车道线查找:

Udacity 的第一个项目是寻找车道线。该项目使用先进的算法，能够在阴影等关键情况下预测车道线。

为了做到这一点，汽车的摄像头应该进行校准，以确保图像没有失真。这是通过计算摄像机矩阵和失真系数来完成的。我将在本节末尾的报告中对此进行解释。

要学*的一件非常重要的事情是色彩空间。它是一个数学模型，表示每个图像中使用的颜色系统。一个著名的颜色系统是 RGB(红绿蓝)，它使用不同强度值的红绿蓝颜色来表示和形成任何颜色。每个图像中使用不同的颜色空间，例如 HSV(色调、值和饱和度)。

RGB color space vs. HSV color space.

所以为了提取特定的信息，我们可以使用不同的颜色空间，甚至不同的通道。例如，如果我们从 RGB 和 HSV 颜色空间中提取红色通道和 S 通道，则黄色油漆的车道线比在不同通道中更有可能出现。组合最佳通道有助于增加在图像中找到所需信息的可能性。

另一种在图像中寻找直线或边缘的方法是使用 Canny 边缘检测方法。这种算法的核心依赖于所谓的 Sobel 算子。将这些运算符应用于图像类似于在 X 和 y 方向上对图像求导。这可用于找到边缘的大小，甚至它们的方向，这将有助于找到它们。这也可以与颜色空间相结合，以提高我们的检测算法的效率。(在我的例子中，我将红色通道、S 通道和 X 方向的梯度与特定阈值相结合，以检测车道线)。这也将在本节末尾的报告中解释。

A binary image resulting from combining images from (Gradient X, S channel and the Red channel)

在将彩色图像转换成二值图像后，图像被扭曲成鸟瞰图像。扭曲图像是通过透视变换完成的，也就是将一个对象从一个透视变换到另一个透视。在我们的例子中，我们希望将图像的一部分从正常视角转换为鸟瞰视角，在正常视角下，我们看到的物体比其他物体更大，而在鸟瞰视角下，我们从上方看到物体。这是通过在图像中指定四个点来完成的(应该创建一个梯形)。彼此靠*的两个点将被进一步处理，这将把梯形转换成正方形/矩形。

Warped image (right) vs. an original image with trapezoidal shape (left)

这种扭曲将有助于找到街道上线条的曲率。因此，在扭曲图像后，我们将能够在车道线上拟合多项式。这主要是通过找到直方图中的峰值(白线代表二进制图像中的峰值)，然后在图像中滑动窗口以覆盖这些线来完成的。之后，在直线上拟合一个多项式。这是窗口和多项式的样子:

Polynomial fit on the lane lines that are covered by the sliding windows. (they are colored for demonstration)

这将使计算线条的半径并在视频中突出显示它们变得更加容易。下面的视频显示了高亮显示车道线的结果。

看一下这个项目的报告。请点击这里。并且在这里按看一下代码管道。

项目 5:车辆检测:

第一学期的最后一个也是第五个项目是写一个程序，通过在每个检测到的车辆上画一个包围盒来检测车辆。该项目是使用支持向量机 SVM 完成的，这是一种用于分类和区分不同类别的分类器。在这种情况下，分类器将图像的多个特征作为输入，并学*将它们分为两类，汽车和非汽车。

提取图像特征有不同的方法。第一个 HOG 特征是梯度直方图，寻找图像像素的梯度方向。第二是计算每个通道的颜色直方图。通过计算，你将得到从 0 到 255 的每个通道的直方图。

因为车辆有特殊的特性，比如闪亮的油漆。更好的做法是检查在提取特征和识别每幅图像时能够给出最佳结果的最佳颜色空间。特征提取应用于 cars 图像数据集和非 cars 图像数据集，之后它们被保存在两个数组中。然后应用 SVM，并计算新训练的分类器的准确度。

不，我们能够识别汽车图像。下一步是能够在包含多个对象的图像中找到汽车。一个简单的方法是在图像上滑动一个特定大小的窗口，搜索里面是否有汽车。最有效的方法是提取整幅图像的 HOG 特征，然后对图像进行二次采样并搜索汽车。要确定检测到的对象是汽车，最好创建不同大小的窗口。这将增加检测汽车的概率。换句话说，汽车将被检测多次，而非汽车对象将被检测一次。这将有助于移除所有不需要的对象。这些被称为假阳性。

False positives (left) vs. Cars successfully detected by different windows (right)

如果你能在图像中看到树的影子，软件就会认为那辆车就在那里。消除误报将有助于提高软件的准确性，并将只保留被多个窗口检测到的对象。这是通过将热图应用到分类器来完成的，该分类器将热量添加到窗口内的每个像素。在有多个窗户的地方热量会增加，而在只有一个窗户的地方热量会保持不变。这在管道中用于消除所有误报。

请点击点击查看项目报告。并且还点击这里的来检查管道。****

下面是我能得到的结果的视频:

到目前为止我对机器学*的理解

原文：https://towardsdatascience.com/what-i-have-understood-about-machine-learning-so-far-836d814dbe84?source=collection_archive---------6-----------------------

每当我想到机器学*或人工智能，我都会想起这句流行的名言——

“人类大脑有 1000 亿个神经元，每个神经元与 1 万个其他神经元相连。坐在你的肩膀上是已知宇宙中最复杂的物体。”

这句话简单地解释了人类大脑的复杂性，人类大脑由数十亿个被称为神经元、神经元的思维单元组成，大脑中的单个神经元通过被称为轴突的电线连接到其他几个神经元，这些轴突为电脉冲提供了在单个神经元之间移动的路径，因此知识在我们的大脑中以电脉冲的形式移动。

人脑是如何影响机器学*的？

正如你们许多人所知，人工智能是目前最热门的研究领域之一，它主要涉及人工智能系统的创造。我们人类是聪明的，因为我们有能力获取知识，这是智能的核心部分，实际上计算机很难获取知识，因为它们只是由沙子(硅)制成的，但它们如何学*和获取知识呢？他们如何变得聪明？在不久的将来，他们如何获得影响我们日常生活的潜力？答案很简单..因为机器学*才有可能！！

所以机器学*是让人类创造人工智能系统的东西。(就好像 AI 是名词，机器学*是动词一样)。有许多机器学*的方法，但由于这样或那样的原因，它们都失败了。为什么？因为他们没有提供一个通用的学*方法。当人类开始理解大脑实际上是如何学*的时候，真正的革命就开始了，我们称之为知识金字塔，它代表了不同层次的知识表达。

我们举个例子来了解一下这个知识金字塔。假设你正在看一张电影海报，每当你看到你周围的一些物体时，你眼睛的视网膜能够产生你所看到的电脉冲。这些脉冲被称为数据(知识金字塔的最底层)，默认情况下，数据没有任何意义，大脑中第一级神经元的责任是从中形成一些有意义的形状。因此，第一级神经元将电脉冲视为像素，这些像素可以以多种方式一起摸索，形成许多内部表示。这些表示我们称之为信息。但是光有信息还不足以获得你所看到的完整画面。众所周知，电影海报是一个长方形，但有许多物体可以类似电影海报的形状(可以是电影屏幕、电脑屏幕或任何东西)，所以你需要了解物体是电影海报。更高级别的神经元负责从现有知识中提取你所看到的意义。我们称之为机器学*中的推理。人脑内部将你看到的电影海报与你之前的经历进行匹配，以确定它到底是什么。

所以当你看这张图片的时候，你可以说这是《权力的游戏》,因为你以前就知道《权力的游戏》,而对于一个从未看过《权力的游戏》的人来说，这真的很难。这就是人脑识别物体的方式。同样的知识金字塔可以用来学*任何东西。这是主要影响机器学*的概念。

机器学*的类型:

有 3 种类型的学*:

1.监督学*:在监督学*中，我们通过展示 1000 个例子来训练一个 ML 模型。例如，为了让计算机识别猫，我们展示成千上万只猫的图像。这样它就能知道猫到底长什么样。

2.无监督学*:在无监督学*中，我们不需要展示例子。电脑可以自己学*，这就是我们大脑的工作方式。

3.强化学*:这可以简单地定义为“从错误中学*”，计算机执行数以千计的试错步骤，以学*实现目标的最佳技术。强化学*可以用来构建智能游戏机器人。

一个简单的神经网络:

因此，让我们建立一个简单的神经网络，在旅途中，我会向你解释它如何与人脑相关。

看一下上图。它被称为具有一个隐藏层的前馈神经网络。输入层是我们给出输入的地方，输出层是我们得到预测结果的地方。例如，如果我们在输入层输入一幅猫的图像，我们在输出层得到猫的预测。正如你在图中看到的，神经元之间的连接叫做边缘。一条边将当前层的一个神经元与下一层的所有神经元连接起来。因此，边类似于人脑中的轴突，网络中的每个节点类似于人脑中的一个神经元。神经网络可以有 n 层，称为隐藏层，如下所示:

学*只是一种数学优化:

上面的结构默认不学任何东西。所以我们应该有让神经网络学*的东西。图中的每条边都被赋予一个叫做权重的值。开始时，我们随机分配权重。在学*过程中，学*算法调整每条边的权重，以获得期望的输出。学*算法基本上使用诸如梯度下降的优化器来优化权重。

输入输出表示:

当我们训练神经网络时，我们以向量(X，Y)的形式定义输入和期望输出，其中 X 是所有输入值的集合，Y 是期望输出。X 可以表示为一组输入 X = {x1，x2，x3…xn}。应该有一个神经元接受 X 的每个输入值。例如，如果 X = { x1，x2}，则应该有 2 个输入神经元。y 是输出向量，向量 W 表示分配给流出神经元的每个边缘的一组权重。W = {w1，w2，w3…}。在每次迭代中，X 向量与 W 向量相乘，并加上一个称为 Bias 的值。因此，表达式可以写成 W*X + b，然后将值传递给激活函数。

使用激活功能:

概率是一种重要的数学工具，可以用来确定一个事件是否可能发生。例如，如果我们向神经网络输入一幅猫的图像，那么猫出现的概率就很高。如果 yi Y 是代表猫的类，而 yj Y 是代表狗的类，那么如果输入是猫的图像，则 yi 具有更高的概率。必须有一种技术将 x*w+b 值转换为概率分布，这可以通过使用一个称为 sigmoid 的数学函数来完成， sigmoid 在数学上表示为

sigmoid 函数总是产生 0 到 1.0 范围内的值。x 值越高，sigmoid 将返回值≈ 1，因此我们可以说该特征更有可能存在。这里，X 值是通过将 X*W 与偏差相加得到的。因此权重对乙状结肠功能的结果有较大的影响。由于我们随机分配权重，我们不会得到适当的输出。因此我们计算误差并优化权重以最小化误差。这是通过梯度下降和反向传播实现的。

确定输出误差，并使用梯度下降法降低误差:

到目前为止，我们所学到的可以总结在下面的图片中

我们只是将输入向量 X 的每个值(X)与权重向量 W 的每个权重(W)相乘，并添加一个偏差(对所有输入值和权重都是如此)，然后使用 sigmoid 将结果转换为概率分布。

在应用 sigmoid 之后，我们得到一个预测的输出概率，这个值与最后一层的权重相乘，一起产生一个预测的输出。为了计算误差，我们必须将预测输出与期望输出进行比较，这可以使用许多方法来完成，下面给出了其中一种方法..

该表达式根据预测输出和期望输出之间的欧几里德距离计算误差，然后对其进行平方，通过消除负号来获得平均误差。这个误差值也称为损失或成本，在开始时是最大值。随着训练的继续，损失会最小化。怎么会？

当我们仔细观察误差公式时，我们可以说，当 y ≈ y 时，误差 E 将最小或几乎为 0。这只有在我们优化权重时才会发生，这意味着我们必须回到神经网络并调整权重。梯度下降和反向传播帮助我们做到这一点。

梯度下降:

微积分几乎应用于所有的科学领域。梯度下降如果你微积分好的话可以很好理解。梯度下降有助于优化权重。w 值代表为了优化而必须应用的重量变化。w 可以是正数，也可以是负数。在训练过程的每一次迭代中，梯度下降确定 w 的值，然后 w 被加上与单个神经元相关联的权重。在此之前，我们必须确定需要优化的权重，这可以使用反向传播算法来完成，一旦我们确定了神经元，我们回到那里执行 w+∏w，我们可以从数学上认为∏w 是 w 的一个小变化，因此权重在每次迭代期间得到小范围的优化。

N 个输出类的误差函数可由下式给出:

我们得到损失函数的偏导数:

wij(k)可以通过反向传播算法来确定。

从上图可以清楚地看出，存在一个最佳权重，其误差约为 0。学*算法的目标是使用梯度下降来优化权重，或者在数学意义上，损失函数的偏导数的斜率导致 w，并且它总是向最优权重移动。我们不强调梯度下降的数学公式，因为它需要大量的微积分知识。

反向传播算法及其在神经网络中的应用；

我们知道梯度下降是一个数学函数，可用于优化权重，但我们假设权重 w 是已知的，因此 w 可以应用于它，梯度下降对神经网络的现有权重没有任何概念，因此反向传播用于确定可以应用优化的权重 w。

计算图中的反向传播:

如果对 X 和 y 的任何有限向量明确定义了每个神经元的操作，则神经网络 N 可以表示为计算图。将 nn 表示为计算图非常有用，因为它们可以像数学表达式一样进行评估，并且适用于计算图的所有规则也可以应用于神经网络。计算图和反向传播的细节可以在这个链接找到:【http://colah.github.io/posts/2015-08-Backprop/

通俗地说，反向传播可以用来确定每个神经元的权重对输出的影响，这很好地帮助我们反向传播网络，并获得该神经元的 w。一旦 w 已知，我们就可以应用 w+∏w。

总结:

给定数据集(X，Y ),其中 X 是输入向量 X={x1，x2…xn}和 Y ={ y1，y2…}，其中 X 是输入训练样本，Y 是输出标签集，N 是执行函数 f:N(X)→Y 的神经网络，其中 Y 是包含一组预测输出的向量 Y = { y1，y2…yn }, W 被称为权重矩阵，并在开始时被随机分配，f:N(X)执行以下函数:

在每个神经元上对 xi 进行一些运算，然后乘以权重 wi (xi 和 wi 分别属于 X 和 W)。
将偏差 b 添加到产品中。
对输出 z= xw+b 应用一些激活函数，它可以是 sigmoid、softmax、ReLu、tanh 或任何其他函数。
这种操作在整个网络的每一层执行，这就是所谓的前向传播。
在输出层，为每个类产生 yi，(yi 属于 Y)。
计算误差函数 E(Y，Y)。
通过应用反向传播和梯度下降来调整权重矩阵 W 的值，从而最小化损失。
重复以上所有步骤，直到 E ≈ 0。

通过这种方式，可以训练网络执行一些智能动作。简单地说，我们可以将神经网络的基本操作定义为:

X "* "(？或 W) = Y

如果 X 是输入，Y 是输出，我们必须找到 W 或者？它必须和 X 一起使用才能产生 y。

这里代表 X 和 W 之间的一系列数学运算，“”一般是不存在逆的非线性运算。

这只是神经网络的理论介绍。将来会涵盖更多内容。

谢谢你，☺

我在硅谷学到的人工智能

原文：https://towardsdatascience.com/what-i-learned-about-artificial-intelligence-in-silicon-valley-7d30b47ab751?source=collection_archive---------3-----------------------

上周，我在加州帕洛阿尔托的技术革命中心呆了一周。我去过机器人大会，AI 研讨会，深度学*讲座，虚拟助理演示。

我了解到人工智能无处不在，虽然它已经融入了我们的日常生活，但我们还没有看到任何东西…

为什么是现在？人工智能一词是由约翰·麦卡锡在 1956 年的达特茅斯会议上提出的，在过去的几十年里，它经历了两个“冬天”，一个在 70 年代，一个在 90 年代。软件和硬件的问题受到了冲击，留给了学者去解决。

“我们正在从移动优先的世界向人工智能优先的世界发展”,谷歌首席执行官桑德尔·皮帅

有三种不同类型的人工智能:

人工狭义智能——一匹只会一招的小马，它们可以下棋、识别人脸或翻译外语

AGI——人工通用智能——能够将智能应用于任何问题。

ASI——人工超级智能——比最好的人类大脑更聪明，能够将其应用于任何事情。(这是斯蒂芬·霍金和埃隆·马斯克这样的人害怕的人工智能)

由于以下三个因素，人工智能最终能够发挥其全部潜力:

GPU 功耗和成本
大数据
算法复杂性和效率

GPU 功耗和成本

随着 NVIDIA 在 2007 年发明 CUDA，一种允许图形处理单元(GPU)用于计算和 3D 渲染的 API，一种更强大的处理方法被创建出来。最初用于视频和游戏软件，现在用于机器学*，这是人工智能的核心。

CPU 由几个针对顺序串行处理进行优化的内核组成，而 GPU 则具有大规模并行架构，由数千个更小、更高效的内核组成，旨在同时处理多项任务。

大数据

人类在过去两年中创造的数据比人类历史上的总和还要多。每分钟有 300 个小时的视频被上传到 YouTube，每秒钟有 40，000 次谷歌搜索，在脸书每分钟有 510，000 条评论被发布，293，000 条状态被更新，136，000 张照片被上传。

以及健康数据、银行业务、短信、电子邮件、照片等等，这些数据让计算机以惊人的速度进行学*。

算法复杂性和效率

计算机过去由程序员编程，有特定的输出设置。现在，随着处理器能力和大数据的可用，数据和所需的输出可以输入计算机，而计算机不需要编程。

例如，你可以将一百万张动物照片输入电脑，根据学*的类型，有监督的或无监督的，你可以将这些照片分类:猫、狗、马等等。到那时，你就可以停止贴标签，计算机将能够自己识别一只猫。

实际上，机器学*就像教孩子，孩子通过观察和经验学*，计算机使用数据而不是经验，并在失败时继续测试自己，重新测试，学*和理解。

应用程序

人工智能能够做一些不可思议的事情，其中一些我已经了解如下:

翻译

谷歌最*发布了 Pixel Buds，可以进行 40 种语言的实时语音翻译。他们使用谷歌助手语音识别和翻译服务。

娱乐

网飞推荐了你。

网飞将观众分成两千多个口味组。你在哪一个决定了你得到的建议。网飞的工作人员观看每一个节目的每一分钟，并标记发生的一切，例如打架、接吻、争吵等，然后网飞算法根据你“竖起大拇指”或在两个晚上狂看的节目显示建议

自动驾驶汽车

人工智能允许自动驾驶汽车根据交通、环境、路况、天气等做出数以千计的决定。你可以在这里阅读我关于自动驾驶汽车未来的文章。

卫生保健

斯坦福大学的研究人员创造了一种可以像专业医生一样识别皮肤癌的人工智能。该程序使用深度学*对* 13 万张痣、皮疹和病变的图像进行了训练。它的创造者说，它的表现与人类一样准确(“至少”91%一样好)。

数字助理

Just some of the digital assistants available today.

最*出现了一个完整的数字助理世界，Siri、Cortana、Alexa、谷歌助理，事实上到 2021 年，它们将超过世界人口。这已经开始了一个新的#noui 系统的状态，我将在我们的下一个寓言中谈到，在这里订票。

物联网(IOT)

人工智能可以通过 IOT 改善一切，它可以预测你什么时候回家并打开暖气，什么时候睡觉并调暗灯光，什么时候你将用完牛奶和鸡蛋……任何与互联网连接的东西都可以受益于数据、学*和最终的智能。

未来

The future of AI?

任何技术都可能是一把双刃剑…人工智能可以解决所有的人类问题:贫困、不平等和气候变化，或者它可能是人类的末日。

谷歌人工智能主管 Ray Kersell 认为奇点可能会在 2029 年到来。奇点理论认为，人工智能将超越人类智能，并将突然引发失控的技术增长，从而给人类文明带来不可估量的变化。

失业

人工智能和机器人肯定会失去工作，电话销售员、收银员、法律助理、出租车司机、快餐厨师都将受到威胁。但是我们以前见过这种情况，动物被引入农业，机器首次进入生产线。我们适应，我们调整，我们找到新的工作让我们去做，例如，33.8 万人为谷歌、脸书、苹果、思科和甲骨文工作。事实上，仅在美国，就有 670 万人受雇于科技行业。这些工作在 30 年前并不存在。

Robopocalypse？

一些非常聪明和见多识广的人害怕 AI 会把我们带到哪里，一些同样聪明和见多识广的人认为我们应该 100%接受它。

埃隆·马斯克(特斯拉和 SpaceX 的首席执行官)、雷德·霍夫曼(LinkedIN 的创始人)和一小群互联网企业家成立了 openAI ，一家负责研究和俯瞰人工智能发展的公司。

“一旦开发出来，致命的自主武器将允许武装冲突以前所未有的规模和人类无法理解的速度进行。”埃隆·马斯克

马克·扎克伯格(脸书首席执行官)不同意，他说人工智能末日理论是不负责任的。

马克·扎克伯格说:“在未来的 5 到 10 年里，人工智能将会极大地改善我们的生活质量。”

那么，在不远的将来，人工智能会给我们带来什么呢？硅谷的专家认为，它将改变我们日常生活的每一个元素，从我们与他人互动的方式，到我们的家，我们的汽车等等。我非常期待看到它将带我们走向何方…

我从分析和可视化交通事故数据中学到了什么

原文：https://towardsdatascience.com/what-i-learned-from-analyzing-and-visualizing-traffic-accidents-data-7cd080a15c15?source=collection_archive---------1-----------------------

Source: Power BI

概观

美国国家公路交通安全管理局(NHTSA)向公众公开了一些非常有趣的数据。我下载了几个数据集，其中包含从 1994 年到 2015 年的致命机动车辆碰撞和死亡的信息。本分析的目的是探索并更好地理解影响车辆碰撞可能性的一些因素。

分析和可视化是用 R 语言完成的。r 是可怕的，因为你会发现。

数据

加载库

我将使用下面的库进行分析和可视化。为了保持文章简洁，我没有展示大部分数据清理和分析步骤的代码，但是和我所有的文章一样，代码可以在 Github 上找到。

library(XML)
library(RCurl)
library(rvest)
library(dplyr)
library(tidyr)
library(ggplot2)
library(ggthemes)
library(reshape)
library(treemap)

美国的交通死亡人数一直呈下降趋势。值得注意的是，2014 年的死亡人数(不到 33，000 人)远低于 2005 年的峰值(超过 43，000 人)。

ggplot(aes(x=Year, y=Val), data = df_long_total) + geom_line(size = 2.5, alpha = 0.7, color = "mediumseagreen", group=1) + 
  geom_point(size = 0.5) + 
  ggtitle('Total Number of Accidents and Fatalities in the US 1994 - 2015') +
  ylab('count') +
  xlab('Year') +
  theme_economist_white()

Figure 1

而且上述数字还没有考虑到路上不断增加的汽车数量。美国人开车比以往任何时候都多。

ggplot(aes(x=Year, y=Val), data = df_long_travel) + geom_line(size = 2.5, alpha = 0.7, color = "mediumseagreen", group=1) + 
  geom_point(size = 0.5) + 
  ggtitle('Total Vehicle Miles Traveled 1994 - 2015') +
  ylab('Billion Miles') +
  xlab('Year') +
  theme_economist_white()

Figure 2

2015 年各州交通死亡人数以及与 2014 年相比的百分比变化

state <- state[c('State', 2015, 2014, 'Percent.Change')]
newdata <- state[order(-state$`2015`),]
newdata

德克萨斯州在 2014 年和 2015 年都是美国交通死亡人数最多的州。
可以理解的是，交通死亡人数最少的州也是居民最少的州，包括哥伦比亚特区，其次是罗德岛州和佛蒙特州。

在全国范围内，每年男性的机动车事故死亡率高于女性(两倍以上)。

ggplot(aes(x = year, y=count, fill=killed), data=kill_full) +
  geom_bar(stat = 'identity', position = position_dodge()) + 
  xlab('Year') +
  ylab('Killed') +
  ggtitle('Number of Persons Killed in Traffic Accidents by Gender 1994 - 2015') + theme_economist_white()

Figure 3

25 至 34 岁年龄组的死亡人数最多。

age_full$age <- ordered(age_full$age, levels = c('< 5', '5 -- 9', '10 -- 15', '16 -- 20', '21 -- 24', '25 -- 34', '35 -- 44', '45 -- 54', '55 -- 64', '65 -- 74', '> 74'))
ggplot(aes(x = age, y=count), data =age_full) + geom_bar(stat = 'identity') +
  xlab('Age') +
  ylab('Number of Killed') +
  ggtitle('Fatalities Distribution by Age Group 1994 - 2015') + theme_economist_white()

Figure 4

从 2005 年到 2015 年，只有两个年龄组的死亡人数增加；55 比 64 和 65 比 74。16 至 20 岁和 35 至 44 岁年龄组的死亡率下降幅度最大。

ggplot(age_full, aes(x = year, y = count, colour = age)) + 
  geom_line() +
  geom_point() +
  facet_wrap(~age) + xlab('Year') +
  ggtitle('Traffic Fatalities by Age 1994 - 2015') + 
  theme(legend.position="none")

Figure 5

从这张树形图中，我们看到下午 3 点到 5 点 59 分和下午 6 点到 8 点 59 分死亡人数最多。让我们深入了解一下。

treemap(kill_by_hour_group, index=c("hours","variable"), vSize="sum_hour", type="index", fontsize.labels=c(15,12), title='Fatalities by time of the day', fontcolor.labels=c("white","orange"), fontface.labels=c(2,1), bg.labels=c("transparent"),  align.labels=list(
  c("center", "center"), c("right", "bottom")), overlap.labels=0.5, inflate.labels=F,
)

Figure 6

大多数事故发生在周六和周日的午夜到凌晨 2:59 之间。让我们更深入地探究一下原因。

ggplot(aes(x = variable, y = sum_hour, fill = hours), data = kill_by_hour_group) +
  geom_bar(stat = 'identity', position = position_dodge()) +
  xlab('Hours') +
  ylab('Total Fatalities') +
  ggtitle('Fatalities Distribution by Time of the Day and Day of the week 1994-2015') + theme_economist_white()

Figure 7

星期六和星期天的午夜到凌晨 2 点 59 分是许多人离开酒吧的时间。我们还要说多少次，不要酒后驾车？

ggplot(aes(x = year, y = count, fill = hour), data = pair_all) +
  geom_bar(stat = 'identity', position = position_dodge()) +
  xlab('Year') +
  ylab('Number of Fatalities') +
  ggtitle('Fatal Crashes caused by Alcohol-Impaired Driving, by Time of Day 1994-2015') + theme_economist_white()

Figure 8

在过去 10 年里，酒精中毒驾驶致死的比例实际上是持平的。

ggplot(aes(x = year, y = mean, color = bac), data = al_all_by_bac) +
  geom_jitter(alpha = 0.05) +
  geom_smooth(method = 'loess') +
  xlab('Year') +
  ylab('Percentage of Killed') +
  ggtitle('Fatalities and Blood Alcohol Concentration of Drivers 1994-2015') + theme_economist_white()

Figure 9

轮到你了

NHTSA 为交通死亡信息提供了丰富的数据源。有数百种方法来分析它们，最好的方法取决于数据和你试图回答的问题。我们的工作是讲述一个有数据支持的故事。哪种类型的车辆更有可能发生碰撞？车辆中最安全的座位在哪里？所以，拿出你自己的故事，让我知道你在数据中发现了什么！

数据不能激励人，故事可以。

我从查看大量仪表盘中学到了什么

原文：https://towardsdatascience.com/what-i-learned-from-reviewing-a-ton-of-dashboards-cac9087b6c2f?source=collection_archive---------11-----------------------

每个人都遵循同样的准则？对吗？

在准备最*的一次演示时，我试图找到一些仪表板来展示我的一些想法。我不想只显示我创建的仪表板。这些是普遍原则；每个人都遵循同样的指导方针？对吗？

如果你搜索谷歌图片，你可以一次看到许多仪表板的例子。只需快速点击几下，您就可以浏览这些网站，对主题有所了解。我承认我没有对所有的 500+图片做这个练*，但是我确实有一些收获。

产品演示会变得…奇怪

这些仪表板中的大部分都在炫耀产品功能，而不是实用的设计。这是我看到如此多种多样的数据对象放在同一个页面上所能得出的唯一结论。

地图旁边的三维饼图旁边的气泡图？有人的照片上有一打仪表？带交通信号灯的思维导图？抱歉，伙计们，这实在是太荒谬了。

我查看的大多数仪表板都有一个通用主题，如销售、客户服务或医疗保健。但是仪表板中的措施从来没有多大意义。通常，您不会将团队评级、年度销售业绩和产品缺陷计数等指标放在一起。我夸张了点，但离事实也不算太远。我想设计师是在说——看，你可以把所有的信息放在一起。但是你应该——我问？

我担心一个没有经验的设计师可能会用这些被误导的仪表板作为例子。我想知道那个人如何在他们的组织中取得成功。这个工具或者这个人将会因为这个危险的想法而受到责备。

仅仅是缺乏 Dataviz 知识吗？

更仔细地查看仪表盘，可以发现样式选择不佳，而且总体上缺乏数据可视化知识。最大的问题是仪表板仪表的误用。

虽然许多仪表板设计者反对仪表，但他们可以成功地使用。它们的使用是有指导方针的——但是许多这样的仪表板甚至没有遵循简单的指导方针。

许多基本的数据可视化原则也被忽略了。

也许一个设计师如此迷恋汽车仪表板的想法，以至于忘记了让数据被理解。哪个组织在同一个页面上有 20 个 KPI？

许多仪表板都有明亮的调色板和奇怪的背景颜色选择。

我所知道的关于仪表板的一件事是:如果用户不需要显示的数据——你的仪表板仅仅根据它的美观程度来判断。

如果用户需要信息来完成工作任务，仪表板可能很糟糕，但仍然很受欢迎。

但是你不想要一个好看的仪表板吗？想到一些可怜的懒汉因为你卑鄙的设计选择而受苦，难道不可怕吗？或者其他人嘲笑令人不快的仪表板设计。数据可视化和网页设计是一门学科。这是可以学*的。

术语“性能仪表板”没有得到普遍理解

一些设计师使用 MS Excel 创建了一个仪表板。这种技术只是对工具的误用。仪表板是一种组织工具，应该放在一个中心位置。您如何与组织共享 Excel 电子表格？通过电子邮件？如何保持更新，如何控制变化？我不会反复强调这一点，但是停止做那件事。

在我看来，绩效仪表板是组织中使用的一种特殊工具。它允许组织设定目标并在一段时间内跟踪这些措施。这是一项投资。随着组织的成长，仪表板帮助组织成长。它侧重于数据的使用，显示数据的真正价值。

仪表板应该是什么？

对于上面的许多设计，你不得不怀疑仪表板是否有效，甚至是否可用。从这个角度来看，仪表盘对于局外人来说可能会很无聊。仪表板是组织定制的，包含他们想要关注的内容。一个组织可能需要专注于培训，而另一个组织需要专注于用更少的资源提高效率。这些问题将具有不同的 KPI，并使用不同的支持信息。

你的外卖

当仪表板有吸引力且有用时，它就是完美的。很多时候，可靠的条形图、折线图以及一些标尺才是正确的答案。一个干净、简单的设计，允许用户关注度量，最终会使组织有效。

我认为这些原则并不能销售许多仅仅显示这些东西的仪表板构建工具。毕竟，销售和营销过程也是一门艺术。

我从谷歌的 Udacity 的 A/B 测试课程中学到了什么

原文：https://towardsdatascience.com/what-i-learned-from-udacitys-course-on-a-b-testing-by-google-45f6d3297f42?source=collection_archive---------3-----------------------

在网站和移动应用的发展阶段，A/B 测试仍然是最常用的技术之一，也是经理和决策者回答业务问题的首选。A/B 测试有助于量化用户对新产品或新功能的反应，方法是将其与原始版本进行比较，看哪个版本表现更好。

通过这篇文章，我希望传达我对谷歌 Udacity 的 A/B 测试课程的理解。我会向任何考虑从事数据科学职业的人推荐这门课程。但是在你开始学*这门课程之前，请确保你已经掌握了推断统计学的概念，因为这门课程非常强调 A/B 测试的商业应用。你可以使用任何 stats 101 书籍作为本课程的补充，或者如果有足够的时间，你可以学*另一门关于 Udacity 的非常好的课程推论统计学简介。没有别的事了，让我们开始吧。以下是整篇文章的结构。

1.什么是 A/B 测试？

2.为什么 A/B 测试很重要？

3.为什么要考 A/B？为什么不是对照实验？

4.顾名思义，A/B 测试是否仅限于检查两种变体？

5.A/B 测试有哪些阶段？

探险
剥削

6.什么是 A/B 测试，什么不是？

7.结构良好的 A/B 测试的步骤

研究
选择和表征指标
实验单位和人群的选择
实验持续时间
分析结果

8.结论

9.关键要点

10.摘要

11.资源

1.重要的事情先来！什么是 A/B 测试？

A/B 测试是用于测试新产品或新功能的可行性的实验。这种技术是基于网络的实验设计的应用，或者更常见的工程实验设计。实验单元(网页或用户的输入流量)被分成两组(A 和 B)，其中一组暴露于原始版本，另一组暴露于新版本。最终目标是评估成功标准并决定是否发布新特性。

2.为什么 A/B 测试很重要？

A/B 测试很重要，原因有二:

它们是解决短期商业问题的好方法。
A/B 测试有助于得出因果结论

3.为什么要进行 A/B 测试？为什么不是对照实验？

A/B 测试类似于受控实验或分割测试，包括假设、控制和处理组(或原始与您想要尝试的变化)以及统计计算结果。唯一的区别是，当一个实验在受控环境中进行时，它被称为受控实验，而 A/B 测试是在互联网上进行的实验。A/B 测试通常不被称为受控实验的原因是，当涉及到互联网流量时，存在许多相关的可变性，这可以在一定程度上得到缓解，但很难在完全受控的环境中操作。

4.顾名思义，A/B 测试是否仅限于检查两个变体？

不要！A/B 测试不仅限于两种变化，你可以尝试 n 种变化。但是随着 n 的增加，每组测试需要更多的流量。其他类型的在线实验包括:

多元测试
Bandit 算法

我将简要地谈一下其中的每一项。

A/B 测试或 A/B/C/D/n 测试:测试，一个属性有多个变量。A/B 测试用于确定最佳布局。在下图中，彩色块(或 4 页中每一页的标题)是属性，4 种不同的颜色代表我们正在测试的变化。我们可以看到黄色的变化比其他颜色做得更好。

Image source

多元测试:测试多个属性，每个属性都有多个变量。MVT 用于确定哪组属性变化或属性组合产生最佳结果。下图中的第 1 项、第 2 项和第 3 项代表三个属性，每个属性都有三种变化，分别用蓝色、粉色和灰色块表示。使用多元测试来润色页面布局。

Image source

Bandit 算法: Bandit 算法是 A/B/n 测试，根据每个变体的性能实时更新。

5.A/B 测试有哪些阶段？

任何 A/B 测试都有两个重要阶段:

1.探索:这是在部署变更之前，在目标人群的一个小的但有代表性的样本上测试您想要启动的变更的阶段，同时给予仔细的考虑以避免 I 型错误(假阳性)和 II 型错误(假阴性)的风险。相当大的声明！让我们把它分解成小块，试着去理解。

“目标人群的小而有代表性的样本”:有一个有代表性的样本对于你的结论被认为是有效的是很重要的。在向整个目标受众发布您的变更之前，您可能希望在一个小但有代表性的人群样本上尝试您的变更，这样您就可以观察小部分受众的反应，如果结果不错，可以将您的结果推广到整个目标受众。
“避免第一类错误(假阳性)和第二类错误(假阴性)的风险”:第一类错误(假阳性)是指，断定某项改变或干预有效果，而实际上没有。第二类错误(假阴性)是未能发起重大的变革。下图显示了一个误报的示例。

Image source

2.开发:启动变更。不言自明，对吧？

6.什么是 A/B 测试，什么不是？

A/B 测试有利于回答“这个还是那个？”类似的问题。一些例子是:

页面加载时间的增加会影响收入吗？在这里，您可能对用户界面(UI)进行了一些更改，这可能会增加延迟。因此，您可能希望 A/B 测试原始用户界面与新用户界面，看看收入是否有差异。
另一个例子是，测试改变按钮的颜色是否能提高点击率？当你想测试按钮的可用性，看看按钮在当前的阴影和大小下是否明显时，可以使用这个选项。谷歌进行了一个类似的实验，当他们无法在两种蓝色之间做出决定时，他们最终测试了 41 种不同色调的蓝色，介于两种蓝色之间。

另一方面，A/B 测试可能不是检查网站完整性、新体验(如厌恶变化与新奇效果)和任何长期变化(如买车或租房)的好选择。

网站的完整性:A/B 测试不能回答这样的问题，我们的网站上是否有缺失的产品？它可以回答产品 A 是否应该在产品 B 之上，但它不能判断网站上是否缺少产品 C，以及我们是否应该包含它。
新体验:一些用户可能不喜欢新的变化(这是厌恶变化)，而另一些用户可能对尝试变化感到兴奋(这被称为新奇效应)。所以，这将很难提出一个基线，因为你不会知道你的传入流量的百分之多少属于变化厌恶，百分之多少属于新奇效应。这使得提出一个可比较的控制/治疗分割变得更加困难。另一个问题是时间表，即用户适应变化所需的时间，这样你就可以做出可靠的结论。
长期变化:这些也很难衡量。假设您想要检查出租公寓推荐方案的有效性。现在人们不经常租公寓，这使得很难在短时间内收集足够的数据来做出有效的结论。因为你进行实验的时间越长，你所观察到的变化由某个因素引起的可能性就越大，这个因素是最*出现的，但在实验开始时没有包括在内。例如，假设你从五月到八月进行出租公寓的实验。现在八月，通常标志着一个学期的开始，这意味着你可能会观察到出租公寓数量的突然增加。所以，如果你没有考虑这个因素，你可能会有一个假阳性。

7.结构良好的 A/B 测试的步骤

a.研究

在你考虑做任何实验或优化之前，请花点时间思考一下

你对商业目标有清晰的概念吗？
你有明确的目标吗？
你知道你要用什么 KPI(关键绩效指标)吗？
你有目标衡量标准吗？

一旦你清楚了这些事情，你就可以继续做一些理智检查，比如:

网站有什么 bug 吗？bug 可能是潜在的转换杀手。
不同设备和浏览器之间有差异吗？这些差异可能是不同设备和浏览器之间的延迟问题。进行测试来检查不同平台之间的一致性，可能会消除混淆或隐藏变量破坏实验的风险。

b.选择和描述指标

指标的选择取决于您希望指标服务的目的。有两类指标:

用于评估的指标:这些指标包括帮助跟踪深入信息(如用户对产品的体验)的详细指标，还有用于跟踪业务目标的高级业务指标。
用于健全性检查的指标:这些指标用于检查控制组和实验组是否具有可比性。因此，您可以检查两个组中的用户数量是否相同。这些组在分布等方面有可比性吗？

得出指标的步骤

第一步:为指标提出一个高层次的概念

这通常是一个大家都认同的定义。这些指标可以简单到点击率、点击率、活跃用户数量

第二步:将高层指标转化为完全实现的定义

因此，我们在步骤 1 中看到——活动用户数量——是一个高级指标。它的一个完全实现的版本将是定义什么是主动。是 1 分钟主动吗？还是 1 小时主动？还是 1 周活跃？因此，在定义一个完全实现的指标时，要记住的一件事是决定时间戳。你可能要考虑的另一件事是不同浏览器之间的一致性。每个浏览器与您的网站交互的方式可能不同，因此获取数据的方式也可能不同。此外，不同浏览器之间的延迟可能不同，这可能会导致差异。

现在，这些指标的有效性，在很大程度上依赖于您用来计算它们的数据，因此，评估不同的技术和收集数据的来源，值得同等关注。

那么，用什么数据呢？

很明显，你会使用从你的网站产生的数据，如点击，在一个页面上花费的时间，页面浏览量，创建的帐户数量等来运行 A/B 测试。但是除了这些数据之外，你还可以使用专注于收集数据的公司生成的外部数据，通过调查来回答有趣的问题，或者你可以雇佣公司使用用户体验研究和焦点小组等技术来生成你自己的深度数据。从这些技术中收集的数据可以作为验证您的指标的良好来源。这可以通过绘制内部数据与外部数据的趋势和季节变化并检查它们是否一致来实现。第二，您还可以使用这些数据来产生关于使用简单的度量标准的想法，作为较难度量的度量标准的代理。一个更难测量的度量标准的例子是，测量用户满意度。在一项研究中，用户报告的满意度与在网站上花费的时间进行了比较，以建立两者之间的一般相关性。通过这种相关性——在网站上花费的持续时间或时间——这很容易测量，被转换成一种衡量用户满意度的指标。

第三步:将测量结果汇总成一个指标

到目前为止，我们只有直接的数据测量，如页面浏览量、点击量、延迟等。但是现在我们需要想出一个方法来总结这些。要总结一个指标，我们需要考虑最终总结指标的以下两个特征:

敏感性和稳健性: 我们希望我们的指标足够敏感，能够捕捉到我们关心的变化，但同时指标也应该足够稳健，不会捕捉到我们不关心的变化。敏感性和稳健性很重要，因为它们使我们免于第一类错误(发起我们不关心的变更)和第二类错误(未能发起我们关心的变更)。为了衡量灵敏度和稳健性，我们可以:

运行实验:如果我们可以访问实验数据，那么我们可以运行实验，看看度量标准是否随着变化而移动。这将是一个很好的灵敏度测试。
A vs. A 测试(或 A/A 测试):我们也可以用实验数据做 A vs. A 测试。在 A/A 测试中，对照组和治疗组都暴露于完全相同的变化。如果我们的指标在两组之间移动，那么这将是一个很好的迹象，表明该指标不够稳健。
回顾性分析:现在，如果我们无法访问实验数据，那么我们可以取出一些我们存档的数据，这些数据在过去用于运行类似的实验，并查看我们感兴趣的指标是否以我们想要的方式做出响应。

2。指标的分布: 分布用于确定一个特定指标相对于其他指标的优先级。比方说，我们有一个像正态分布一样的良好分布，那么均值或中值将是一个不错的选择。如果分布是偏斜的，那么百分位数将是一个很好的选择。

c.实验单位和人群的选择

下一个要考虑的重要话题是实验单位(分流单位)和你希望锁定的人群。在确定实验规模和决定如何将事件分配给实验组或对照组时，这两者都变得越来越重要。

实验单位: 这是用于定义哪个用户或哪个事件被分配到控制和实验组的转移单位。转移的单位可以是唯一的标识符，如 user_ID 或 cookie，也可以是基于事件的转移，如页面视图。分流单位的选择取决于三个重要的考虑因素:

用户一致性:如果我们正在处理一个用户可见的变化，我们希望我们的用户始终有一致的体验。因此，user_ID 或 cookie 将是一个不错的选择，如果我们试图实现的更改对用户不可见，那么基于事件的转移(如页面视图)将更有意义。这一点很重要，因为如果我们使用页面浏览量作为用户可见变化的转移单位，那么每次用户重新加载页面时，他们可能会被分配到一个新的组，即如果用户最初在实验组，现在他们可能会在控制组结束。
伦理考虑:因为真实的人作为实验单位参与了实验，所以仔细考虑实验的伦理是非常重要的。一些伦理考虑是风险、利益和隐私。如果风险超过最低风险的阈值，即包括身体、心理、情感、社会或经济问题，那么获得知情同意就变得至关重要。如果用户在研究完成后会受益，那么说明益处是很重要的。如果收集新数据的内部流程到位，那么隐私就不会是一个大问题，但如果不是，就需要额外的安全措施。
指标的可变性:分流单位的选择会极大地影响指标的可变性。与分析单位相比，如果转移单位更宽，则指标的可变性更高。分析单位基本上是指标的分母。因此，对于点击率来说，点击率被定义为#点击量/#页面浏览量，#页面浏览量成为分析的单位，(其中' #点击量'读作'点击次数')。因此，如果我们使用 user_ID 作为我们的转移单位，使用点击率作为我们的分析单位，那么我们的指标点击率的可变性会高得多，因为一个 user_ID 可以对应多个页面视图。

人口: 人口的选择将极大地影响你正在努力实现的新变化或新特性的成功。当您计划发起一项变更时，您会希望向最相关的受众发起变更，即更有可能对变更做出积极响应的用户。尽管您可能出于各种原因想要提前做出这个决定:

避免不必要的媒体报道:当你不确定是否要发起变革时，这尤其有用。因此，您可能需要限制暴露的用户数量。
第二个原因是，如果你计划在国际上发布变更，你可能需要额外确保使用的语言是正确的。
接下来，如果你知道这个变化将会影响到属于某一特定人群的用户，那么向全体用户发布这个变化可能会蒙蔽实验的效果。

现在主要问题！

公制、分流单位和人口的选择如何影响实验的规模？

我们在上一节中看到，如果分析单位与转移单位相同，指标的可变性就会降低。现在，由于可变性降低，同样的最低可检测效果所需的页面浏览次数也减少了。
正确的目标人群也减少了实验所需的样本量，因为我们不考虑无关的观众，因为他们可能会欺骗我们。

d.实验持续时间

实验的持续时间与您希望通过实验发送的流量比例有关。如果您的实验总共需要 20K 个用户(每个控制组和实验组中的 10K 用户)，每天每组发送 500 个用户，将需要您运行实验 10 天。现在，如果您将数量减少到每天每组 250 个用户，实验的持续时间将会增加到 20 天。

当谈到持续时间时，需要记住的下一件重要事情是，统计意义并不意味着实际意义！仅仅因为您的测试显示了统计上的显著结果并不意味着您应该发起变革。统计意义基于统计界限，但实际意义基于你所关心的最小可检测效应。

也就是说，让我们正式声明一些停止规则:

停止规则:

决定持续时间(通常为 2-4 个业务周期)。我们考虑完整商业周期的原因是为了避免扭曲的结果，并获得一个有代表性的样本，因为它将包括每一个外部因素:一周中的每一天，不同的流量来源，季节性和任何其他外部事件，两次。

确定每天每组的最小样本量(如每个治疗组和对照组 400 名用户)

可能出现的一个重要现象是回归均值。根据这种现象，您可能会在初始阶段观察到明显的获胜变化，但是随着测试的进行，转换率没有任何差异。下图显示了转化率，4 周后回归到平均值。因此，如果您在测试过程中观察到不同变化之间的差异在减少，那么这可能是您应该运行更长时间测试的一个指示。这也使我们免于推出与当前版本没有什么不同的变体。

Image source

e.分析结果

执行理智检查

分析任何实验的第一步是检查控制组和实验组是否具有可比性，基本上是使用我们在第 2 节讨论的不变指标(选择和描述指标)进行健全性检查。如果健全性检查失败，就没有必要继续进行实验的其余部分。现在两组可能没有完全相同的实验单位数量，但应该大致相当。

分析结果

如果您有一个评估指标，那么您可以直接为您观察到的差异构建一个置信区间。如果置信区间不包含 0，则对照组和治疗组之间观察到的差异具有统计学意义，但正如我们之前讨论的，统计学意义并不意味着实际意义，如果最小可检测差异低于置信区间，则我们可以说我们观察到了我们关心的显著差异。

我们可以将我们的结果与从非参数检验(如符号检验)中获得的结果进行比较，看看它们是否与我们观察到的假设结果一致。

如果我们不观察统计显著性呢？

不要走得太快。A/B 测试是一个迭代的过程。多尝试几次迭代。

第二，寻找辛普森悖论。仅仅因为你的总体测试没有显示出统计学意义，并不意味着你的干预(或改变)不值得发起。这种变化可能会提高特定受众的转化率。在这种情况下，您可以使新版本对该细分市场可用，而不是向更广泛的受众发布，尽管您可能希望确保您可以证明为什么这种变化会改善该细分市场的体验。所以，注意细分。

您可能会考虑以下部分:

新用户与经验丰富的用户
移动设备/平板电脑与台式机
Chrome vs. IE vs. Safari vs. Firefox
人口统计(年龄组、性别、城市、州、国家)
登录/注销界限内的用户与界限外的用户
直接来自页面的流量与来自内部链接的流量

现在，如果您有多个评估指标，这些指标之间可能存在一些相关性，但您总是可以假设独立性并获得保守估计，因此您可以使用类似 Bonferroni 校正的方法

8.结论

最后一步是得出结论。要得出结论，你基本上需要回答整个实验过程中的三个关键问题:

我们有统计上和实际上有意义的结果吗？
我们对变化理解得足够好了吗？
改变值得发起吗？

9.关键要点

检查，两次检查，三次检查实验的设置
统计意义并不意味着实际意义
变异的辛普森悖论与回归均值
如果这是你的第一个实验，可能会有很大的影响，做几个实验，看看你对结果是否满意

10.摘要

遵循结构化方法
研究并定义您想要改进的业务目标或 KPI。
进行实验
分析、学*和迭代

11.资源

从初级到专业的 A/B 测试掌握度
统计显著性不等于有效性(或者为什么你会得到想象的提升)

我从数据科学竞赛中学到了什么

原文：https://towardsdatascience.com/what-i-learnt-from-a-data-science-competition-428a3d876e56?source=collection_archive---------2-----------------------

2 个月前，我开始参加在 Kaggle.com 举行的数据科学竞赛，用桑坦德银行的数据集预测客户满意度。由于这将是我第一次单独参加非计算机视觉 Kaggle 挑战赛，我认为这将是一个很好的途径，可以将我从论文、论坛和非正式对话中收集的一些建议付诸实践。这篇文章详细介绍了我所采取的步骤，哪些有效，哪些无效，希望它能帮助你在决定采取行动时有所作为！

对于那些对代码感兴趣的人，你可以查看我的 github 库这里。

xgboost

我几乎是本能地从 xgboost 开始的，这是一个流行的梯度增强实现，具有 R 和 python 接口，既能有效地利用服务器 CPU 上的多线程计算，又具有良好的预测性能。xgboost 模型在过去的许多 Kaggle 比赛中表现良好，也是许多脚本的初始选择。这也有助于它不需要很长时间的培训，特别是当运行在我的 48 核服务器在办公室！

数据清理

数据非常稀疏，有许多二进制和数字变量。通过在论坛上的一些探索和阅读，我发现有一些相关和重复的专栏，我立即删除了它们。我最初也删除了重复的行，但结果是性能更好的公共脚本没有删除它们，所以我保留了重复的行。不太清楚为什么它表现得更好。

论坛上暴露的另一个问题是出现了奇怪的号码，如-999999、999999999。我将它们替换为 NA，这将允许 xgboost 自动确定给定数据的最佳估算值。

特征工程

最初，我尝试了使用分位数的宁滨列，但似乎没有多大帮助，尤其是在公共排行榜上。根据我对 xgboost 实现的理解，该算法按分位数对数据进行分类，并从那里确定最佳分割。因此，这一步似乎有些多余，除非你有令人信服的理由不使用分位数来绑定变量。

与此相反的例子是年龄变量，我以 10 年为间隔进行分类，同时将所有 20 岁以下的客户归为一类。虽然比赛没有提供太多关于年龄的背景信息，但不难想象不同的年龄组会有不同的态度或满意度标准。由于年龄差异很大，让 xgboost 解释默认的年龄分位数可能不是训练模型的最有用的方法。这确实稍微提高了本地和公共 LB 分数，使我的公共 LB 分数超过了 0.840。

最后，我探索了为前 10 个变量添加双向交互。我首先运行一个 xgboost 模型来对变量重要性进行评分(因为它比运行线性模型更快！)，并挑选了计算乘除交互作用的前 10 名。我用两种方法计算了除法相互作用(A/B and B/A)，但我怀疑两种方法都有帮助，因为单调排序(以及分位数和分裂)会简单地反转。具有双向交互的模型在公共 LB 上表现稍差。

参数调谐

我用 xgb.cv 进行了一个简单的 5 重交叉验证的网格搜索，保存了 2 个模型；一个有双向交互，另一个没有。我使用 ggplot 来帮助可视化 AUC 的方差和均值。巨大的差异是一个明显的迹象，表明我不太相信我当地的简历分数和公众的 LB 分数。回过头来看，我意识到技术比一个好的公共 LB 重要得多，因为过度适应公共 LB 是很危险的，并且欺骗自己认为你不是。

分叉公共脚本

比赛快结束时，我发现时间很紧，公共脚本提供了一个复制最佳实践和特色工程思想的好方法。然而，公共脚本很容易过度适应公共 LB。鉴于各种用户对脚本的积极分流和对结果的现成评估，这意味着只有“更好”的脚本才能获得投票和公众的关注。某些脚本仅发布优化的参数，而没有通过交叉验证进行调整，这导致人们怀疑通过这些脚本获得的公开 LB 分数的可靠性。以下是我更详细的意思:

过度拟合公共 LB

我自己已经制作了几个非常相似的模型，我觉得我需要选择最好的一个来提交。由于我在比赛期间没有充裕的时间来慢慢回顾我的提交列表并评估更好的，我决定只选择公共 LB(公开分叉)上表现最好的脚本并提交它。结果是，我提交的模型在公共 LB 上给出的 AUC 为 0.842(在超过 5000 个条目中排名 644)，将下滑到 0.825(排名 1620/5123)，而我的尽职调优但简单的模型只会从 0.840 下降到 0.827(排名 145/5123)！这给了我一个非常重要的教训:相信技术，而不是短暂的分数。

组装

当然，事后看来，我应该知道最好的执行模型，但是当我只有公开的 LB 结果时，我应该如何选择我的提交？这就是集成的作用，它消除了过程中的猜测，同时减少了你的误差的方差。比赛结束后，我尝试了一个合奏，取了我选择的 4 个作品的天真平均值:

一个带有一些功能工程的公共脚本，在公共 LB 上得了 0.842 分(作者是一个叫 Mikhail 的家伙)
一个名为 xgb_lalala 的公共脚本(没有 cv，只有一组‘古怪的性能参数’)
我自己的脚本有和没有双向互动

结果几乎让我哭了(兴奋的泪水混合着悔恨的痛苦):

我希望这篇文章有所启发，不仅仅是技巧，还有面对排行榜上的激烈竞争坚持己见的重要性。

作为一名数据科学经理，我希望自己做得与众不同

原文：https://towardsdatascience.com/what-i-wish-id-done-differently-as-a-data-science-leader-on-centralizing-siloed-data-d7492fd0d03c?source=collection_archive---------7-----------------------

集中孤立的数据

I still get nostalgic looking at the very first Pebbles. (Photo courtesy of Pebble’s first Kickstarter)

2014 年，我加入了后来被 Fitbit 收购的智能手表制造商 Pebble，领导他们的数据科学和分析团队。

我对在硬件公司管理数据组织的挑战很感兴趣。我上一份全职工作是在脸书平台的一家视频游戏开发商那里，分析是公司的命脉。我们对从游戏内机制到用户获取的一切都进行了集中登录。

我知道在硬件公司工作会有所不同。我们会有很多我在以前的工作中遇到的相同的业务问题——客户在哪里找到我们的产品？他们如何使用它？我们怎样才能让它变得更好？—但要回答这些问题，可利用的数据有限得多。当顾客在百思买购买你的产品时，很难推断他们是从哪里听说你的，也很难衡量你的营销努力的影响。当客户被动地将您的产品戴在手腕上时，很难知道哪些客户每天都会使用该产品，哪些客户通常会将手表放在抽屉里。

My favorite watch face, on the Pebble Time Round.

在我在 Pebble 工作的两年中，我们想出了许多方法来了解人们如何使用 Pebble，并确定我们如何改进它。但是我们在分散在不同系统的数据上苦苦挣扎。

关键信息分布在多个存储库中:来自手表的日志保存在一个可查询的数据库中。营销数据存储在谷歌分析中，有时访问受到限制。销售数据存储在来自零售分销商的巨大、难以解析的电子表格中。客户支持查询和退货数据被锁定在不可查询的第三方工具中。

筒仓的问题

许多公司面临着同样的问题:集中分析团队只能访问公司不同业务职能部门的一小部分信息，而他们无法获得跨职能部门的支持，将孤立的数据集中到一个中心位置。

把所有数据放在一个地方的好处很容易得到口头上的支持。但实际上实现这一目标并不是一件轻而易举的事情，需要多个岗位的多个人坐下来达成共识。

如果孤立的数据没有直接和明确定义的增值，每个人都将难以将集中化优先于他们手头的所有其他任务。即使您使用的工具应该使数据集中化变得“简单”，您也必须找到合适的人，比如说，让您获得适当的身份验证令牌，以将孤立的数据源连接到您的中央数据存储，并且这个“简单”的任务可能会拖上几天，直到您取消优先级并有效地放弃它。

也可能有合理的理由保持数据孤岛，而组织的不同部分并不完全理解。例如，有些公司拥有敏感的客户数据，出于隐私原因，整个组织都不能访问这些数据。

The fence between the data you have and the data you need.

“可是我们没有数据啊！”

“我们没有数据”是数据工作者哀叹的标准部分。作为一名经理，我觉得我工作的一部分就是让我的团队向我倾诉他们日常工作中的琐事所带来的挑战。

我知道数据工作有多令人沮丧。您花了几个小时清理一堆杂乱的数据，只是为了可以对其运行一个简单的脚本，您发现日志中的漏洞和错误弄乱了您的整个方法，或者您发现自己无法回答高管们提出的问题，因为您需要的数据根本不存在。处理数据需要用头撞墙，作为经理，我的工作就是承认这种挫败感，并尽可能有效地帮助团队克服它。

有时，经理可以提供建设性的解决方案，实际上解决这些问题。实现一个 ETL 脚本来保持数据整洁！与工程部门讨论如何修复日志记录错误！与另一个团队合作，访问您需要的数据！但是通常最好的选择是鼓励团队找到变通的解决方案。人们很容易被问题的细节所困扰，开始让完美成为美好的敌人。尽可能经常地，我想让我的团队成员回到鸟瞰图，这样他们可以找到一个足够好的解决方案来有效地解决他们的问题。

为什么管理者会让“我们没有数据！”关注幻灯片

这就是为什么，当我团队中的人提出我们应该集中访问谷歌分析、Zendesk 或零售销售数据的时候，我经常不予理会。这些数据通常对解决他们眼前的问题并不重要，而且作为一名经理，我倾向于不优先考虑那些“值得拥有”的东西

我也有一种直觉，我们的团队可能并不了解为什么这些数据最终会成为孤岛的所有复杂的组织原因，所以我不想花费宝贵的时间和精力去追逐那些最终会成为死胡同的数据。

但是我希望，无论何时，当我的团队抱怨他们无法使用某些东西时，我会告诉他们去解决他们自己的问题。

去找电商团队谈 Google analytics 吧！

去和支持团队谈谈 Zendesk 吧！

去和销售团队谈销售渠道数据吧！

如果你想要数据，让它发生！没有人会比你更关心这些数据，所以你会优先考虑这些数据。我会给你所有你需要的工具，把它输入我们的中央数据库。如果你没有访问数据的权限，那是你要解决的问题。去拿吧！

Collect ALL the data!

让你的团队继续前进

我尽最大努力让我的团队去追逐他们需要的数据。但是在这些情况下，他们通常会带着一个新的理解回来，为什么他们认为容易的事情实际上很难，他们会放弃他们的担忧，继续他们的下一个任务。

我希望我进一步鼓励了他们，并告诉他们坚持下去。

虽然集中式数据的直接价值并不总是显而易见的，但我确实相信将所有数据放在一个地方会有剩余和复合效应。但是，经理们通常无法确定集中化任务的优先顺序。有太多的孤岛，太多的团队需要加入，太多的令人担忧的问题需要优先考虑。

自上而下的数据集中化方法—数据科学副总裁与营销副总裁、销售副总裁、运营副总裁和首席执行官合作—过于庞大。但是零敲碎打——让一个有积极性的数据工作者在另一个部门找到一个合作者，并继续集中他们能集中的任何一点点数据——可能会成功。

Pebble 拥有适合这种自下而上方法的文化。总的来说，我们是一群友好、体贴、慷慨、思想独立的人。我们的组织文化强调自主意识，没有人会因为初级团队成员主动解决他们关心的问题而被冒犯。

自下而上的数据集中化方法可能并不适用于每家公司，但总的来说，我认为数据科学经理可以受益于将数据获取的责任交给他们团队中投资于所述数据的任何成员。他们才是将要使用它的人——为什么他们不应该有责任倡导获取他们需要的数据呢？

如果我告诉你数据库索引是可以学*的呢？

原文：https://towardsdatascience.com/what-if-i-told-you-database-indexes-could-be-learned-6cf8f59bff94?source=collection_archive---------2-----------------------

不幸的是，这篇论文我没能在 NIPS 上看到，但在过去的几天里，它在 ML 圈子里引起了相当多的关注。这些作者中包括杰夫·迪恩(Jeff Dean)，一位非常受尊敬的早期谷歌员工，他们有一个核心观点，他们在整篇论文中重申:在他们的核心，数据库索引是模型。它们可能(通常)不会被统计学*，但是它们是在输入(索引建立所基于的键)和输出(内存中的位置)之间提供映射(希望非常快)的结构。二叉树是用于有序数据的典型结构，它甚至采取树的形式，这是机器学*工具箱中的核心工具。

基于这一关键的直觉，论文接着提出了这样的问题:如果这些结构仅仅是模型，那么统计模型是否可以学*并利用被索引数据的分布，比我们目前使用的索引更好——更小，更高效？剧透:答案(至少对于数值数据类型)是肯定的。

例如，可能所有元素的长度都相同，并且数字键的位置随着每个键前进 5:在这种情况下，您可以很容易地学*键和位置之间的线性回归映射，这将比必须有条不紊地一个一个拆分的 B 树快得多。B 树在最糟糕的情况下是有效的，在这种情况下，键的位置的 CDF 密度(如果你把它们排成一行)确实是随机的，并且假设是未知的。

关于 B 树的一个有趣的事实是，每当有新数据加入时，它们都需要重新平衡，作者认为这个过程类似于模型的重新训练。因此，出于比较的目的，他们简单地比较了在训练集上的性能，因为 B 树和候选统计模型只有在被重新训练后才能工作。

架构和结果

作者从训练一个基线模型开始:一个两层，每层 32 个隐藏单元，密集连接的网络。这个模型有两个主要问题。

首先，它生成作为关键字函数的最小/最大搜索位置的预测非常慢:它最初是在 Tensorflow 中训练的，它的前期成本很高，对于这样小的模型来说不值得
其次，它只是在单个键的层面上不够准确。虽然它在学*累积密钥分布的整体形状方面做得很好，但它避免了过度适应 CDF 函数中的小局部变化，因此当您“放大”密钥空间的小区域时会变得不太准确。因此，与只进行全键扫描相比，它并没有显著加快查找过程。按照他们设计问题的方式，一个简单的模型可以很容易地将预期的搜索误差从 100 米减少到 10，000 米，但由于模型中固有的平滑假设，很难将它一直减少到 100 秒的数量级

提议的解决方案

这些问题有两个关键的解决方案:一个是实施细节，另一个是理论创新。第一种方法相对简单(至少在概念上):构建一个框架，在这个框架中，您可以在 Tensorflow 中训练模型，但是模型是在推理阶段用 C++评估的。这使得之前测试的基准模型的性能大幅提升:从 80，000 纳秒降至 30 纳秒。

第二，作为“最后一英里”准确性问题的解决方案，是递归模型。在这个框架中，我们首先训练一个“顶级”模型，它输出对钥匙位置的预测。然后，我们把空间分成，比方说，三个部分，然后分别为每个子区域学*一个模型。因此，例如，顶部模型可能预测键 4560 映射到 10000 长的存储区域中的位置 2000。因此，他们会根据顶级模型的预测，将观察结果组合在一起，并专门训练一个新模型，比如说，预测位置在 0 到 3500 之间的键。

当这种方法——使用更有意义的优化代码的分层模型——在具有数字键值的数据上进行尝试时，结果确实令人印象深刻。与 B 树相比，使用小得多的模型，学*索引实现了有意义的加速，超过 60%。值得注意的是，下面的结果是没有使用 GPU。这表明如果 GPU 在数据库硬件中变得更加标准，这种改进甚至可能会增加。

他们目前只展示了对数字键建模的工作，但建议将目前用于文本的更复杂的方法(RNNs，字符级 CNN)添加到这个通用框架中。

Results for lat/long of Maps data

那么，除了它可能导致新一代数据库索引设计的实际事实之外，为什么所有这些首先是有趣的呢？

首先，我要承认，在我心中，那些在一个知识领域的背景下重新构建另一个知识领域的论文有着特殊的地位。除了介绍一些引人注目的 ML 思想之外，这篇文章还让我更深入、更清晰地思考索引如何工作背后的机制，而在以前，这一直是我通常理解但没有深入研究的东西。

其次，这只是一个实际的事实，作为机器学*模型被用来优化运行它们的低级系统的一个例子，它似乎是有意义的。这是我记得看到的第一篇使用机器学*来优化计算过程本身的论文之一，但它似乎不太可能是最后一篇。

你的数据不正常怎么办？

原文：https://towardsdatascience.com/what-if-your-data-is-not-normal-d7293f7b8f0?source=collection_archive---------5-----------------------

在本文中，我们讨论了统计数据分析的切比雪夫界。在对给定数据集的正态性没有任何概念的情况下，该界限可用于衡量数据在平均值附*的集中程度。

介绍

这是万圣节周，在恶作剧和款待的间隙，我们这些数据极客正在社交媒体上为这个可爱的迷因窃笑。

你认为这是一个笑话？我告诉你，这可不是闹着玩的。这很吓人，符合万圣节的精神！

如果我们不能假设我们的大部分数据(商业、社会、经济或科学来源的)至少是*似“正常的”(即它们是由高斯过程或多个这样的过程的总和产生的)，那么我们就注定要失败！

这里有一个非常简短的列表，列出了一些无效的东西，

六西格玛的整体概念
著名的68–95–99.7 法则
统计分析中 p =0.05 (来自 2 sigma 区间)的‘神圣’概念

够吓人吗？大家再多聊聊吧…

无所不能、无所不在的正态分布

让我们保持这一节的简短和甜蜜。

正态(高斯)分布是最广为人知的概率分布。这里有一些描述其功能和广泛适用性的文章的链接，

数据科学家为什么爱高斯

[## 为什么数据科学家喜欢高斯？

高斯分布如此受深度学、机器学工程师和…

towardsdatascience.com](/why-data-scientists-love-gaussian-6e7a7b726859)

如何在数据科学面试的统计部分占据优势
正态分布有什么重要的？

由于它出现在各个领域和中心极限定理 (CLT)，这种分布在数据科学和分析中占据中心位置。

[## 正态分布-维基百科

在概率论中，正态(或高斯或高斯或拉普拉斯-高斯)分布是一种非常常见的连续…

en.wikipedia.org](https://en.wikipedia.org/wiki/Normal_distribution)

那么，有什么问题呢？

这一切都很好，有什么问题？

问题是，您经常会发现特定数据集的分布可能不满足正态性，即正态分布的特性。但是由于过度依赖正态假设，大多数商业分析框架都是为处理正态分布的数据集而定制的。

它几乎根深蒂固地存在于我们的潜意识中。

假设您被要求检测来自某个流程(工程或业务)的一批新数据是否有意义。通过“使有意义”，你的意思是新数据是否属于，即它是否在“预期范围”内。

这个‘期望’是什么？如何量化范围？

我们自动测量样本数据集的平均值和标准偏差，并继续检查新数据是否在特定的标准偏差范围内，就像受到潜意识驱动的指引一样。

如果我们必须在 95%的置信范围内工作，那么我们很高兴看到数据落在 2 个标准差以内。如果我们需要更严格的界限，我们检查 3 或 4 个标准偏差。我们计算 Cpk ，或者我们遵循六西格玛的质量 ppm (百万分率)标准。

所有这些计算都基于一个隐含的假设，即总体数据(而非样本)遵循高斯分布，也就是说，所有数据(过去和现在)生成的基本过程由左侧的模式控制。

但是如果数据遵循右边的模式会发生什么呢？

或者，这个，还有……那个？

数据不正态时有没有更普适的界限？

最终，我们仍然需要一种数学上合理的技术来量化我们的置信区间，即使数据不正常。这意味着，我们的计算可能会有一点改变，但我们仍然可以这样说-

“在距平均值一定距离处观察到一个新数据点的概率是这样那样……”

显然，我们需要寻找一个比 68–95–99.7(相当于距离平均值 1/2/3 的标准偏差)更普遍的界限。

幸运的是，有一种这样的束缚叫做“切比雪夫束缚”。

什么是切比雪夫界，它有什么用？

切比雪夫不等式(也称为 Bienaymé-Chebyshev 不等式)保证，对于一大类概率分布，不超过某个分数的值与平均值的距离不超过某个距离。

具体来说，不超过 1/ k 个分布值可以超过 k 个偏离平均值的标准偏差(或者等价地，至少1 1/k个分布值在平均值的 k 个标准偏差内)。

它适用于几乎无限类型的概率分布，并且基于比正态性更宽松的假设。

它是如何工作的？

即使你对你的数据背后的秘密过程一无所知，也有很大的机会你可以说出下面的话，

“我相信所有数据的 75%应该在平均值的 2 个标准偏差之内”，

或者，

我相信 89%的数据应该在平均值的 3 个标准偏差之内”。

这是任意分布的情况，

Image Credit: https://2012books.lardbucket.org/books/beginning-statistics/s06-05-the-empirical-rule-and-chebysh.html

如何应用？

正如您现在所猜测的，您的数据分析的基本机制不需要做任何改变。您仍将收集数据样本(越大越好)，计算您*惯计算的两个量——平均值和标准差，然后应用新的界限，而不是 68–95–99.7 规则。

该表如下所示(这里 k 表示远离平均值的许多标准偏差)，

Image: https://en.wikipedia.org/wiki/Chebyshev%27s_inequality

这里是它的应用的视频演示，

有什么条件？为什么人们不用这种‘更普遍’的束缚呢？

通过查看表格或数学定义，很明显有什么问题。切比雪夫规则在对数据设限方面比高斯规则弱得多。

与正态分布的模式相比，它遵循 1/k 模式。

例如，要以 95%的置信度绑定任何东西，您需要包括多达 4.5 个标准差的数据，而不是只有 2 个标准差(对于正常情况)。

但是当数据看起来一点也不像正态分布时，它仍然可以挽救这一天。

还有更好的吗？

还有一个界叫做“ 切尔诺夫界”/赫夫丁不等式 它给出了独立随机变量和的指数锐尾分布(与 1/k 相比)。

当数据看起来不正常时，这也可以用来代替高斯分布，但是只有当我们高度确信底层过程由彼此完全独立的子过程组成时。

不幸的是，在许多社会和商业案例中，最终数据是许多子流程极其复杂的交互的结果，这些子流程可能具有很强的相互依赖性。

摘要

在本文中，我们了解了一种特殊类型的统计界限，它可以应用于与正态假设无关的最大可能的数据分布。当我们对数据的真实来源知之甚少，并且不能假设它遵循高斯分布时，这就很方便了。该界限遵循幂律，而不是指数性质(如高斯),因此较弱。但是它是一个重要的工具，可以用来分析任意类型的数据分布。

你可以查看作者的 GitHub 知识库 中其他有趣的 Python、R 或 MATLAB 代码片段和机器学*资源。如果你像我一样，对机器学*/数据科学充满热情，请随时在 LinkedIn 上添加我或在 Twitter 上关注我。

* [## Tirthajyoti Sarkar -数据科学工程经理- Adapdix Corporation | LinkedIn

将 AI/ML 的力量放在工业 4.0 和下一代智能工厂的边缘。将人工智能引入工业领域…

www.linkedin.com](https://www.linkedin.com/in/tirthajyoti-sarkar-2127aa7/)*

英特尔最的举动将如何影响深度学

原文：https://towardsdatascience.com/what-intel-acquiring-and-integrating-vertex-ai-with-movidius-means-for-deep-learning-16c0055dc99c?source=collection_archive---------7-----------------------

谁没听说过英特尔这个引领处理器发展的科技巨头呢？虽然它曾经引领计算设备行业，但由于竞争对手不断涌现，用于移动设备和其他下一代设备的处理器不断涌现，它的声誉最*正慢慢黯然失色。幸运的是，这位技术领袖并不打算很快被淹没。引用 Ingrid Lunden 在她的 TechCrunch 文章中的话，

该公司的目标是成为下一波计算浪潮的中心，这是其关注 R&D 和其他人工智能投资的更广泛背景。

没错:英特尔曾经引领计算领域的潮流，它计划在人工智能领域也这样做。这一努力的最新步骤是:获得顶点。AI，正如 2018 年 8 月 16 日宣布的那样，并让这个团队与英特尔的 Movidius 团队一起工作。

Image by author

不太清楚这意味着什么，以及它将如何影响深度学*，是吗？我们将把它分成几个部分，理解每一个部分，以便更好地了解全局。在这样做的时候，我们将看到这一举动将如何影响这一领域的进展。

云:去而复返

机器学*(ML)或深度学*(DL)模型需要经过训练、测试和部署才能适合使用，这就是问题所在:这些需要大量的计算！随着更好更复杂的算法被开发出来，笔记本电脑再也无法在合理的时间范围内应付了。谁会愿意让自己的笔记本电脑连续四天不停地进行数学运算呢？因此，开发人员借助谷歌云平台和亚马逊网络服务等服务，将他们的模型运行在云上。通过这种方式，他们可以腾出笔记本电脑来执行其他任务。

这些解决方案虽然在某种意义上很方便，因为开发人员现在可以免费使用他们的笔记本电脑，但不幸的是，它们并不适合解决速度至关重要的问题，换句话说，就是实时问题(下面将提到一些例子)。随着越来越多的人使用这种服务，集中式云计算预计会变得很麻烦，因为通信期间的延迟预计会增加。如果开发人员有一些设备，如 USB，其目的是做这些密集的计算，模型可以部署在本地，并给出几乎即时的响应…进入英特尔 Movidius！

英特尔移动

正如 Siraj Raval 的视频中所描述的，英特尔 Movidius 神经计算棒由英特尔的一个名为 Intel Movidius 的团队创建，是一种将模型从“云”(在线，在远程服务器中)带到“边缘”(本地)的设备。换句话说，它允许用户在本地测试和部署模型。由于不需要与数据服务器通信，实时使用现在可以更快地完成。此外，由于数据保存在本地，不会发送到中央服务器，因此数据隐私问题较少。

应用多种多样，例如智能安全摄像头、手势控制无人机和工业机器视觉设备，如英特尔 NCS 页面所述。请注意，在这些应用程序中，速度是最重要的。例如，在手势控制的无人机场景中，如果无人机检测到有人向它投掷物体，最好的解决方案是尽可能快地躲开，立即做出决定，而不是记录场景，将其发送到服务器，等待回复，然后根据回复采取行动。

好吧，但这和顶点有什么关系？AI？好吧，我们会查出来的！

顶点。人工智能，以及他们加入英特尔将如何影响深度学*

顶点。AI 是一家创业公司，在他们的网站上写着如下宗旨:

我们正致力于将神经网络的力量应用到每一个应用中，使用内部发明和构建的新技术，使不可能的应用成为可能。

顶点。AI 正在建立一个名为 PlaidML 的平台，其任务是在任何设备上启用高性能神经网络。这的确是一个非常崇高的使命，因为正如该项目的 Github 资源库所提到的那样，它们已经是实现这种算法与操作系统(Linux、Windows、macOS)和硬件(Intel、AMD、ARM 等)兼容的最快和最简单的平台。嗯……最快最简单，那么这会给用户的预算造成多大的缺口呢？这个项目是开源的(因此 Github 上的任何人都可以看到)，这个平台是免费使用的！

A comparison of PlaidML with alternative tensor compilers (TVM and Tensorflow Comprehension)

现在我们有了不同的拼图。剩下的就是把它们放在一起。

英特尔 Movidius 团队努力工作，推出了英特尔 Movidius 神经计算棒，可以对本地部署的模型进行计算。这提高了速度，消除了与中央数据服务器通信的需要。
英特尔收购了 Vertex。简而言之，AI 的目的是让深度学*在任何地方都能工作，并计划让这个团队与英特尔 Movidius 一起工作。

(Sourced from https://www.cbronline.com/news/startup-vertex-ai)

在未来几年(如果不是几个月的话)可以预期的是，实时深度学*应用(由 Movidius 实现)的繁荣，在所有平台上工作(由 Vertex 实现)。AI)。随着两个团队共同努力实现他们设定的目标，以及对这种组合的认识的提高，这种增长将会发生。实时应用将会像我们想象的那样丰富多彩，并将有助于推动人类沿着人工智能的道路前进。

如果你喜欢这篇文章，请给它一个掌声，这样其他人也可以找到它。在数据科学社区中互相帮助总是好的:)

Hans A. Gunnoo 是一名数据科学家，他的职业生涯始于电子工程，后来专攻机器学*。他还在业余时间为开源人工智能项目和关于数据科学领域最新趋势的博客做出贡献。

什么是 DAPP？

原文：https://towardsdatascience.com/what-is-a-dapp-a455ac5f7def?source=collection_archive---------5-----------------------

Apps vs. DAPPs

DAPP(分布式应用程序)由运行在分布式对等网络上的后端代码组成。DAPP 也可以有一个用户界面，由调用后端的前端代码创建。DAPPs 不需要一个中央机构来运行:它们允许用户和提供商之间的直接交互。

DAPPs 的特性

DAPPs 通常具有以下特征:

他们在区块链上奔跑
他们的代码是开源的，自主运行，没有任何人或团体控制大多数令牌
它们生成 DAPP 令牌来为它们的贡献节点提供价值
用户被授予对它们的访问权以换取令牌
当矿工成功地为生态系统做出贡献时，他们会得到代币作为奖励

Unlike most Apps in use today, DAPPs store all their data on a blockchain and have their back end code running on a blockchain instead of with a central authority.

DAPPs 的种类

以太坊描绘了 DAPPs 的三个主要类别:

1.资金管理应用:用户可以在区块链网络上使用其固有货币进行交易。这些 DAPPs 通常都有自己的区块链，我们通常称之为加密货币(比如比特币)。

2.将金钱与外部真实事件相结合的应用程序:例如，一家物流公司可能使用 RFID 芯片位置来确定一批货物已经到达港口，然后才支付货款。如果买卖双方签订一份智能合同，这甚至可以用区块链上的资金完成，无需人工干预。

3.分散自治组织(DAOs):区块链上分散的、无领导的组织。这些从概念开始，根据编程定义的规则运行，这些规则关于什么实体可以是成员，成员如何投票，他们可以从事什么业务或活动，以及代币、资金或价值如何交换。一旦部署，DAPPs 会根据它们的规则自动运行。他们的成员可以在地理上分散在任何地方。

迄今为止，DAPP 初创公司(建立在区块链平台之上)已经构成了 ico 的大部分。大多数当前的 2 类和 3 类 DAPPs 使用以太坊平台。

DAPPs present a new paradigm for fintech and money management related applications.

为什么是 DAPPs？

DAPPs 本质上允许所有后端代码和数据去中心化，因此是不可变的和防篡改的。考虑到这些应用的分散性质，再加上保护区块链数据的机制，DAPPs 有潜力开启各种各样的用例。

创建 DAPP 而不是普通应用程序的一些好处包括:

支付处理:无需与法定支付提供商集成来接受用户资金，因为用户可以直接使用加密货币进行交易

用户证书:使用公钥和私钥系统，用户可以轻松地以不同程度的匿名处理和绑定他们的用户会话和元数据，无需冗长的注册或登记过程

信任和可审计性:聪明的用户可以访问和理解开源的 DAPP 代码。封闭数据的这种透明性和固有的安全性产生了对应用程序的信心。区块链上的公共记录也使得交易信息易于被用户或第三方审计

Ethereum is currently the platform of choice for DAPP developers, with several extremely promising contending platforms closing in.

结论

DAPP 的前景正在迅速演变。虽然以太坊目前是 DAPP 开发人员的首选平台，但 Cardano、Lisk、QTUM 和 NEO 也是 DAPP 开发的热门平台。也有许多努力正在进行中，以建立其他大规模的 DAPP 平台。

DAPP 开发正处于萌芽阶段，但 DAPP 提供的优势(传统的集中式应用程序没有)表明，我们可以期待在不久的将来看到区块链技术令人印象深刻的新功能和用例。

—

陕雷

关注 Lansaar Research 关于媒体的最新新兴技术和新商业模式。

什么是“数据工程师？”

原文：https://towardsdatascience.com/what-is-a-data-engineer-bee7a2d82667?source=collection_archive---------6-----------------------

今年早些时候，我的老板与我和一位同事一起为我们的团队定义了一个新职位——数据工程师职位。这让我很兴奋，因为自从进入大学毕业后的职业生涯以来，我一直有一个不幸的*惯，那就是从事与他们的头衔或描述不符的工作。在研究了其他公司如何描述相同的职位后，我意识到这最接*我目前的职责(以及我的兴趣)。

上周，我有机会描述了我的职业道路，以及在此基础上，我如何解释我目前作为一名数据工程师的职责。我进一步解释了我所看到的“数据工程师”和其他几个热门的数据相关职业(包括著名的“数据科学家”)之间的区别。最终目标是帮助一个同为多面手的人(也在市场运营部门工作)决定她在职业生涯中可能有哪些选择。

在收到积极的反馈后，我决定写下我的想法来阐明我所看到的数据工程。

我怎么会在这里

大学一毕业(拥有数学学位)，我就在临床研究领域找到了一份“治疗数据分析师”的工作它通常被描述为一个数据科学家类型的角色，在谷歌搜索这个术语并看到它是一个有前途的职业后，我就接受了这个角色。几年后，随着对行业标准术语有了更多的了解，我把它更多地描述为一个商业智能分析师，也就是说，把来自不同来源的数据拉进中小企业的标准报告中。这里和那里都涉及到数据科学——我们会被要求根据数据帮助做出决定，然后我们会创建用 r 编写的定制算法。

随着时间的推移，我意识到我们的许多业务问题可以通过提供对我们正在使用的数据的更容易的访问来解决，这个角色演变成了一个商业智能工程师。我的日日夜夜都专注于数据库设计、ETL 工作、与供应商应用程序的基本集成，以及设计用户界面(虽然有些糟糕，但总比没有好)。我保留了我最初的头衔——治疗数据分析师——当我开始寻找职业生涯的下一步时，这是一个障碍，因为我没有合适的词语来描述我正在做什么或想要做什么。

当我作为一名解决方案工程师被 Red Hat 聘为营销运营时，这份工作被官方描述为用最新的 NodeJS 栈构建内部的、面向用户的工具。鉴于我的技能，我有机会从事我们的营销自动化基础设施的工作(当时主要是在 Eloqua 的程序构建器界面中构建的)。日常工作包括设计新的数据自动化流程，并使用数据分析对现有流程进行故障排除。但是，随着解决方案工程师团队越来越关注 javascript 应用程序，我们需要对数据人员所做的事情进行新的描述。看了几篇很有帮助的博文(数据工程师的崛起)，我们团队的数据工程师工作诞生了。

有什么区别？

我和我的数据工程师( D E)同事认为自己是构建健壮、一致、高质量数据流程的人。我们中的一些人有不同的关注点(例如，开发接*实时的销售线索数据管道与维护全球数据仓库和仪表板)，但质量和一致性是我们的共同因素。

我们的目标还包括教育和鼓励其他企业用户如何最好地使用和应用可用数据。由于我们最接*数据创建级别，我们通常是理解数据可能具有的潜在假设和警告的专家(这对于做出基于数据和数据驱动的决策至关重要)。

我们的营销运营团队有许多面向数据的角色，因此区分这些角色的起点和终点非常重要:

应用工程师:这两个职位通常需要相同的技能(面向对象编程，解决问题)，但是应用工程师通常在 UX 投资更多。DEs 也有潜在的更大的错误后果，包括数据修复工作和收入损失。
数据分析师:通常专注于解释和说明数据，以帮助业务用户做出更好的决策。虽然涉及到分析，但对于 DE 来说，其目的通常是排除故障和改进现有的基础设施。
数据科学家:热门职业，有时从 BI 分析师到机器学*专家不等(因为是比较年轻的职业，像德，没那么多固化的定义)。在不知不觉中，DE 角色经常有很多重叠，因为数据科学家需要干净、标准化的数据来进行分析。

我希望这能为一些人提供数据工程的有用解释，以及它与其他数据职业的关系。考虑到数据收集和使用的迅速发展，对进入这个行业的人来说，清楚地了解这些选项是很重要的。

请随时留下您的想法、问题或不同意见！

什么是决策树？

原文：https://towardsdatascience.com/what-is-a-decision-tree-22975f00f3e1?source=collection_archive---------2-----------------------

银行在考虑是否向某人提供贷款时，通常会考虑一系列问题，以判断向个人提供贷款是否安全。那些问题可以从人有什么样的收入这样简单的问题开始。如果介于 30-70，000 美元之间，他们会继续回答下一个问题。他们目前的工作做了多长时间？如果 1-5 年后，这会导致他们的下一个问题:他们会用信用卡付款吗？如果是，他们会提供贷款，如果不是，他们不会。这个过程最基本的形式是决策树。

决策树是用于回归和分类问题的大量使用的非参数有效机器学*建模技术。为了找到解决方案，决策树根据预测数据对结果变量进行连续的、分层的决策。

那么这一切意味着什么呢？

分层意味着模型由一系列问题定义，当应用于任何观察时，这些问题导致一个类别标签或一个值。一旦建立起来，模型就像一系列“如果这发生，那么这发生”条件中的协议，从输入数据产生特定的结果。

非参数方法意味着没有关于误差或数据分布的潜在假设。它基本上意味着模型是基于观察到的数据构建的。

目标变量使用一组离散值的决策树模型被分类为分类树。在这些树中，每个节点或叶子代表类标签，而分支代表导致类标签的特征的合取。目标变量取连续值(通常是数字)的决策树称为回归树。这两种类型通常在 CART(分类和回归树)中一起被提及。

每个购物车模型都是有向无环图的一个例子。这些图具有表示关于给定预测值的主变量的决策点的节点，边是节点之间的连接。在上面的贷款场景中，30-70 美元是一个优势，而“工作年限”是节点。

由于决策树的目标是在每个节点的末端做出最佳选择，因此它需要一种能够做到这一点的算法。这种算法被称为亨特算法，它既贪婪又递归。贪婪意味着在步骤中它做出最优决策，递归意味着它将较大的问题分成较小的问题，并以相同的方式解决它们。根据称为纯度的度量标准，决定在每个节点进行拆分。当一个节点被 50/50 平均分割时，它是 100%不纯的，当它的所有数据都属于一个类时，它是 100%纯的。

为了优化我们的模型，我们需要达到最大纯度并避免杂质。为了衡量这一点，我们使用了基尼系数，它衡量随机选择的元素被错误标记的频率，如果它是根据分布随机标记的。它的计算方法是将标签为 I 的物品被选中的概率 pi 乘以时间分类错误的概率(1–pi)。我们的目标是让它达到 0，在这里它将是最小不纯的，最大纯的，属于一个类别。

使用的另一个度量是信息增益，它用于决定在树的每一步拆分什么特征。这是通过维基百科精心设计的方程式计算出来的，

Information Gain = Entropy(parent) - Weighted Sum of Entropy(Children).

虽然这是一个很好的模型，但它确实存在一个很大的问题，即当所有信息都在一个类或属性中时，它会停止运行。以偏差为代价，这个模型的方差是巨大的，肯定会导致过度拟合。“决策树学*者可以创建过于复杂的树，这些树不能很好地从训练数据中归纳出来。”那么网络如何应对这种情况呢？我们可以设置决策树的最大深度(即，它将深入多少个节点(上面的贷款树的深度为 3 )),和/或另一种方法是指定做出每个决策所需的最小数据点数。

决策树的其他缺点是什么:它使用贪婪算法进行局部优化，我们不能保证返回到全局最优的决策树。如果单个类接受一个数据集，这是一个令人难以置信的有偏差的模型，除非数据集在放入树中之前是平衡的。

虽然有缺点，但决策树也有很多优点。

由于它们的可视化表示，它们非常容易理解，它们需要很少的数据，可以处理定性和定量数据，可以使用统计集进行验证，可以处理大量数据，并且计算成本非常低。

我希望这篇文章能帮助你更好地理解决策树。对于编码和更多关于它们的知识，我强烈建议您查看关于决策树的 Scikit-Learns 文档。

什么是生成性对抗网络？

原文：https://towardsdatascience.com/what-is-a-generative-adversarial-network-76898dd7ea65?source=collection_archive---------6-----------------------

生成模型中有什么？

在我们开始讨论生成对抗网络 (GANs)之前，有必要问一个问题:生成模型中有什么？为什么我们甚至想拥有这样的东西？目标是什么？这些问题可以帮助我们思考如何更好地与 GANs 合作。

那么我们为什么想要一个生成模型呢？嗯，名字里就有！我们希望创造一些东西。但是我们希望产生什么呢？通常，我们希望生成数据(我知道，不是很具体)。除此之外，我们很可能希望生成以前从未见过的数据，但仍然适合某种数据分布(即我们已经放在一边的某种预定义数据集)。

这样一个生成模型的目标是什么？变得如此善于提出新生成的内容，以至于我们(或任何正在观察样本的系统)再也无法区分什么是原创的，什么是生成的。一旦我们有了一个可以做这么多的系统，我们就可以自由地开始产生我们以前从未见过的新样本，但仍然是令人信服的真实数据。

为了更深入一点，我们希望我们的生成模型能够准确地估计我们真实数据的概率分布。我们会说，如果我们有一个参数 W，我们希望找到使真实样本的可能性最大化的参数 W。当我们训练我们的生成模型时，我们找到这个理想的参数 W，使得我们最小化我们对数据分布的估计和实际数据分布之间的距离。

分布之间距离的一个很好的度量是 Kullback-Leibler 散度，它表明最大化对数似然相当于最小化这个距离。采用我们的参数化生成模型，并最小化它与实际数据分布之间的距离，这就是我们如何创建一个好的生成模型。它还把我们带到了两种类型的生成模型的分支。

显式分布生成模型

显式分布生成模型提出显式定义的生成模型分布。然后，它通过对数据样本的训练来改进这种明确定义的参数化估计。显式分布生成模型的一个例子是变分自动编码器 (VAE)。VAEs 需要一个明确假定的先验分布和似然分布。他们使用这两个组成部分得出一个“变分*似”来评估他们的表现。由于这些需求和这个组件，vae 必须显式分布。

隐式分布生成模型

就像你可能已经放在一起的一样，隐式分布的生成模型不需要对它们的模型分布进行显式定义。相反，这些模型通过从其参数化分布中间接采样数据来训练自己。你可能已经猜到了，这就是 GAN 所做的。

它到底是怎么做到的？让我们深入研究一下 GANs，然后开始描绘这幅画面。

高级 GAN 理解

生成敌对网络的名字有三个组成部分。我们已经谈到了生成方面，网络方面是不言自明的。但是对抗性的部分呢？

GAN 网络由两部分组成，一个发生器(G)和一个鉴别器(D)。这两个组件一起出现在网络中，作为对手工作，推动彼此的性能。

发电机

生成器负责生成虚假的数据示例。它将一些潜在变量(我们称之为 z)作为输入，输出与原始数据集中的数据形式相同的数据。

潜变量是隐藏变量。当谈到甘时，我们有一个“潜在空间”的概念，我们可以从中取样。我们可以不断地滑过这个潜在的空间，当你有一个训练有素的 GAN 时，它会对输出产生实质性的影响(有时是可以理解的影响)。

如果我们的潜在变量是 z，我们的目标变量是 x，我们可以把网络的生成器看作是学*一个从 z(潜在空间)映射到 x(希望是真实的数据分布)的函数。

鉴别器

鉴别者的作用就是鉴别。它负责接收样本列表，并预测给定样本是真是假。如果鉴别器认为样本是真实的，它将输出更高的概率。

我们可以把我们的鉴别器想象成某种“扯淡检测器”。

对抗性竞争

这两个组成部分走到一起，一决雌雄。生成器和鉴别器彼此对立，试图最大化相反的目标:生成器希望创建看起来越来越真实的样本，而鉴别器希望总是正确地分类样本来自哪里。

事实上，这些目标是彼此直接对立的，这也是 GANs 名字中对抗性部分的由来。

谁不爱用一个好的比喻来学*理解一个概念呢？

艺术品赝品

当我第一次了解甘斯时，我最喜欢的比喻是伪造者对批评家的比喻。在这个比喻中，我们创造者是一个试图伪造艺术品的罪犯，而我们的鉴别者是一个艺术评论家，他应该能够正确地鉴别一件作品是赝品还是真品。

两者来回往复，彼此直接对立。试图超越他人，因为他们的工作依赖于此。

伪造的货币

如果不是艺术品伪造任务，而是我们有一个试图制造假币的罪犯和一个试图确保他们不接受任何假币的银行实*生。

也许在开始的时候罪犯是非常坏的。他们进来，试图递给实*生一张纸，上面用蜡笔画着一美元钞票。这明显是假美元。但也许实*生也真的不擅长他们的工作，并努力弄清楚这是不是真的假的。两个人都会从他们的第一次互动中学到很多。第二天，当罪犯进来的时候，他们的假钱会变得更难辨别真假。

在日复一日的活动中，这两个人来来回回，变得非常擅长他们的工作。然而，在某一点上，可能有一天两者会达到某种平衡。从那里，罪犯的假美元变得如此逼真，甚至没有一个经验丰富的专家甚至可以开始告诉它是假的还是真的。

那是银行实*生被解雇的日子。

这也是我们利用我们的罪犯变得非常富有的一天！

鹦鹉

前两个例子非常直观。但是一个稍微不同的例子呢。

假设我们的发电机是我们的宠物鹦鹉，我们的鉴别者是我们的弟弟。每天，我们坐在窗帘后面，我们的鹦鹉坐在另一个窗帘后面。我们的鹦鹉会试着模仿我们的声音来愚弄我们的弟弟。如果他成功了，我们就请他吃一顿。如果我们的兄弟猜对了我们在哪个窗帘后面，我们会给我们的兄弟一份礼物(希望不是给我们的鹦鹉的礼物)。

可能一开始，鹦鹉真的不擅长模仿我们的声音。但是日复一日的练*，我们的鹦鹉也许能够发展出完美地模仿我们声音的技能。在这一点上，我们已经训练我们的鹦鹉像我们一样说话，我们可以成为网络名人。

得分！

怪物背后的数学

在我们结束对 GAN 的介绍之前，有必要稍微详细地探索一下 GAN 背后的数学。gan 的目标是通过求解以下 minimax 方程，在网络的两部分之间找到平衡:

我们称这个方程为极大极小方程，因为我们试图联合优化两个参数化网络 G 和 D，以找到两者之间的平衡。我们希望最大化 D 的混乱，同时最小化 g 的失败。当求解时，我们的参数化的、隐式的、生成的数据分布应该相当好地匹配底层的原始数据分布。

为了进一步分解等式的各个部分，让我们多分析和思考一下。从 D 这一边，它想最大化这个方程。当一个真正的样本进来时，它希望最大化它的输出，当一个假样本进来时，它希望最小化它的输出。这就是等式右半部分的本质所在。另一方面，当 G 得到一个假样本时，它试图欺骗 D 使其产量最大化。这就是为什么 D 试图最大化而 G 试图最小化。

由于最小化/最大化，我们得到了 minimax 这个术语。

现在，假设 G 和 D 被很好地参数化，因此有足够的学*能力，这个极大极小方程可以帮助我们达到两者之间的纳什均衡。这是理想的。

如何实现这一点？

简单:我们只是来回迭代。

开玩笑的。其实并不简单。但是我们可以简单地描述一下。

首先，我们将首先训练 D 成为固定版本 G 上的最佳分类器。从那里，我们固定 D 并训练 G 以最好地愚弄固定 D。通过来回迭代，我们可以优化我们的极大极小方程，直到 D 不再能够区分真实和虚假样本，因为我们的生成数据分布或多或少无法与实际数据分布区分开来。此时，D 将为它遇到的每个样本输出 50%的概率。

包扎

这就是我们对甘斯的介绍。但是男孩还有更多！我们只是刚刚开始触及表面，在高层次上触及一切。然而，还有更多的错综复杂的事情要发生。并非所有事情都像我们目前概述的那样简单，在真实环境中训练 GAN 实际上可能非常困难。出于这个原因，我们将在后面的帖子中更深入地讨论 GANs 的组件、问题、突破、变化等等。现在，只要陶醉于这样一个事实:你正在理解生成模型和 GANs 的神奇世界！

如果你喜欢这篇文章，或者发现它在任何方面都有帮助，如果你给我一大笔一美元或两美元来资助我的机器学*教育和研究，我会永远爱你！每一美元都让我离成功更*一步，我永远心存感激。

敬请关注*期更多 GAN 博客！

P.S .非常感谢生成性对抗网络及其变体如何工作:GAN 概述的作者，他们帮助启发了我，让我对 GAN 如何工作有了更多的了解。如果没有他们的论文，这个系列是不可能完成的。

最初发表于T5【hunterheidenreich.com】。

卷积神经网络新手入门

原文：https://towardsdatascience.com/what-is-a-neural-network-6010edabde2b?source=collection_archive---------2-----------------------

这是一只狗。

Image 1: Dog // Source

这是一只猫。

Image 2: Cat // Source

当我们的眼睛看到这两张图片时，我们的大脑会立即告诉我们正在展示的是哪种动物。很简单，对吧？但是如果你不得不教一台机器区分猫和狗呢？

如果我们仅仅依靠我们在学校学*的基于逻辑的(“传统”)编程，这几乎是不可能的。我们可以尝试对猫和狗的特征进行分类，比如说，猫有尖尖的耳朵和锋利的爪子，而狗通常有较平的耳朵和较钝的爪子。因此，如果动物有尖尖的耳朵和锋利的爪子，那么它就是猫。如果不是，那就是狗。

然而，这也带来了许多问题。首先，有很多例外。有尖耳朵的狗和耷拉着耳朵的猫。还有，有很多猫不露出爪子的画面。除非我们手动编程所有的例外——会有很多——很难简单地通过从列表中勾掉它们的特征来简单地区分这两种动物。其次，机器将如何识别图片是否包含尖耳朵？图像没有标签说{尖耳朵:真，尖爪子:真}，这意味着我们必须自己找到一种方法来确定它。当我们看图片时，我们会自动看到尖尖的耳朵和锋利的爪子，但机器如何学*呢？

当我们看到一只狗的图像时，我们大脑中的某些神经元受到刺激，向其他神经元发送信号，其他神经元向更多的神经元发送信号，最终导致某些神经元被激活，“告诉”我们看到了一只狗。神经网络试图模拟这一过程，建立一个“迷你大脑”，可以完成简单的任务，如区分猫和狗。

Image 3: Basic neural network // Source

最基本的神经网络看起来像这样。我们从神经元的输入层开始，它激活隐藏层的神经元，然后激活输出层的神经元。把上图中的每个圆圈想象成一个神经元。每个神经元包含一个数字，称为它的激活。

在狗和猫的例子中，给我们一张照片，我们必须区分它是狗还是猫。所以我们的输入是照片，我们的输出是它是猫的概率和它是狗的概率。

为了简单起见，我们只给机器黑白照片。假设我们传入一张尺寸为 64 x 64 像素的照片:我们有 64 x 64 = 4096 像素。这些像素中的每一个都有一个对应于像素灰度值的数字。下图中的每个像素都有一个从 0 到 255 的数字，0 代表黑色，255 代表白色。

Image 4: Input image // Source

因此，输入层将由 4096 个激活排列在一起的神经元组成，或者由 4096 个数字组成的数组(列表)。

当我们传入一张大小不是 64 x 64 像素的照片时会发生什么？神经网络有一个固定的输入层大小，这意味着它必须分析 64 x 64 像素的照片。如果我们传入的照片比这个大，我们可以给机器编程，只分析中间的 64 x 64 像素，或者缩小整张照片，直到它达到那个尺寸。如果我们传入的照片小于 64 x 64，我们可以放大照片，或者干脆不分析。当然，64 这个数字是我选择的。您可以在每次运行时更改输入大小。计算机科学家通过实验发现，分析正方形部分(例如 64 x 64，而不是 64 x 70)会产生更好的结果，所以通常我们会继续分析正方形部分。

另一方面，输出层应该只包含两个神经元:一个神经元表示它是猫的概率，另一个表示它是狗的概率。理想情况下，如果我们传入一张猫的照片，我们应该得到这样的结果:

Image 5: Cat output

或者，从数值上来说，是这样的数组:[1.00，0.00]。

如果我们传入一张狗的照片，我们应该得到相反的结果。然而，更有可能的是，一个训练有素的神经网络可能会产生这样的结果:

Image 6: Dog output

或者，从数值上来说，是这样的数组:[0.98，0.02]。

神经网络训练得越好，就越接*正确答案。

在输入层和输出层之间，有几个隐藏层。在上图中，只显示了一个由 5 个神经元组成的隐藏层，但大多数神经网络都有多个包含许多神经元的隐藏层。理想情况下，我们可以想象每一层都有特定的用途；例如，第二层(第一隐藏层)将识别动物的轮廓，第三层将识别某些形状(如圆形)，第四层将识别动物部分(例如，圆内的圆可能是眼睛和瞳孔)，最后一层(输出层)将根据动物部分的特征识别它是猫还是狗。

这是怎么回事？这个网站展示了如何很好地分析图像的特征。这里，人的输入图像被转换成人的轮廓的输出。

Image 7: Convolution layer

这可以简单地通过抓取 9 个像素(3 x 3，如输入图像的左上角所示)并将 9 个像素中的每一个乘以某个数字，然后将它们加在一起来完成。在本例中，9 个像素乘以这些数字:

Image 8: Convolution kernel

左上角的像素灰度数乘以-1，右上角的像素灰度数乘以-1…等等。然后，所有的数字加在一起，这个新的灰度值就是输出图像中相关像素的数量。这里，输出是-172，所以输出图像中红色框中的像素是黑色的。

或者，简单地说，机器在一个 3×3 矩阵中取 9 个像素，并让它与另一个 3×3 矩阵进行标量乘法，以产生新图像的新灰度数。

然后，机器向下移动到下一组 3 x 3 像素，如下所示:

Image 9: Convolution layer

它会继续下去，直到创建一个完整的输出图像，只包含原始图像的轮廓。

同样的事情也可以用我们的狗对猫神经网络的前两层来做。狗或猫的照片被传入，然后经过一个变换矩阵，在图片中勾勒出动物的轮廓，以创建一个新的轮廓图片。新轮廓图片中的每个像素是第二层中的一个神经元。

在两层之间可以进行不止一次转换。例如，我们可以选择突出狗图片的垂直边缘和水平边缘。这是两个需要两个变换矩阵的变换，将产生两个输出图像。在这种情况下，两个图像(及其像素)可以放在一起形成第二层。这样，第二层不必包含与输入层相同数量的神经元；事实上，神经网络中的每一层都不需要拥有相同数量的神经元。

从第二层开始，对图像进行更多的变换以产生其余的隐藏层。最后一个隐藏层然后经历最后的变换，产生两个数字:它是猫的概率和它是狗的概率。

该视频展示了识别字母的神经网络的不同层，初始图像经历了几次转换，直到最终映射到某个字母。

Image 10: Convolution layer

回到这个例子，输入图像中的 3×3 像素乘以轮廓变换矩阵产生-172，即输出图像中像素的激活。我们称变换矩阵中的数字(1 和 8)为图像的权重。为了更好的形象化，这是我们的神经网络图:

Image 11: Weights

因为空间有限，我只将输入图像中中间一列的 3 个像素表示为输入层中的三个神经元。隐藏层中的顶部神经元是输出图像中产生的像素。神经元乘以的每个数字(1 和 8)就是神经元的权重。

有时候，我们可能想做矩阵乘法之外的另一种运算。例如，我们可能希望将激活下移一个特定的值。例如，我们可以使用 9 个像素和变换矩阵，取其标量积得到-172，然后减去 10 得到-162。在这种情况下，10 将是它的偏差，这意味着神经元必须至少为 10 才能有意义地活跃。

每个神经元都有自己的偏好和权重。通过正确的权重和偏差，神经网络将能够区分猫和狗。

2020 年的当代网络刮刀是什么样的？

原文：https://towardsdatascience.com/what-is-a-present-day-scraper-e2c3d3b79648?source=collection_archive---------14-----------------------

如果网站所有者不通过 API 授权用户访问，2020 年网络数据提取或网络抓取是获得所需数据的唯一途径。

Photo by Bruno Mira on Unsplash

许多网站，如 Twitter、YouTube 或脸书，提供了一种通过公共 API 访问数据的简单方法。使用 API 获得的所有信息都是结构化的和规范化的。例如，它可以是 JSON、CSV 或 XML 格式。

从任何网站提取数据的 3 种方法。

排名第一的官方 API。

首先，你应该总是检查是否有一个官方的 API，你可以用它来获得想要的数据。

有时官方 API 更新不准确，或者其中缺少一些数据。

#2“隐藏的 API”。

后端可能会生成 JSON 或 XML 格式的数据，供前端使用。

使用 web 浏览器检查器研究 XMLHttpRequest (XHR)为我们提供了另一种访问数据的方式。它会像官方 API 那样为我们提供数据。

如何获取这些数据？让我们寻找 API 端点！

例如，让我们看一下https://covid-19.dataflowkit.com/资源，它为网站访问者展示了当地的新冠肺炎案例。

通过按 Ctrl+Shift+I 调用 Chrome DevTools
控制台出现后，转到“网络”选项卡。
让我们选择 XHR 过滤器来捕捉一个 API 端点作为“XHR”请求，如果它可用的话。"
确保“录制”按钮已启用。
刷新网页。
当您看到与数据相关的内容已经出现在网页上时，请单击停止“记录”。

现在，您可以在左侧看到一个请求列表。调查他们。预览选项卡显示名为"v1."的项目的一组值

按“标题”选项卡查看请求的详细信息。对我们来说最重要的是网址。"v1"的请求网址是[https://covid-19.dataflowkit.com/v1](https://covid-19.dataflowkit.com/v1)。现在，让我们以另一个浏览器标签打开该 URL，看看会发生什么。

酷！这就是我们要找的。

直接从 API 获取数据或使用上述技术获取数据是从网站下载数据集的最简单方法。当然，这些方法不会对所有的网站都有效，这就是为什么网络抓取库仍然是必要的。

如果网站所有者不通过 API 授予用户访问权限，Web 数据提取或 web 抓取是获取所需数据的唯一途径。Web 抓取是一种 的数据抽取技术 ，替代手工的重复键入或复制粘贴。

#3 网站抓取。

懂规矩！

在抓取网站之前应该检查什么？

Photo by Adam Sherez on Unsplash

☑️ Robots.txt 是你打算抓取网站数据时首先要检查的。Robots.txt 文件列出了您或机器人应该如何与它们交互的规则。您应该始终尊重并遵守 robots.txt 中列出的所有规则。

☑️确保你也看了网站的使用条款。如果使用条款规定没有说限制对僵尸程序和蜘蛛的访问，也没有禁止服务器的快速请求，那么爬行是可以的。

☑️为了遵守新的欧盟通用数据保护条例，或者 GDPR，你应该首先评估你的网络废弃项目。

如果你不收集个人资料，那么 GDPR 就不适用。在这种情况下，您可以跳过这一部分，进入下一步。

☑️:使用提取的数据时要小心，因为有时你可能会侵犯版权。如果使用条款没有对数据的特定用途做出限制，只要爬虫不侵犯版权，什么都可以。

查找更多信息:网页抓取合法不合法？

呈现 JavaScript 驱动的网站

JavaScript 框架如 Angular、React、Vue.js 广泛用于构建现代 web 应用程序。简而言之，典型的 web 应用前端由 HTML + JS 代码+ CSS 样式组成。通常，源 HTML 最初并不包含所有的实际内容。在网页下载过程中，HTML DOM 元素与呈现 JavaScript 代码一起被动态加载。结果，我们得到了静态 HTML。

☑️:你可以使用 Selenium 进行网站抓取，但这不是一个好主意。许多教程都在教授如何使用 Selenium 从网站上抓取数据。他们的主页清楚地说明 Selenium 是用于测试目的的自动化 web 应用程序的。

☑️ PhantomJS 早期适合处理此类任务，但自 2018 年以来，其开发已暂停。

☑️或者，Scrapinghub 的 Splash 是在 Headless Chrome 出现之前 Python 程序员的一个选择。

你的浏览器本质上是一个网站刮刀。如今最好的方法是使用无头 Chrome，因为它可以“原生地”呈现网页。

puppeter节点库是 Javascript 开发者控制 Chrome over DevTools 协议的最佳选择。

Go 开发者可以选择从 chromedp 或 cdp 中选择一个，通过 DevTools 协议访问 Chrome。

放聪明点。不要让他们阻挡你。

Photo by Randy Fath on Unsplash

一些网站使用反抓取技术来阻止 web scrapper 工具获取在线数据。网络抓取永远是一场“猫捉老鼠”的游戏。因此，在构建 web scraper 时，考虑以下方法来避免阻塞。否则你有可能得不到想要的结果。

技巧 1:在请求之间制造随机延迟。

当一个人访问一个网站时，访问不同页面的速度比网络爬虫的速度慢很多倍。相反，Web scraper 可以立即同时提取几个页面。短时间内网站的巨大流量看起来很可疑。

你应该找出理想的爬行速度，这是每个网站的个人。为了模拟人类用户行为，您可以在请求之间添加随机延迟。

不要给站点造成过多的负载。对你从中提取数据的网站要有礼貌，这样你就可以继续抓取数据而不会被屏蔽。

技巧 2:改变用户代理。

当浏览器连接到网站时，它在 HTTP 头中传递用户代理(UA) 字符串。该字段标识浏览器、其版本号和主机操作系统。

典型的用户代理字符串如下所示:"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36".

如果对同一个域的多个请求包含同一个用户代理，网站可以很快检测并阻止您。
一些网站阻止特定的请求，如果他们包含不同于一般浏览器的用户代理。
如果“用户代理”价值丢失，许多网站将不允许访问他们的内容。

解决方法是什么？

您必须建立一个用户代理列表，并随机轮换它们。

技巧 3:轮换 ip 地址。使用代理服务器。

如果您在抓取过程中从同一个 IP 地址发送多个请求，网站会认为您行为可疑并阻止您。

对于最简单的情况，使用最便宜的数据中心代理就足够了。但是一些网站有先进的僵尸检测算法，所以你必须使用住宅或移动代理来清除它们。

例如，欧洲有人想从一个只允许美国用户访问的网站中提取数据。很明显，通过位于美国的代理服务器进行请求，因为它们的流量似乎来自本地到美国的 IP 地址。

要获得目标网站的特定国家版本，只需在数据流工具包获取服务的请求参数中指定任意国家。

技巧 4:避免刮擦模式。模仿人类的行为。

人类在浏览网站时是不一致的。他们做不同的随机动作，比如点击页面和移动鼠标。

相反，网页抓取机器人在抓取网站时会遵循特定的模式。

教你的刮刀模仿人类的行为。这样，网站机器人检测算法就没有任何理由阻止你自动化你的抓取任务。

提示 5:留意防刮擦工具。

检测黑客攻击或网络抓取企图最常用的工具之一是“蜜罐”人眼看不到蜜罐，但机器人或网页抓取工具可以看到。就在你的抓取工具点击了这样一个隐藏链接之后，网站很容易就屏蔽了你。

找出一个链接是否设置了"display: none"或"visibility: hidden" CSS 属性，如果它们只是停止跟随那个链接。否则，一个网站会立即识别你是一个机器人或刮刀，指纹你的请求的属性，并禁止你。

技巧 6:解决在线验证码。

在大规模抓取网站的同时，有机会被网站屏蔽。然后你开始看到验证码页面，而不是网页。

验证码是网站用来反击机器人和爬虫的测试，要求网站访问者在继续之前证明他们是人类。

许多网站使用谷歌的 reCAPTCHA。reCAPTCHA 的最新版本 v3 分析人类行为，并要求他们勾选"I'm not a robot"框。

验证码解析服务使用两种方法来解析验证码:

☑️ 基于人工的验证码求解服务

当你把你的验证码发送到这样的服务，人类工作者解决一个验证码，并把它发送回来。

☑️ OCR(光学字符识别)解决方案

在这种情况下，OCR 技术用于自动解决验证码。

点击式可视选择器。

当然，我们不打算只下载和呈现 JavaScript 驱动的网页，而是从中提取结构化数据。

在开始数据提取之前，让我们指定数据的模式。请看销售智能手机的网络商店截图。我们想刮一个项目的图像，标题，及其价格。

谷歌 chrome inspect 工具在研究 HTML 网页的 DOM 结构方面做得很好。

Click the Inspect icon in the top-left corner of DevTools.

Chrome Inspector tool

使用 Chrome Inspect 工具，您可以轻松地找到并复制网页上指定 DOM 元素的 CSS 选择器或 XPath 。

通常，当抓取一个网页时，您有不止一个相似的数据块要提取。在一次抓取会话中，您通常会抓取几个页面。

当然，你可以使用 Chrome Inspector 来构建一个有效的抓取工具。在一些复杂的情况下，这只是研究网页上特定元素属性的一种方法。

尽管现代在线 web 抓取器在大多数情况下提供了一种更舒适的方式来指定数据抓取的模式(CSS 选择器或 XPath ),设置分页规则，以及在此过程中处理详细页面的规则。

看看这个视频，了解它是如何工作的。

管理您的数据存储策略。

现在最广为人知的存储结构化数据的简单数据格式包括 CSV、Excel、JSON (Lines)。在解析网页之后，提取的数据可以被编码成目的地格式。这些格式适合用作小容量存储。

抓取几个页面可能很容易，但是几百万个页面需要不同的方法。

如何抓取几百万个页面，提取几千万条记录？

如果输出数据的大小从中等到巨大怎么办？

选择正确的格式作为输出数据。

Photo by Ricardo Gomez Angel / Unsplash

格式#1。逗号分隔值(CSV)格式

CSV 是最简单的人类可读数据交换格式。文件的每一行都是一条数据记录。每条记录都由逗号分隔的相同字段列表组成。

以下是以 CSV 数据表示的系列列表:

id,father,mother,children
1,Mark,Charlotte,1
2,John,Ann,3 
3,Bob,Monika,2

CSV 仅限于存储二维无类型数据。没有办法像普通 CSV 中的孩子的名字一样指定嵌套结构或值的类型。

格式#2。JSON

[
   {
      "id":1,
      "father":"Mark",
      "mother":"Charlotte",
      "children":[
         "Tom"
      ]
   },
   {
      "id":2,
      "father":"John",
      "mother":"Ann",
      "children":[
         "Jessika",
         "Antony",
         "Jack"
      ]
   },
   {
      "id":3,
      "father":"Bob",
      "mother":"Monika",
      "children":[
         "Jerry",
         "Karol"
      ]
   }
]

然而，在 JSON 文件中表示嵌套结构很容易。

如今，JavaScript Object Notation(JSON)成为事实上的数据交换格式标准，在大多数情况下取代了 XML。

我们的一个项目包含 300 万个解析过的页面。因此，最终 JSON 的大小超过 700 Mb。

当您必须处理这样大小的 JSONs 时，问题就出现了。要从 JSON 数组中插入或读取记录，每次都需要解析整个文件，这远非理想。

格式#3。JSON 行

让我们看看什么是 JSON 行格式，以及它与传统 JSON 的比较。使用 JSON 行在业内已经很普遍了。 Logstash 和 Docker 将日志存储为 JSON 行。

表示为 JSON 行格式的相同系列列表如下所示:

{"id":1,"father":"Mark","mother":"Charlotte","children":["Tom"]} {"id":2,"father":"John","mother":"Ann","children":["Jessika","Antony","Jack"]} {"id":3,"father":"Bob","mother":"Monika","children":["Jerry","Karol"]}

JSON Lines 由几行组成，其中每一行都是一个有效的 JSON 对象，由换行符\n分隔。

因为 JSON 行中的每个条目都是有效的 JSON，所以可以将每一行解析为独立的 JSON 文档。例如，您可以在其中进行搜索，将一个 10gb 的文件分割成较小的文件，而无需解析整个文件。您可以根据需要读取任意多的行来获得相同数量的记录。

摘要

一个好的刮削平台应该:

☑️ 同时从网页中获取和提取数据。

我们使用 Golang 的并发特性，发现它们非常棒；

☑️ 定期将提取的刮掉的 数据块保存在中央数据库中。

这样，在抓取许多页面时，您不必在 RAM 中存储太多数据。除此之外，以后可以很容易地将数据多次导出为不同的格式。我们使用 MongoDB 作为我们的中央存储。

☑️ 基于网络。

在线网站刮刀是可以从任何地方的任何设备连接到互联网。不同的操作系统不再是问题。都是浏览器的问题。

☑️ 对云友好。

它应该提供一种根据 web 数据提取项目的当前需求快速扩大或缩小云容量的方法。

结论

在这篇文章中，我试图解释如何在 2020 年抓取网页。但是在考虑抓取之前，试着找出官方 API 的存在或者寻找一些“隐藏的”API 端点。

如果您能花一分钟时间告诉我，2020 年您最常用的网络抓取方式是哪一种，我将不胜感激。就在下面给我留言评论吧。

刮的开心！

关于 2020 年网页抓取器的推文。

原载于 2020 年 5 月 27 日 https://blog.dataflowkit.com**的 。

什么是 AI 对齐？

原文：https://towardsdatascience.com/what-is-ai-alignment-2bbbe4633c7f?source=collection_archive---------12-----------------------

这篇博客是一个系列的一部分

第一部分是: AI —控制问题

在之前的博客中，我讨论了控制问题——我们面临的挑战是控制一台以与我们完全不同的方式思考的机器，它很可能比我们聪明得多。即使我们对控制问题有一个完美的解决方案，我们还剩下第二个问题，我们应该要求人工智能做什么，思考什么，重视什么？

这个问题就是 AI 对齐。

人工智能很可能比我们快得多(如果不是，为什么不多建几台服务器呢？那就一定会！)而且对我们来说，确认它想要做出的每一个决定都是不可行的，也是没有价值的。我们想要的是一套规则或原则，人工智能可以参考这些规则或原则，自己做出决定，知道通过遵循这些规则，它的行动将与人类想要的一致。

人工智能的这些规则系统分为两个主要类别——直接规范性和间接规范性。

直接规范性

有了直接的规范性，我们给 AI 提供了一套可以遵循的规则。这些规则中最著名的是艾萨克·阿西莫夫机器人定律，它是一个伟大的…基础…但是分崩离析，正如我们从阿西莫夫写的故事中看到的那样。

一个更现代的例子是 Nick Bostrom 的回形针最大化器。拿一个人工智能来说，让它的效用函数成为它的核心价值，来创造回形针。这听起来无害，并且是要求受控人工智能制作回形针的一种简单方法。我们不想让它做人类会做的事情；我们已经有工厂生产回形针了。我们使用人工智能的目的是找到新的、更好的、更有效的制造回形针的过程，并且制造出它应该制造的回形针。在它完成所有我们可能想要的曲别针之后，它会停止吗？不。它已经被硬连线制作回形针，所以它会继续制作回形针，即使在它使用了所有给它的材料，地球上的所有材料，甚至把我们星球和太阳系以外的材料变成回形针，如果可以的话。那些人类？它们也是由物质制成的，如果它是一个回形针，看起来会更好。如果有什么不同的话，人类变成回形针是特别重要的，因为在他们的人类形态中，他们可能会决定不再需要任何回形针。人工智能希望给自己尽可能高的概率来制作回形针，如果它预测人类可能不希望这种情况发生，他们就有机会以人工智能的方式获得，所以人工智能根除人类以提高其制作更多回形针的概率是合理的。

对此的改编是告诉一个回形针制作有限数量的回形针，比如 1000 个。不幸的是，这也不太管用。假设这个人工智能使用贝叶斯概率来衡量确定性，它永远不可能对任何事情都 100%或 0%确定。在制作了 1，000 个回形针之后，它将继续检查它是否精确地制作了 1，000 个，而不是 999 个，并且它们都是回形针应该有的样子。它将继续使用它将用来变成回形针的所有相同的资源来检查和再次检查这一点，因为 AIs 的最终价值，它的整个存在是关于确保精确地制作 1000 个回形针。另外，它也没什么更好的事情可做。

应用于比对，我们想要做的是找到一系列规则，人工智能可以严格遵守这些规则，并确保它正在做人类想要做的事情。我们目前提出的系统似乎都有漏洞，如果我们能够以人类的智力水平发现这些漏洞，那么对于超越人类水平的智力来说，发现和利用这些漏洞将是轻而易举的事情。

增加越来越多的规则听起来也没有吸引力。我们可以把这比作税法，税法有大量的规则。然而奇怪的是，我们似乎被人包围着，甚至是不纳税的大公司。更多的规则似乎提供了更多可被利用的漏洞，而不是更安全。在直接规范下，我们没有理由期望一个人工智能遵循规则的精神，只是严格遵守它们。

间接规范性

所以，进入替代方案。间接规范性并不要求 AI 遵循一套明确的静态规则。相反，它给了人工智能一个框架来寻找价值本身，通常要求它做我们“想要的”Eliezer Yudkowski 提供了一个框架，称为“连贯的外推意志”，简称 CEV。

用诗歌的术语来说，如果我们知道得更多，思考得更快，成为我们希望成为的人，在一起成长得更远，我们连贯的推断意志就是我们的愿望；外推收敛而不是发散，我们的愿望一致而不是干涉；如我们所愿的推断，如我们所愿的推断，如我们所愿的解释——Eliezer Yudkowski，机器智能研究所

这种方法有一个更深的抽象层来指导规范性，并要求 AI 基于对早期声明的诚实解释来创建自己的规则。我们在这里工作的假设是，我们已经解决了控制问题，所以人工智能不能为了任何邪恶的需要修改第一个声明。

随着间接规范性的出现，一件有趣的事情变得显而易见，那就是我们并不真的希望人工智能去做我们会做的事情，或者精确地评价我们会重视的东西。想象一个在维京时代创造的人工智能，在那里我们成功地编码了我们当时的价值观。我们很可能会拥有一个非常强壮和暴力的人工智能(抱歉，如果维京人不是这样，历史不是我的强项！).我们今天有不同的价值观，但那些价值观可能并不能反映 1000 年后我们将成为的人，甚至不能反映超人智能 AI 出现后我们将立即成为的人。例如，我们今天重视人类的生产力，这将变得不那么重要。我们也重视短期收益，以牺牲环境为代价提高生产率，而这不太可能适合我们未来的社会。我们想要的是一个人工智能，它可以为自己创造一个价值体系，总结我们未来的需求，而不牺牲今天社会的需求或价值。

很难预测人工智能在这种情况下会做什么。正如我们所说的，这个假设场景中的控制已经解决，我们要求人工智能做我们在未来会做的事情，我们的价值观趋同，做我们在这个声明中的意思。它预测的未来版本的我们可能可以接受人工智能为了我们自己的利益操纵我们自己的价值体系，即使这不是我们今天想要的东西，因为这是我们未来可能重视的东西。

我们如何找到正确的价值观？

简而言之，我们不知道。

关于伦理和道德的问题已经被哲学家们研究了几千年，而且确实没有令人满意的答案。我们甚至在最基本的问题上没有完全的共识——一些人认为我们可以发现一个普遍的伦理框架，另一些人认为伦理是我们当前理想的平均值，随着时间的推移而变化。仅仅因为人工智能是一个不同的问题，并不意味着我们会更容易找到答案。

提出的一个解决方案是创建一个精灵类型的人工智能，并询问它应该被赋予什么值，或者我们应该使用什么间接指令来实现想要的值。如果我们使用这种类型的人工智能来解决控制问题，这种方法的问题就可想而知了。如果我们用它来解决控制问题，精灵本身是无法被完全控制的。我们可能会试图限制它对数据的访问，并给它一个非常严格的交流系统，比如只能回答是或不是的问题，但人类很难预测一个比我们更强大的智能可能会采取什么方法来逃离我们为它建造的笼子。应用于对齐，问题是我们如何知道未对齐的人工智能给出的答案是否确实符合人类价值观，因为我们期望我们需要一个不同于我们以前想到的任何答案。

Eliezer Yudkowski 将这种类型的人工智能与下棋计算机进行了比较。1950 年，克劳德·香农提出了一个理论上完美的国际象棋算法，从此“深蓝”花了 47 年时间打败了加里·卡斯帕罗夫。香农需要的是让他的算法实现的计算能力。人工智能排列虽然是在前香农天。即使有无限计算，我们也不知道我们将运行什么算法。

凭借我们今天可用的处理能力，理论上完美的算法和功能原型之间的差距可能会更短，但我们首先需要解决一些基本问题，以充分利用这种处理能力。

AI 是什么？

原文：https://towardsdatascience.com/what-is-ai-cc85fb25a981?source=collection_archive---------5-----------------------

我最*与一位非技术业务同事/经理会面，他要求我解释一些人工智能术语，如机器学*和深度学*。“机器学*是深度学*的一种，还是反过来？”。所以，我在白板上画了这幅图，然后开始了一个有点漫无边际的关于人工智能及其历史的演讲。然后我想到，许多业务类型都在问自己(和他们的同事)类似的问题，我看到不止一个经理混淆了这些区别。因此，这篇文章试图做一个快速的非技术性概述。

本着上面匆忙绘制的图片的精神，本文并不打算对人工智能的子领域进行彻底的分类。我也不做任何准确性的声明，所以如果你不同意，或者认为我在某些细节上错了，请对我宽容一些。如果你谷歌“什么是人工智能？”，你会得到大量有深度的文章/博客(包括维基百科条目)、书籍，以及许多更加全面的图片。但是许多非技术经理既没有时间也没有兴趣钻研细节；这篇文章旨在帮助这些人更好地了解人工智能。

人工智能可以大致分为符号人工智能和机器学*。如今，人工智能一词是机器学*的同义词，最*则是深度学*。但是，人工智能的起源大多是象征性的，带有旨在捕捉专家知识的手工编码规则。通常，精通 Lisp 或 Prolog 等“人工智能语言”的人工智能软件工程师会与领域专家(比如说，医学博士)配对，以 IF-THEN 规则的形式表示相关知识。除了规则，还有很多其他的符号化知识表示机制，比如框架。时至今日，你会发现许多产品都使用规则/框架，比如许多最先进的聊天机器人框架，它们使用 AIML 规则或意图框架来使用脚本对话创作对话。这些产品虽然取得了一些成功，但仍然受到下面提到的限制。

在 20 世纪 60 年代和 80 年代的几次人工智能炒作周期之后，人工智能领域进入了一个漫长的“人工智能冬天”直到 2000 年代中期。为什么？从软件工程的角度来看，规则/框架是脆弱的，一旦我们通过了几百条规则，就很难管理/维护一个符号化的人工智能系统。规则开始相互冲突，并且不可能跟踪规则触发的顺序和调试这些系统。规则必须由昂贵而忙碌的领域专家手动编写，并进行大量输入。这些系统中的“学*”大多是“受监督的”和离线的。人们试图通过基于用户交互反馈的“无监督”和在线学*来自动创建规则。然而，大多数这些尝试仍然是学术上的努力，很少有商业上成功的实现。

机器学*开始于 20 世纪 90 年代中期，当时计算机科学家和统计学家开始相互合作和学*。决策树和支持向量机等算法在 21 世纪初被用于挖掘越来越大的数据库，以获得可用于预测/分类和其他高级分析任务的模式。更快的计算机和 Hadoop 等“大数据”软件工具的出现激发了人们对数据驱动模式识别的兴趣，这种模式识别使计算机能够从历史数据中学*。主要区别是，新的人工智能工程师，现在称为数据科学家，不从事传统的软件工程。相反，他们的工作是从原始数据中提取特征，并使用这些特征来创建监督学*模型，使机器能够学*基于历史数据进行分类和预测。数据科学家提供带标签的数据，用于识别指向每个不同类/标签的要素组合。这种“模型工程”远比“规则工程”更强大，并受益于更快的计算机、更多数据和用户在线反馈的良性循环。无监督的机器学*方法(如聚类)通常与有监督的方法结合使用。

深度学*起源于人工神经网络(ANN)，它是“连接主义者 AI ”的一部分，也可以追溯到 20 世纪 60 年代。许多算法进步，如反向传播、多层感知器、卷积网络和递归网络，是在 20 世纪 80 年代、90 年代和 21 世纪初逐步发现的。但是深度学*，其名称来自大量的神经层(从 5 到 100 或更多)，只是在大约 5 年前随着 GPU 作为计算主力的出现才变得具有商业可行性。这些更快的基于 GPU 的计算机以及大量非结构化数据(如图像、音频、视频和文本)的可用性，是人工智能当前成功的关键。此外，在过去 5 年中，深度学*算法和架构的创新步伐令人难以置信。今天，深度学*系统可以以惊人的准确度执行图像识别、语音识别和自然语言理解任务。

深度学*系统也大多是受监督的学*系统，因为数据科学家必须提供大量带标签的数据来训练这些系统(神经元之间互连的权重)。但是，与更传统的统计机器学*算法(如随机森林)不同，深度学*系统可以自动从原始数据中进行特征提取。因此，数据科学家不必执行特征工程。深度学*的意义在于，连续的层在不断增加的抽象层次上学*特征。因此，虽然前几层可能识别边缘和其他较低层次的图像特征，但接下来的几层识别较高层次的特征，如鼻子/耳朵/嘴巴，而接下来的几层识别整张脸等等。

生成对抗网络(GANs) 和自动编码器是无监督深度学*系统的例子。强化学*系统是深度学*系统的例子，可以被认为是在线学*系统，因为它们直接从模拟环境中执行的动作和在真实环境中部署时获得的反馈中学*。自动驾驶汽车和游戏系统，如 AlphaGo 利用强化学*；AlphaGo 是基于模拟学*的一个很好的例子，因为该系统是通过无数次与自己对弈来训练的。这也是一个无监督学*的例子，因为系统通过观察自己的错误并纠正它们而变得更好。

人工智能还有许多其他相关的子领域，如进化(遗传)算法、博弈论、、多智能体系统等等。此外，请注意，人工智能受益于其他学科，如数学优化，这些学科已成为其他领域的一部分，如运筹学 (OR)。事实上，人工智能最*的繁荣也重振了对控制理论等相关领域的兴趣，因为自动驾驶汽车、无人机和机器人背后的许多算法都有其他学科的数学基础。因此，人工智能是一个真正的跨学科领域，来自各种背景的科学家和工程师能够应用他们的数学和软件技能。

我试图保持这个概述的非技术性和简短。我希望这能帮助一些商业人士掌握办公室里流传的一些流行词汇和行话。

什么是信息图？它与数据可视化有什么不同？

原文：https://towardsdatascience.com/what-is-an-infographic-and-how-is-it-different-from-a-data-visualization-a92c23b35197?source=collection_archive---------4-----------------------

你在任何地方都能看到它们——从教室到企业，信息图表充斥着我们的生活和媒体。很难一天不在我们的脸书 feed 或网络上的其他地方看到他们。有了信息图表制作软件，创建这些有趣的视觉效果比以往任何时候都更容易，许多人正在利用这一点。

然而，随着这个词被如此频繁地使用，人们不禁要问——信息图到底是什么？这些视觉效果很容易与其他形式混淆，尽管它们有自己独特的历史、设计和目的。

先来一个大概的定义。根据 dictionary.com的说法，信息图是“以图表、图形或其他图像的形式伴随着最少文字的信息的视觉呈现，旨在给出一个容易理解的概述，通常是一个复杂的主题。”

你可能会问:“但是这和数据可视化有什么不同？”根据《哈佛商业评论》的指南 好图表,有四种不同类型的信息图形:陈述性的、概念性的、探索性的和数据驱动的。为了找出特定图形的位置，您需要问自己两个问题:

我拥有的信息是概念性的还是数据驱动的？
我是在宣告什么还是在探索什么？

如果你对第一个问题的回答是“概念性的”或“数据驱动的”,对第二个问题的回答是“声明某事”,那么你可能正在处理一个信息图，绘制在下面图表的上半部分。

如果您对第一个问题的回答是“数据驱动”,对第二个问题的回答是“探索某物”,那么您很可能希望创建一个数据可视化，它绘制在此图表的右下象限。

每种图形类型的视觉示例

这个方便的图表可能会让你更好地了解如何对信息图形进行分类，但是要真正训练你的眼睛来识别每一个，你可能需要看一些例子。下面，我们提供了一些现实生活中的例子来帮助你识别它们之间的区别。

数据即:数据驱动和探索

Image Source

在爱因斯坦的想法首次出现一个世纪后，看看这张关于广义相对论对当前物理学研究的影响的迷人的数据可视化图。它允许用户通过放大数据点并从各种不同的角度查看来与信息进行充分的交互。这使得读者可以随心所欲地深入或浅显地研究数据。

图表:声明性或探索性

Image Source

图表经常在信息图中使用，但并不等同于后者。图表直观地显示特定的数据集，本质上可以是声明性的，也可以是探索性的。

如果你的星盘中的一切都是为了制造一个特定的、预先确定的点，那么你可以确定它是声明性的；然而，如果它在显示数据时没有将注意力吸引到某一点上，让浏览者得出自己的结论，那么它可能是探索性的。

尽管信息图可能包含图表，但它们使用其他图像和文字来为一个点服务。您可能会使用图表来显示单个数据集，而不是试图在一个视图中包含一大部分信息。

信息设计

Image Source

由于名称非常相似，很容易将信息设计与信息图混淆。然而，这两者仍然服务于明显不同的目的。根据 Dirk Knemeyer 的说法，信息设计并没有一个固定的定义。有各种各样的方法来理解它，正如你在这里看到的。一个这样的潜在定义是:“语言学科、艺术和美学学科、信息学科、传播学科、行为和认知学科、商业和法律以及媒体制作技术之间的交叉点。”

信息设计尤其用于连接和整合不同的学科。它不是一个特定的视觉类别，如信息图，因为它包含了广泛的概念。例如， Clare McDermott 建议使用“标注框”形式的信息设计来吸引对特定点的注意。

那么我们什么时候使用信息图表呢？

Jaime Nacach 通过解释信息图表的四种用途给出了答案:

图解数据:这意味着从调查(和类似的功能)中获取数据，并使它们比你的平均图表更有趣。
简化一个复杂的主题:如果你有一个令人难以置信的概念，并且需要一种快速简单的方法来分解它，信息图是一个不错的选择。
进行比较:信息图非常善于展示两件事是多么相似还是不同。
知名度:无论是与商业、政治还是任何其他领域相关，您都可以通过可共享的信息图表迅速提高品牌或事业的知名度。

问问你自己，“我想呈现什么样的信息？”如果你想要吸引眼球的东西，有大量简化的数据，信息图是正确的选择。

如果信息图已经演变成一套独特的视觉效果，那么这些图形最初是如何发展的，在哪里发展的？事实上，它们的起源可以追溯到很久以前。

开始的时候…

Image Source

可能最早被认为是“信息图表”的图片实际上是洞穴壁画。这些不是今天大多数人知道的信息图表，但它们仍然有类似的目的:将一个困难的主题，如一个故事或一课，转化为一种易于可视化和理解的格式。象形文字和地图可以被认为有类似的目的。

我们今天所知的信息图的最大功臣是 1626 年的克里斯托夫·席耐尔，他利用信息图追踪太阳的轨迹。他在 Rosa Ursina sive Sol 重印了这些，一份遗产就这样诞生了。

席耐尔可能已经播下了这个信息图表的种子，但是一个名叫威廉·普莱费尔的苏格兰人真的在它上面展开了。根据克莱夫·汤普森的说法，Playfair 最初绘制专利，后来意识到他可以将他的插图应用于经济学，使数据更具视觉吸引力。

随着 Playfair 掌舵，这些新兴的信息图表在 19 世纪开始在欧洲蓬勃发展，有几个著名的例子。安德烈·米歇尔·盖里(André-Michel Guerry)是第一个使用阴影来说明某种物质或主题密度较高的区域的人，例如犯罪较为常见的区域，许多人随后采取了其他措施。

19 世纪后期，弗洛伦斯·南丁格尔使用信息图表向维多利亚女王陈述了她的情况——具体来说，她希望克里米亚战争的参战者获得更好的医疗服务。

事实证明，信息图表已经从简单地展示科学或经济数据转变为展示道德和政治主题。这些被带到了美国，在那里“奴隶地图被用来决定内战中的战场。本质上，黑暗的区域意味着更多的奴隶，因此他们是应该首先关注的目标。

信息图在 20 世纪的使用更加多样化。丽贝卡·洋葱发布了一些来自科学美国人的 20 世纪早期的信息图表，这些图表聚焦于各种主题(例如，离婚的原因)。美国宇航局甚至向太空发送了信息图表，以先锋 10 号和先锋 11 号上的“先锋徽章”的形式。

21 世纪信息图的使用扩展到了许多媒体形式，包括电视节目、视频游戏和报纸文章。Adobe 等程序的出现使得创建视觉效果变得不那么费力，并为现在的程序和信息图表铺平了道路。

今天，信息图仍然用于新闻和其他媒体，但已经扩展到其他领域，如课堂和内容营销。

要避免的常见错误

如今，信息图有多种使用方式，也有多种出错方式。

Emilie Flutterman 给出了各种信息图表常用方式的例子。例如，她提到信息图经常被视为简历，可以用来进行比较和招募他人。

凯西·施勒克提到信息图表可以很好地用于评估，并为教师列出了各种资源，以及许多有创意的信息图表示例。她的博客值得一读，尤其是如果你是一名有兴趣将这些概念融入课堂的老师。同样，Catlin Tucker 评论了教授信息图表如何给她的学生提供有用的技能，并给出了他们工作的几个例子。

随着信息图表出现在课堂环境中，它们也出现在学生的演示中也就不足为奇了。许多学生自然看到了使他们的信息更吸引人和更容易获取的吸引力，这也使他们的信息更有娱乐性。

信息图表应用增长最快的领域可能是内容营销。这张信息图说明了许多人想在营销中使用信息图的几个原因，从制作病毒式内容到让你的主题更容易理解。乔·普利兹列出了一些最好的内容营销信息图，让你知道什么最有效。

虽然您可能已经准备好直接创建信息图，但首先有几件事您应该警惕。创建一个糟糕的信息图实际上会迷惑他人，让他们对你的主题不感兴趣，而不是吸引他们的注意力，让数据更加清晰。

Nayomi Chibana 给出了一些信息图表半途而废的 10 个原因。例如，她警告说，你应该从一个另类和原创的角度来接*一个广泛覆盖的主题，否则你可能会失去观众的注意力。他们还警告诸如糟糕的设计或信息图表太长等缺陷。

以下是一些让你的信息图脱颖而出的额外技巧:

别出心裁:做别人没做过的事，或者用新的方式去做。
做意想不到的事:给你的观众一个惊喜，但不要做得太安全。但是记住，要确保这个惊喜不会转移你的主题。
了解你的观众:记住你的观众，设计一些吸引他们的东西。
使用吸引人的颜色组合和图形:学*色彩理论，看看哪些颜色搭配起来很好，它们能唤起什么样的情感，然后开始运用它们。
理解你的主题:在你的信息图中包含信息之前，先弄清楚事实。

记住这些提示，你就可以开始创造一些惊人的视觉效果了。

敬未来

信息图现在非常流行，并且在过去几年里以惊人的方式发展，但是未来会怎样呢？

毫无疑问，信息图表将继续被企业、教育工作者和媒体频繁使用，但它们很有可能会像我们的技术一样发展。或许在未来，我们将开始看到更多互动的、类似游戏的信息图，以及融入虚拟现实体验的 3D 沉浸式信息图。

信息图仍在发展和变化，所以如果你以前没有使用过它们，现在是开始的最佳时机。你可以从下面的免费的 初学者指南中获取创建可共享的信息图，带着你的新的创新想法，把它们变成能被人们长久记住的东西。

本帖原版 最早出现在 Visme 的 视觉学*中心 。

什么是 API，如何使用 Youtube API

原文：https://towardsdatascience.com/what-is-api-and-how-to-use-youtube-api-65525744f520?source=collection_archive---------5-----------------------

用简单的英语解释 API 的概念，以及如何使用 tuber package 抓取 Youtube 数据

上次我谈到了成功优步的策略。对我来说，这是一个令人兴奋的项目。但这并不容易，因为我必须努力搜索如何获得 Youtube API 密钥。已经有很多资源了，但是大部分是给 web 开发者的，给 R 用户的教程几乎看不到。在我花了一整天的时间设法得到 API 密匙之后，我突然有了一个想法，为什么不把帖子留给和我有同样问题的人。

今天我要讲的是 API 的概念，以及如何获取 API key。我还将介绍用于在 r 中分析数据的 tuber 包。如果你没有使用过 Google APIs，并且你有兴趣用它们做一个数据科学项目，这篇文章将是一个好的开始。

什么是 API？

如果你不熟悉 API 这个词，一开始可能很难理解它的意思。API 代表应用程序编程接口。对你来说这是不是太“程序员”语言了？那很好。我会一步一步解释这个概念。

为了您的理解，最好从两个不同的接口开始。有两种接口，用户接口和应用编程接口。简单来说，UI 是普通用户的接口，API 是程序员的接口。你可以在下面看到一个 UI 的例子。这是我们每天都会遇到的常见网页。我们如何使用它们？我们可以简单地通过点击图片或单词来使用它们。这是面向普通人的级别，面向用户的界面。怎么可能呢？这是因为 web 开发人员将所有需要的代码都藏在了按钮后面。这是程序员的界面，代码和命令就在这里。换句话说，API。您可以将 API 视为一组代码、协议和功能，用于与软件应用程序进行工作和交互。对于 UI，我们使用简单的按钮和工具，而对于 API，我们使用预定义的功能。

Two kinds of interfaces (on the left) and the screenshot of Airbnb apps (on the right)

对你来说还很难吗？那么让我们假设你正坐在一家餐馆里。你晚餐想要一份美味的牛排和一杯红酒。你坐在桌子上打电话..谁啊。服务员！然后你拿到菜单，点你想要的。几分钟后，他们会把菜端上来。这就是 API 的作用。你不需要卷起袖子一个人做所有的事情，比如准备食材、切蔬菜、烤肉。服务员会为你做这些步骤，你所要做的只是叫他们，然后从那个架子开始你的工作。

同样，当开发人员使用编程工具时，或者当数据科学家与数据争论时，他们不会每次都编写每一个代码。他们使用预制的功能，这些功能是在引擎盖下运行的基本代码集。例如，当您想要将两个数据合并成一个数据时，您可以调用 join 函数(一个“join”服务员)并命令它按照您的命令工作(对菜单进行排序)。然后它会返回需要的结果(你的菜)。

为什么是 API？

API 现在已经成为企业在大数据时代装备的一种新的商业模式和战略。那有什么特别的？是什么让 API 这些天这么火？让我们简单地谈谈在商业环境中我们可以用它做什么。

API 可以在内部和永久产生大量的价值。管理和处理数据是企业管理的关键因素之一，每个公司都建立了 IT 系统。然而，随着数据的规模呈指数级增长，通过传统 IT 系统处理所有数据存在局限性。从这个意义上说，应用 API 可以是一个效率更高、安全性更好的解决方案。它可以打破系统之间的壁垒，从而简化工作流程，促进组织之间的合作，并提高数据保护。

API 的外部优点甚至更花哨。如果一家公司公开或以额外费用开放他们的 API，它可以提供新的服务并获得潜在客户。客户可以体验到前所未有的更高级别的服务。通过提供 API 服务，第三方开发者可以构建全新类型的产品，这甚至是公司从未想过的。例如，谷歌地图，开发者中最受欢迎的应用程序接口，最初并没有预期会产生那么大的影响。通过将这些数据应用到房地产和其他各种领域，开发者为谷歌带来了更高的价值和资产。

如今 API 的数量在不断增加，而且这种趋势将会持续下去甚至更多。现在我们可以说，一个公司 API 的实施和管理是其竞争和战略价值的关键因素之一。

那么如何使用 API 呢？

要使用 API，您需要首先获得一个授权密钥。它用于获取与 API 连接的授权密钥。API 提供者，在这里是 Youtube，不仅仅是无控制地提供他们的服务。为了保留这个界面并管理用户，他们为每个用户提供了一个唯一的访问密钥。这样，我们就可以连接到应用程序的接口。就像我们通过将电源线插入电源插座来连接电源一样，我们使用这个唯一的密钥将服务器插入存储设备。从这一点出发，我们可以使用 API 的数据和协议。

那么现在让我们从如何获得授权密钥开始。有一个非常好的获取钥匙的教程。如果你是一个网站开发人员，你可以一步一步地遵循这个教程。

[## 如何创建你的 YouTube API 证书

创建您的 YouTube API 凭证是通过执行以下主要阶段来完成的:第一阶段——创建 Google OAuth…

help.aolonnetwork.com](https://help.aolonnetwork.com/hc/en-us/articles/218079623-How-to-Create-Your-YouTube-API-Credentials)

如果你要做一些数据分析，你不需要所有这些步骤。您按照步骤进行，直到第 9 步，然后选择“其他”而不是“web 应用程序”开发人员控制台上有两种不同类型的客户端，每种情况下的访问方法都不同。因此，如果您尝试通过“web 应用程序”获取密钥，并从您的本地计算机请求 Oauth，您可能会遇到类似我所得到的错误消息。

因此，单击“其他”选项，然后您将获得客户端密钥和秘密密钥。将它们复制并粘贴到本地计算机上。

Youtube API 的 tuber 包

R 里有 tuber 包，是专门为 Youtube 数据分析做的。您可以绘制各种数据，包括特定频道的视频数量、观看次数、对视频的喜欢和评论等等。要在 R 中调用这些数据，需要先安装‘tuber’包。然后，您向 Google 请求授权令牌。

install.packages('tuber')
library(tuber)client_key = ''
client_secret = ''
yt_oauth(app_id = client_key, app_secret = client_secret)

当您注释这段代码时，浏览器会弹出一些数字，允许您授权应用程序。如果您检查您的本地工具，R 将已经在等待编号，所以复制并粘贴序列号。现在你终于可以和 Youtube API 连接了。

我还将介绍一些对分析来自tuber 包的 Youtube 数据有用的函数。

get_all_channel_video_stats:统计一个频道中所有视频的功能。您需要一个 channel_id 来使用它。
get_stats:这给你一个视频 id 的统计数据。返回值是视图、喜欢、不喜欢、喜爱和评论的计数。
get_video_details:提供视频发布日期等更具体的信息。您还可以获得标题、描述、缩略图和类别。
get_all_comments:它给你一个视频的所有评论，因此在特定主题或频道的文本挖掘方面有很大的用处
list_channel_activities:返回频道活动列表。
list_videos:返回最受欢迎的视频。

还有其他有用的 API 调用，推荐大家去查一下。你可以从这里浏览它们。

资源

什么是 API 的一个优秀视频:https://www.youtube.com/watch?v=s7wmiS2mSXY&t = 75s
哈佛 API 战略价值报告:https://hbr.org/2015/01/the-strategic-value-of-apis
想多研究 API？ProgrammableWeb 是一所“API”大学，提供几乎所有关于 API 的内容:【https://www.programmableweb.com/
不知道怎么处理 Youtube 的数据？看看我以前的作品。你可以从中获得新的灵感！

[## 成为成功 Youtube 的策略:广泛的 Youtube 探索性分析(第 1/2 部分)

为 Youtubers 推荐数据驱动的策略

towardsdatascience.com](/strategies-to-be-a-successful-youtuber-extensive-youtube-exploratory-analysis-part-1-2-40eee29554e6) [## 成为成功 Youtube 的策略:广泛的 Youtube 探索性分析(第二部分)

揭开单词嵌入的神秘面纱并拟合模型以预测视图

towardsdatascience.com](/strategies-to-be-a-successful-youtuber-extensive-youtube-exploratory-analysis-part-2-2-6862cd4f40be)

已经有很多 API 了，但是只有一小部分是公开的。由于数据将直接转化为当今世界的竞争力，我理解企业的意图。然而，我认为他们不应该忽视共享经济的潜力。通过使他们的内部数据可访问，他们将释放全世界开发人员和数据科学家的创造力，为数据设计全新的用途。就像过去几年我们对开源所做的一样。

感谢您的阅读，希望这篇文章对您有所帮助。如果有需要改正的地方，请分享你的见解！如果您想鼓励一位有抱负的数据科学家，请点击👏 👏 👏！我总是乐于倾听你的想法，所以请在 LinkedIn 上分享或联系我。我将带来另一个激动人心的故事。在那之前，机器学*快乐。

什么是人工通用智能？

原文：https://towardsdatascience.com/what-is-artificial-general-intelligence-5b395e63f88b?source=collection_archive---------1-----------------------

首先，什么是人工智能？

人工智能是计算机科学(或科学)的一个分支，研究智能系统的创造。智能系统是那些像人类一样拥有智能的系统。

人工智能科学并不新鲜，人工智能一词在古希腊和埃及的手稿中就已被提及。希腊人信奉神赫菲斯托斯，也被称为铁匠之神，根据一个希腊神话赫菲斯托斯为所有的神制造了智能武器，在他们看来，人工智能的目标是:有助于人们实现某个目标，能够自动操作并预先被编程以根据情况做出不同的反应。

嗯，人工智能这个词在娱乐领域变得很流行，我们可以看到很多基于超级智能概念的电影。(前 machina，Her，AI，复仇者联盟-奥创时代等。) .但是我们今天看到的人工智能系统无法与所谓的“超级智能”系统相提并论。

真实人工智能和当今人工智能系统的区别:

如前所述，人工智能并不是一个新的领域，自从人类出现以来，许多哲学家和科学家都对人工智能有过一些想象，但他们都受到了当时技术的限制。今天，随着强大的超级计算机的出现，我们能够建立服务于所需目的的人工智能系统。 但是，他们真的聪明吗？？答案是否定的，他们不是。让我们看看怎么做。

在计算机和互联网上足够大的数据集的帮助下，所谓的机器学*进入了画面。机器学*提供了一套可以在现实世界中实现的数学概念。

神经网络，大致模拟人脑的工作，让机器从例子中学*。深度学*已经帮助许多技术巨头，如谷歌和苹果，通过实施许多新的热门技术，如人脸识别，语言理解，图像理解等，经济地改进他们的产品。但是你想到的，所谓的深度学*并不是真正的智能。机器学*领域需要大量数据集来学*对对象进行分类或进行预测，这被称为监督学*。

所谓的监督学*创造了一种智能的假象，但其核心只是一种数学优化。尽管它拥有决策和分类数据集的能力，但它的工作方式非常狭窄。

我们非常熟悉创建监督学*系统的技术。给定一个大数据集，监督学*系统学*输入和输出之间的映射，因此它可以预测未知输入的输出。但这不是我们的大脑实际做的事情，我们的大脑不需要 10000 张猫的图像来识别一只猫，甚至我们的大脑可以做很多监督学*系统不能做的事情。

监督学*的局限性:

即使监督学*可以用来创造如此多令人惊奇的东西，它也有如此多的限制:

它的思维总是局限于某个特定的领域。
它的智能取决于你使用的训练数据集。再说一次，你在控制。
它不能用于动态变化的环境。
只能用于分类和回归。但不是为了控制问题。
它需要庞大的数据集，否则就缺乏准确性。获取数据集可能是一个问题。

什么是 AGI？

AGI(人工通用智能)是一个用来描述真正智能系统的术语。真正的智能系统拥有全面思考的能力，不管以前受过什么训练都可以做出决定，这里的决定是基于他们自己所学的。设计这样的系统可能真的很难，因为今天的技术有些有限，但是我们可以创建所谓的“部分 AGI”。

**强化学*:**

甚至在今天，许多科学家认为强化学*是实现所谓 AGI 的一种方式。强化学*可以用来解决监督学*无法解决的问题。让我们举一个简单的例子来理解行走的基本任务之一，行走是我们非常自然和擅长的一项人类任务。婴儿自己学会走路，而不必搜索数据集，人脑可以通过从错误中学*来做到这一点。但是一旦它变得完美，它可以走上千步，甚至一个步长的不匹配都能被它识别出来。大脑采取的步骤总是最优的，采取的速度(或简单的步长)总是以这样的方式，以同样的方式，在最短的时间内到达目的地，每一步花费的能量应该是最小的。所以行走的速度取决于能量以及你到达目的地的速度。同样的行走问题也可以应用到机器人学等许多需要运动的领域。当然，如前所述，监督学*无法做到这一点。

与动态规划和控制理论的联系:

正如我们已经熟悉的，动态规划是一种获得任何问题的最优解的方法。动态规划已经成为解决旅行商问题和其它图论相关问题最成功的算法之一。这种方法使用迭代方法，其中一组解决方案可以在一个或多个步骤中找到，然后算法的剩余部分决定哪个解决方案是最优的。

动态规划方程:动态规划的标准方程被称为贝尔曼方程。该方程可应用于所有决策问题，例如，在旅行推销员问题中，给定一组城市及其距离，问题是获得穿过所有城市至少一次的最短路径。贝尔曼方程可由下式给出:

这个方程包括寻找一个函数 V(x，a)，这个函数的目标是为每个状态 x 选择一个动作 a，使得 a 对于 x 总是最优的。这是解释贝尔曼方程的最简单的形式(不是数学的，为了证明，参考维基百科)。目前广泛使用的所有强化学*算法都是动态可编程的，也就是说它们都采用贝尔曼方程的形式。我们稍后会看到 Deep-Q 算法，它类似于贝尔曼方程。一些强化学*算法遵循马尔可夫决策规则，如 SARSA 算法等。在这种情况下，它们采用随机空间中的贝尔曼方程的形式，如下所示:

深度 Q 学*算法:

谷歌的 Deepmind 在 2015 年发表了一篇关于所谓深度 Q 学*算法的非常有趣的论文。这种算法能够在大多数人类难以完成的任务中表现出色。该算法能够在超过 2600 个雅达利游戏中脱颖而出。

他们的工作代表了有史以来第一个能够在没有任何人类干预的情况下不断适应其行为的通用智能体，这是在寻求通用人工智能的过程中向前迈出的一大步。

代理是使用一种称为 Q-learning 的算法开发的，Q 学*算法的核心是 Bellman 方程的一个结果，因此它遵循动态规划的方法论。

实用方法:每个强化学*问题都包含以下成分:

代理:学*算法或任何有学*能力的物理实体。
环境:是部署代理的地方或空间。地球是一个环境，在这里人类是代理人。一个环境是由状态、行动和奖励形成的一套定义明确的规则组成的。
状态:代理在任何情况下的有效位置称为状态。代理可以通过执行动作从一种状态转换到另一种状态。每一个行动，不管对国家来说是否正确，都有回报。

奖励:奖励是由特定行动的环境定义的结果。如果行动正确，奖励是积极的，否则是消极的。

任何代理人的长期目标都是了解环境，以便获得最大的回报。奖励只有在积极的情况下才能最大化，积极的奖励反过来又是对那个状态采取正确行动的结果。因此，最大化问题处理以下序列，简单来说:

给定有效状态 si，生成随机动作 ai。
假设动作是正确的，并经历到下一个随机状态 si+1 的转换。
计算过渡的奖励 ri。
如果奖励是积极的，记住这种状态下的行动，因为这是适当的行动，但不是最佳行动。
如果奖励是负的，放弃行动。
从获得的一组最佳行动中，找出奖励最大的最佳行动。
对环境中的每个状态都这样做。

该等式可由下式给出:

意味着，Q 值，即状态-动作值取决于旧值+新信息和旧信息之间的差异。旧的信息已经存在于记忆中，而新的信息是通过最大化从行动中获得的回报而获得的。所以在许多强化学*问题中，我们构造了一个神经网络，如果动作是正的，它可以学*状态和动作之间的映射。一旦训练完成，我们就可以部署网络，使它为任何有效状态创建正确的动作，从而最大化回报。

登山车示例:

Openai gym 提供了一套可以训练智能体的环境，Mountain Car 是一个很好的例子，强化学*可以用来学*最佳加速度。这个游戏的目标是训练一辆汽车成功爬山。

我们可以从头开始实现 Q 学*，或者我们可以简单地使用 Kears-rl。Krars - rl 只是一个 API 集合，通过它可以使用预先编写的算法。

Car learning to produce optimal acceleration.

如图所示，在 4000 集结束时，汽车已经学会产生足够的加速度来爬山。

代码:

Code for MountainCar-v0

谢谢大家！更多关于强化学*的例子，请参考我的 GitHub 简介:https://github.com/Narasimha1997

我的 Linkedin 个人资料:https://www . Linkedin . com/in/narasimha-pras Anna-HN-17aa 89146/

谢谢:)

什么是人工智能？第一部分

原文：https://towardsdatascience.com/what-is-artificial-intelligence-part-1-75a6de110141?source=collection_archive---------8-----------------------

虽然人工智能(AI)这个术语已经存在很多年了，但*年来它似乎已经成为一个流行语。像许多从科学中获得的流行词汇一样，人工智能似乎已经成为一个相当恼人的现象的受害者:大多数使用这个术语的人并不真正知道它的意思。

好吧，也许这有点太苛刻了。当然，使用人工智能这个术语的人对它的意思有一些了解，但是我注意到在很多情况下，非专家(甚至一些所谓的专家)的用法偏离了这个术语在学术界最初的意图。

没有人真正知道是谁创造了“人工智能”这个术语。许多人将其归因于已故的计算机科学家约翰·麦卡锡，但是根据丹尼尔·克勒维耶的采访，麦卡锡否认提出了这个术语。

Participants of the 1956 Dartmouth Summer Research Project on Artificial Intelligence in front of Dartmouth Hall. Based on my wife’s highly tuned facial recognition algorithm, the photo includes Claude Shannon (front right), John McCarthy (back right), Marvin Minsky (center), Ray Solomonoff (front left), and Nathaniel Rochester (back left). Photo credit Margaret Minsky via www.achievement.org

尽管如此，人工智能一词在 20 世纪 50 年代中期开始流行，尽管主要是在美国科学家的小圈子里。一个同义术语，机器智能，似乎起源于英国，至今仍在使用，虽然没有人工智能广泛。在本文中，我主要使用术语 AI 来指代“思维机器”的概念，除非我讨论的是一贯使用“机器智能”的作者。

总的来说，本文旨在从历史的角度阐明人工智能的概念，并简要追溯其发展到现代。作为免责声明，我需要指出我不是专业的历史学家。在这段简短的历史中，可能有许多遗漏的情节，但我将通过引用许多更权威的参考文献来试图弥补这一点。

我打算分几部分发表这篇文章。在第 1 部分中，我将重点放在能够思考的机器的概念上。第二部分将集中在 1936 年到大约 1954 年间英国的发展。第三部分将继续从 1954 年左右开始的故事，当时焦点开始转移到美国。

早期人工智能简史

为了理解人工智能是什么，我们回顾过去，看看伟大的思想家认为机器可能做什么。我将人工智能的早期历史分为三个时期:“从自动机到分析引擎”，“从图灵机到跳棋”，以及“从逻辑理论家到自我编写程序”。这将我们带到大约 20 世纪 50 年代末，在这一点上，我们可以说人工智能是一个根深蒂固的科学学科。

从自动机到分析引擎

一些作者将思考机器的想法追溯到古埃及或古希腊(例如[2])，但我个人并不认为这些例子，如苏格拉底和 Euthypro 之间关于虔诚标准的对话，与思考机器或人工智能有太多关系(见[3])。另一个例子是 Talos ，希腊神话中的青铜雕像。由于他被认为是由希腊神赫菲斯托斯创造的，他很难被称为人造生物。

In 1637, Descartes presumed that it would be impossible to create machines that reasoned like humans. Image from a first edition copy of Discourse on the Method (Source: Bibliothèque nationale de France, département Réserve des livres rares, RESM-R-76, Available from: http://gallica.bnf.fr/ark:/12148/btv1b86069594)

基于我有限的研究，我认为思考机器的想法可以追溯到 17 世纪[5]。特别是，勒内·笛卡尔在 1637 年发表了关于方法的论文(著名的短语“我思故我在”就来自于此)，在论文中，他推测不可能创造出像人类一样推理的机器[6]:

“……从道德上讲，任何一台机器都不可能存在多种多样的器官，足以让它像我们的理性使我们能够行动那样，在生活的所有事件中发挥作用。”

事实上，在同一篇文章中，他概述了图灵测试，这个话题我们稍后会谈到:

对于那些熟悉不同的自动机或人类工业制造的移动机器所执行的各种运动的人来说，这也不会显得奇怪，与在每个动物体内发现的大量骨骼、肌肉、神经、动脉、静脉和其他部分相比，这只是很少的一部分…

……但是，如果有一些机器带有我们身体的形象，并且能够在道德上尽可能模仿我们的行为，那么仍然会有两种最确定的测试来证明它们不是真正的人。其中第一个是，他们永远不能使用我们能够胜任的词语或其他符号来向他人表达我们的思想:因为我们可以很容易地设想一台机器被构造成能够发出词汇，甚至能够发出一些与外部物体对它的作用相对应的信号，这些外部物体引起它的器官发生变化；例如，如果在一个特定的地方被触摸，它可能要求我们想对它说的话；如果在另一个地方，它可能会大叫说它受伤了，诸如此类；但不是说它应该把它们排列成不同的形式，以便恰当地回答在它面前所说的话，就像智力水平最低的人所能做的那样。

第二个测试是，虽然这种机器可能执行许多事情与我们任何人一样完美，或者可能更完美，但毫无疑问，它们在某些其他方面会失败，从中可以发现它们不是根据知识行事，而是仅仅根据它们的器官的配置…

他所指的自动机本质上是对各种生物的机械化模仿。据报道，这种自动机在古代就已经被制造出来，但它们很难被称为模仿人类思维的机器。

Image of the Great Chess Automaton from “Briefe über den Schachspieler des Hrn. von Kempelen” by Karl Gottlieb von Windisch and published in 1783 (Source: Krešimir Josić, University of Houston)

一个例外是 Wolfgang von Kempelen 的大象棋自动机，它建于 1769 年。它被设计来下棋，而且下得很好。它甚至打败了本杰明·富兰克林！大多数人都认为擅长下棋是一种需要智力的能力。唯一的问题是冯·肯佩兰的象棋自动机原来是假的。这个奇妙的装置里真的有人！直到 1837 年，也就是它诞生* 70 年后，这一点才被揭示出来。

然而，这个例子表明，到 18 世纪，思考机器的想法肯定仍然存在，而且很好，一些人愿意试图证明笛卡尔是错误的(如果他们甚至知道他的断言)。事实上，似乎没有人知道如何制造会思考的机器，但至少梦想是存在的。

19 世纪上半叶是一个巨大的飞跃，当时发明家查尔斯·巴贝奇提出了分析引擎。它被广泛认为是通用计算机的第一个设计。虽然分析引擎从未完全建成，但许多人认为它在推进机械化通用计算的梦想方面具有影响力。

Trial model of Charles Babbage’s Analytical Engine. (Source: Science Museum Group. Babbage’s Analytical Engine, 1834–1871. (Trial model). 1878–3. Science Museum Group Collection Online. Accessed March 10, 2018. https://collection.sciencemuseum.org.uk/objects/co62245.)

1843 年，阿达·洛芙莱斯翻译并注释了 Luigi Menabrea 的一篇论文，该论文基于 1840 年巴贝奇在都灵的演讲，描述了巴贝奇的分析引擎[8]。似乎没有人想到分析引擎确实是一台思考机器:

因为机器不是一个有思想的生物，而只是一个根据强加给它的法则行动的自动机。

洛夫莱斯在她的笔记中补充道:

分析引擎并不自命能创造任何东西。它可以做我们知道如何命令它执行的任何事情。它可以跟随分析；但是它没有预见任何分析关系或真理的能力。它的职责是帮助我们利用我们已经熟悉的东西。

尽管分析引擎不被认为是思维机器，但它在设计能够进行复杂数学计算的计算机方面向前迈出了一大步。这将被证明是对其他计算机先驱的鼓舞，比如艾伦·图灵，我们接下来会谈到他。

继续第 2 部分。

参考

[1]克勒维耶博士(1993 年)。人工智能:探索人工智能的动荡历史。纽约:基础书籍。

[2]哈克，s .(未注明)。人工智能简史。检索自https://www . atariarchives . org/deli/artificial _ intelligence . PHP。

[3]柏拉图。(约。【公元前 399 年】T4。从http://www.gutenberg.org/ebooks/1642取回。

[4] 塔罗斯。检索自https://www . Greek mythology . com/Myths/Creatures/Talos/Talos . html。

【5】人工智能。(2010) 你知道吗？。从https://didyouknow.org/ai/.取回

[6]笛卡尔(1637 年)。论正理求真的方法。从 http://www.gutenberg.org/ebooks/59 取回。

[7]伟大的国际象棋自动机。(未注明)。恶作剧博物馆。检索自http://hoaxes . org/archive/permalink/the _ great _ chess _ automaton。

[8]梅纳布雷亚，L. F. (1843 年)。查尔斯·巴贝奇发明的分析引擎草图。a .洛夫莱斯)。科学回忆录。第三卷。从https://www.fourmilab.ch/babbage/sketch.html取回(原作发表于 1842 年)。

什么是人工智能？第二部分

原文：https://towardsdatascience.com/what-is-artificial-intelligence-part-2-bad0cb97e330?source=collection_archive---------9-----------------------

从图灵机到跳棋

在这篇文章中，这是从一开始就追溯人工智能概念的系列文章的第二部分，我们继续讲述艾伦·图灵的故事，他被许多人认为是计算机科学之父。正如我们将看到的，艾伦·图灵不仅有资格被称为计算机科学之父，也有资格被称为最早的人工智能先驱之一(或者他会称之为机器智能)。因此，我对他短暂而非凡的职业生涯倾注了相当多的关注，包括一些生平细节。

我重申我的免责声明，我不是专业的历史学家。相反，我希望这一系列文章能够激励其他人进一步研究这一迷人的历史，并为“人工智能”的实际含义提供见解。

论可计算数(1936)

1936 年，艾伦·图灵发表了科学史上具有里程碑意义的论文之一《论可计算数，以及对 entscheidungpolymer 的应用》[1] 。在书中，他描述了他所谓的“通用计算机器”。为了纪念他，这个理论构造现在被称为通用图灵机，它不仅具有理论意义:许多人认为它是现代计算机的基础思想。

图灵在计算科学方面的早期工作与人工智能相关，因为它提出了以巴贝奇的分析引擎为代表的计算思想。图灵的论文从数学角度证明了一般计算由单台机器完成的可能性。也就是说，图灵证明了任何可以被计算的数或序列，都可以被一种单一类型的机器计算，即所谓的通用图灵机。虽然这可能无法证明机器能够思考，但它表明，完成一般计算任务的机器是可以设计出来的(至少在理论上是如此)。

Several pages of a typed draft of “On Computable Numbers” are known to exist. Another unpublished paper was handwritten by Turing on the back of these pages. I gratefully acknowledge [2] for this information (Image Source: AMT/C/15/image 01a.2. The Turing Digital Archive [6]. Copyright © P.N. Furbank)

谜和炸弹(1939-1942)

1939 年 9 月 4 日，也就是英法对德宣战的第二天，图灵从剑桥搬到了英国政府代码和密码学校(GC & CS)的总部布莱切利公园[3]。在那里，他成了破译机Bombe的主要设计者，这种破译机用于破译德国 Enigma 密码机的密码。

谜和炸弹的故事是一个漫长而有趣的故事，但它已经被很好地记录下来了。我将只叙述基本的细节。我向感兴趣的读者推荐杰克·科普兰的优秀著作《图灵的本质》和其中引用的参考资料。

Example of a wartime Enigma cipher machine. (Source: National Museum of the Royal Navy)

在这篇文章中，我想简要探讨的是图灵的工作和人工智能的发展之间的联系，我相信这有助于阐明人工智能实际上是什么的概念。

在许多方面，Bombe 可以被认为是机器学*的原始实现。“炸弹”是一种机器，它装有复制几份“谜”的元件，建造的目的是发现能解开德国密码信息的“T2 之眼”。它使用启发式搜索来找到一个候选关键字，该关键字将解决一组特定的约束条件(即，一个启发式的，由炸弹的特定设置来表示)，然后人工操作员将检查该关键字，应用于编码信息，是否会产生连贯的德语。图灵后来推测“智力活动主要由各种各样的搜索组成。”[4].

我认为上述过程是机器学*的原始形式，因为这是当今许多机器学*算法在高层次上所做的:(1)从一大组可能的配置中选择一个配置，表示满足某些约束的函数的参数，(2)根据某种正确性度量来检查/测量候选解(即参数集)，(3)根据需要重复，以及(4)一旦对性能满意，就使用所选配置作为模型来计算其他尚未看到的数据的一些输出。

Images of a “Bombe,” which was about 2 meters high (including the wheels and cabinet). The left image shows the front with its nine rows of drums replicating Enigma “wheels”. The right image show the rear panel, where cables connected together different drums in order to represent different constraints (Left image source: Gerald Massey; Right image source: Antoine Taveneaux)

Bombe 和现代机器学*之间有三个主要区别，不是在程序上，而是在实现上。首先，Bombe 要求操作员使用连接不同组件的电缆来设置机器(见上图)，以便施加某些约束/启发。一个人还被要求将候选“解决方案”转移到一台单独的机器上(一个复制的谜)，以试图破译一条完整的德国信息。原则上，这些手动步骤也可以是自动化的，但在这个时期，让人类操作员执行这些步骤可能比构建/扩展一台机器来执行相同的任务更容易。

其次，虽然 Bombe 可以在大约两个小时内选择和检查 17，576 种配置[3]，但在现代计算机上执行的现代机器学*在许多情况下可以每秒执行数百万次这种类型的过程(当然，细节取决于参数的数量、计算之间的函数、计算机的大小等)。).

第三，炸弹是一种被设计用来执行特定任务的机器(即学*恩尼格玛密码的钥匙)，而且只能用于该任务。今天，我们通常在通用计算机上执行机器学*任务，这些计算机可以通过简单地将其他程序加载到内存中来“重新配置”用于其他任务。

尽管用现代术语来说，这种炸弹需要手动操作且“缓慢”,但与之前存在的任何东西相比，它代表了其特定任务在自动化和计算速度方面的重大进步。请注意，当时还有其他计算机器存在，如 IBM 601 。不过，我不确定是否有可能像我们今天这样，在这个时代的不同机器之间进行“苹果对苹果”的计算速度比较。最后，我想指出的是，Bombe 是基于早期解谜机的设计，由波兰数学家设计的 Bomba 。

在进入其他话题之前，我想指出，在仅仅三四年的时间里，图灵从非常理论化的(关于可计算数字)转向了高度实用化的(破解德国军事通信)。用英国特勤局官方历史学家哈里·辛斯利爵士的话说:

我不会说图灵的所作所为让我们赢得了这场战争，但我敢说，如果没有他，我们可能会输掉这场战争。

我们还知道，在 1941 年初，由于德国潜艇对船只的攻击，英国面临着食物和其他基本供应品告罄的危险。当时，海军版的英格玛还没有被破解，许多人认为它无法破解，但最终当图灵的团队在 1941 年 6 月开始定期解码海军英格玛信息时，英国船只能够成功地避开 U 艇[3]。灾难得以避免。

如果这些成果——帮助英国人民避免饥饿，帮助盟军赢得二战——不是实践研究的缩影，我不知道什么是。在我看来，在图灵悲惨短暂的职业生涯开始时，他的工作的高度实践性对人工智能的发展有很大的影响。如果图灵继续走理论路线，这个领域可能不会像 1941-1953 年期间那样迅速发展，我们现在将探讨这一点。

图灵转向机器智能(约 1941-1953)

根据与图灵在布莱奇利公园共事的唐纳德·米歇尔的采访，图灵早在 1941 年就开始思考“机器智能”。他在 GC & CS 的同事中传阅了一篇关于机器智能的论文，但是现在已经遗失了。我们还知道，在 1941 年底，留给图灵研究的关于英格玛的理论问题已经不多了，所以他开始研究其他问题，只是在短期内加入了英格玛团队[3]。

1942 年 11 月，图灵去了美国，在那里他在贝尔实验室研究语音加密。在那里他遇到了 Claude Shannon，我们将在第 3 部分讨论他。图灵于 1943 年 3 月回到英国，继续致力于自动语音加密，直到战争结束。

第一台通用计算机设计(1945-1947)

尽管图灵 1936 年关于可计算数字的论文描述了一台通用的计算机，但它并不是一台计算机的实用设计。1945 年 10 月，图灵加入了国家物理实验室(NPL)的数学部门，致力于这样的设计。1945 年末，图灵发表了一份名为“提议的电子计算器”的技术报告，其中详细说明了这种机器的设计(见下图)。在这份报告中，他还提出了机器智能的话题，描述了什么将成为“经典”的人工智能问题:

给定国际象棋中的一个位置，机器可以列出每边大约三步的所有“获胜组合”。这……提出了一个问题‘机器会下棋吗？’很容易就能玩一场相当糟糕的游戏。这很糟糕，因为象棋需要智力。我们在本节开始时说过，机器应该被视为完全没有智能。然而，有迹象表明，冒着偶尔犯严重错误的风险，让机器显示智能是可能的。通过跟踪这一方面，机器可能会下一盘很好的棋。

Left: Original manuscript of “Proposed Electronic Calculator,” which was to become the Automatic Computing Engine (ACE). Right: Letter from Turing to Sir W. Ross Ashby, describing how ACE could be used to mimic how the human brain works. (Source: The Turing Archive for the History of Computing [5])

当这台机器的一个试验版本最终被命名为自动计算引擎(ACE；为了向巴贝奇致敬)，建于 1950 年 5 月，它是世界上最快的计算机，运行速度为 1 MHz [3，第 367 页]。另一台使用与图灵的 ACE 设计相同的基本原理建造的计算机是 Bendix G15 ，被一些人认为是第一台个人计算机。

当图灵设计 ACE 时，机器智能是他考虑的首要问题，正如 1946 年写给 W. Ross Ashby 的一封信(见上图)所示:

在研究 ACE 的过程中，我对制造大脑活动模型的可能性比对计算的实际应用更感兴趣…

…机器很有可能尝试不同的行为，并以你描述的方式接受或拒绝它们，我一直希望让机器做到这一点 ACE 实际上类似于我在关于可计算数的论文中描述的“通用机器”。这种理论上的可能性在实践中是可以实现的……因此，尽管大脑实际上可能是通过改变其神经元回路来运作的……然而，我们可以在 ACE 中建立一个模型，在这个模型中，这种可能性是允许的…

1947 年 2 月 20 日，图灵在伦敦数学协会做了一次关于 ACE 的演讲。我们通过一个草稿副本了解了这个讲座的一些内容，这个草稿副本可以从[5]中获得，并且已经被重印了几卷(例如[7]和[3])。这不仅是已知的第一次描述机器智能的公开讲座，图灵还清楚地阐述了机器学*的概念:

有人说，计算机只能执行它们被指示去做的过程……同样真实的是，最初建造这些机器的意图是把它们当作奴隶，只给它们经过详细考虑的工作……直到现在的机器只是以这种方式使用。但是有必要总是以这种方式使用它们吗？

让我们假设我们已经设置了一台具有某些初始指令表[即程序]的机器，如果有充分的理由，这些表有时可能会修改这些表……可能它仍然会得到机器最初设置时所期望的类型的结果，但以更有效的方式……这就像一个学生从他的主人那里学到了很多，但通过自己的工作增加了很多。当这种情况发生时，我觉得人们不得不认为机器显示了智能。一旦人们能够提供合理的大内存容量，就应该可以开始在这些方面进行实验……我们想要的是一台能够从经验中学*的机器。

(黑体字是我为了强调而加的。)

主要由于内部政治和 NPL 对 ACE 项目的管理不善，直到 1950 年 5 月才完成 ACE 的“试验模型”。

剑桥公休假(1947-1948)

1947 年 7 月，图灵仍然受雇于 NPL，他去剑桥大学休假 12 个月。国家公共图书馆馆长查尔斯·达尔文爵士很好地表达了这一休假的目的[5]:

[图灵]想把他在机器上的工作进一步扩展到生物学方面。我可以这样来最好地描述它:迄今为止，机器被设计用来做相当于大脑较低部分的工作，他想看看机器能为较高部分做多少工作；例如，可以制造一台可以通过经验学*的机器吗？

A report written by Turing in 1948 titled “Intelligent Machinery” is the most detailed treating of artificial intelligence written before 1950. It was not published during Turing’s lifetime. (Source: The Turing Archive for the History of Computing [5])

休假回来后，图灵写了一份题为《智能机械》的报告。这是一部高度原创的作品，引入了具有学*能力的遗传算法和神经网络(他称之为“无组织机器”)等思想，以及强化学*。我不想给出详细的总结，我只想引用图灵在报告结尾的总结:

讨论了使机器表现出智能行为的可能方法。与人脑的类比被用作指导原则。有人指出，只有提供适当的教育，人类智力的潜力才能发挥出来。这项研究主要围绕一个应用于机器的模拟教学过程。定义了无组织机器的概念，并提出婴儿人类大脑皮层具有这种性质。简单的例子，这样的机器，他们的教育通过奖励和惩罚的方式进行了讨论。在一种情况下，教育过程一直进行到组织类似于 ACE。

图灵从未发表过这份报告，但同样可以通过[5]和几本选集(即[8]和[3])获得。

曼彻斯特时代(1948-1953)

由于对进展缓慢感到沮丧，图灵于 1948 年离开了他在 NPL 的职位，加入了曼彻斯特维多利亚大学的计算机实验室。

First page of Turing’s 1950 article “Computing Machinery and Intelligence,” where the now famous “Turing Test” was introduced.

计算机实验室是由马克斯·纽曼(布莱奇利公园的另一位老兵)于 1946 年建立的。当图灵加入时，他们正在深入开发“曼彻斯特宝贝”，当它在 1948 年 6 月 21 日运行第一个程序时，成为世界上第一台存储程序计算机。虽然我不会详细讨论图灵对曼彻斯特早期计算机发展的贡献，但可以说他的影响是巨大的。

图灵在 1948 年至 1953 年期间最著名的成就是一系列关于机器智能主题的文章和公开讲座，包括 1950 年发表在领先哲学杂志 Mind 上的文章“计算机械和智能”。在这篇文章中，提出了著名的“模仿游戏”，也就是现在所知的图灵测试:

我建议考虑这样一个问题，“机器能思考吗？”这应该从“机器”和“思考”这两个术语的定义开始……我不会尝试下这样的定义，而是用另一个问题来代替这个问题，这个问题与它密切相关，并且用相对明确的语言表达。

这个问题的新形式可以用一个我们称之为“模仿游戏”的游戏来描述。它由三个人玩，一个男人(A)，一个女人(B)，和一个审问者(C)，他们可能是男性也可能是女性。审讯者呆在一个与其他两人分开的房间里。这个游戏的目的是让审讯者确定另外两个人中哪个是男人，哪个是女人…审讯者可以向 A 和 B 提问…

在举了一些审讯者可能会问的问题类型的例子后，图灵继续说道:

我们现在问这样一个问题，“当一台机器在这个游戏中扮演 A 的角色时，会发生什么？”这样玩游戏时，审讯者会像在男女之间玩游戏时一样经常错误地决定吗？这些问题取代了我们原来的‘机器会思考吗？’

文章的其余部分描述了对机器可以思考这一观点的各种可能的反对意见，以及图灵对这些反对意见的反驳。还有一章是关于“学*机器”，这在很大程度上是对他在 1948 年文章中概述的观点的扩展。他以一个深刻的观察结束了这篇文章:

我们只能看到前面不远的地方，但我们可以看到那里有许多需要做的事情。

1951 年，在英国广播公司做了几次广播演讲，其中一次题为“智能机械，异端学说”，另一次题为“数字计算机能思考吗？”1952 年，他参加了 BBC 播出的一个小组讨论，题目是“自动计算机器可以说会思考吗？”。其他小组成员包括理查德·布莱斯维特(哲学家)、杰弗里·杰弗逊(神经外科医生)和马克斯·纽曼。

在这段时间里，图灵也对人工生命的话题产生了兴趣。这有点超出了本文的范围，所以我不会试图总结他在这方面的工作。1953 年，他发表了一篇名为《国际象棋》的短文，这标志着他多年来为计算机编程下棋的努力达到了顶峰。最后，在 1954 年，图灵发表了他的最后一篇文章，题目是《可解和不可解的问题》，发表在科学新闻上，这是一份普及科学的杂志。这篇文章的目的是向普通读者展示他在可计算数字方面的早期贡献，也许是最持久的贡献。

图灵的审判与死亡

Alan Turing quoted in 11 June 1949 edition of “The Times” (UK).

1952 年，图灵受到审判，并被判犯有同性恋行为，这在当时的英国是刑事犯罪。1954 年 6 月 8 日，图灵被发现死于家中。虽然死亡被裁定为自杀，这一发现一直是争议的主题[9]。

尽管他的生命和职业生涯短暂，但图灵对人类和计算机创造力的影响是持久的。我想引用图灵在 1949 年 6 月 11 日《T4 时报》上的一篇文章来结束我的演讲:

这仅仅是即将发生的事情的预演，也仅仅是将要发生的事情的影子。在真正了解这台机器的性能之前，我们必须先有一些使用它的经验。我们可能需要几年时间才能适应新的可能性，但我不明白为什么它不能进入人类智力通常覆盖的任何领域，并最终在平等的条件下竞争。

参考

[1]a . m .图灵(1937 年)。可计算数及其在 Entscheidungsproblem 问题上的应用。伦敦数学学会会报， 2 (1)，230–265 页。(注:从技术上讲，这篇论文发表于 1937 年，但在那个时代，论文通常会在会议上被大声朗读，之后会以纸质形式发表在会议录上。这篇论文是在 1936 年 11 月 12 日宣读的。)

[2]霍奇斯(未注明日期)。可计算的数字和图灵机，1936 年。艾伦·图灵互联网剪贴簿，从 http://www.turing.org.uk/scrapbook/machine.html 的 T2 取回。

[3]科普兰，B. J .).(2004).《图灵精粹》:在计算、逻辑、哲学、人工智能和人工生命方面的开创性著作，还有《谜》的秘密。牛津:克拉伦登出版社。

[4]图灵，A. (1948)。“智能机械”。在 B. J .科普兰(编辑).(2004).《图灵精粹》:在计算、逻辑、哲学、人工智能和人工生命方面的开创性著作，还有《谜》的秘密。牛津:克拉伦登出版社。

[5]科普兰法官(未注明日期)。AlanTuring.net:计算历史图灵档案，从http://www.alanturing.net/检索。

[6]国王学院(剑桥)。(未注明)。图灵数字档案馆，从http://www.turingarchive.org取回。

[7]卡彭特、B. E .和多兰·r . w .(1977 年)。另一台图灵机。计算机杂志。第 20 卷第 3 期。

[8]埃文斯和罗伯逊编辑).(1968)关键论文:控制论。伦敦:巴特沃斯。

[9]维基百科贡献者。(2018 年 3 月 15 日)。艾伦·图灵。在维基百科，免费百科。检索 2018 . 3 . 20 20:08 来自https://en.wikipedia.org/w/index.php?title=Alan_Turing&oldid = 830576161

未引用的其他参考文献:

Copeland，B. J. (2005 年)。艾伦·图灵的自动计算引擎:密码破译大师努力打造现代计算机。纽约:牛津大学出版社。

科普兰，B. J。).(2012).艾伦·图灵的电子大脑:努力打造 ACE，世界上最快的计算机。纽约:牛津大学出版社。

科普兰，j .，鲍文，j .，斯普雷瓦克，m .，，威尔逊，R .).(2017).图灵指南。纽约:牛津大学出版社。

胜彦和杉本四叶(2017 年)。《从计算机器到学*智能机器:艾伦·图灵机器思想的年代发展》。在了解信息:从大爆炸到大数据。 (A. J .舒斯特)湛:施普林格自然。

什么是贝叶斯法则？

原文：https://towardsdatascience.com/what-is-bayes-rule-bb6598d8a2fd?source=collection_archive---------0-----------------------

贝叶斯法则为我们提供了一种基于新的相关的证据来更新我们的信念的方法。例如，如果我们试图提供一个给定的人患癌症的概率，我们最初只会说无论人口中有多少百分比的人患癌症。然而，给定额外的证据，例如这个人是吸烟者，我们可以更新我们的概率，因为如果这个人是吸烟者，患癌症的概率更高。这允许我们利用先验知识来改进我们的概率估计。

规则

下面的等式是贝叶斯法则:

该规则有一个非常简单的推导，直接来自联合概率和条件概率之间的关系。首先注意 P(A，B) = P(A|B)P(B) = P(B，A) = P(B|A)P(A)。接下来，我们可以将涉及条件概率的两项设置为彼此相等，因此 P(A|B)P(B) = P(B|A)P(A)，最后，将两边除以 P(B)得出贝叶斯法则。

在这个公式中， A 是我们想要概率的事件， B 是在某种程度上与 A 相关的新证据。

P(A|B) 称为后部；这就是我们试图估计的。在上面的例子中，这将是“假定一个人是吸烟者，患癌症的概率”。

P(B|A) 称为似然；这是根据我们最初的假设，观察到新证据的概率。在上面的例子中，这将是“假定某人患有癌症，成为吸烟者的概率”。

P(A) 被称为之前的；这是我们假设的概率，没有任何额外的先验信息。在上面的例子中，这将是“患癌症的概率”。

P(B) 称为边际可能性；这是观察到证据的总概率。在上面的例子中，这将是“成为吸烟者的概率”。在贝叶斯规则的许多应用中，这被忽略，因为它主要用作归一化。

例子

使用癌症诊断的例子，我们可以表明贝叶斯规则允许我们获得更好的估计。现在，我们将把一些虚构的数字放入示例中，这样我们就可以评估贝叶斯规则带来的差异。假设得癌症的概率是0.05——意味着 5%的人得了癌症。现在，假设成为吸烟者的概率是 0.10——意味着 10%的人是吸烟者，20%的癌症患者是吸烟者，那么 P(吸烟者|癌症)= 0.20。最初，我们患癌症的概率只是我们的先验，所以 0.05。然而，使用新的证据，我们可以改为计算 P(癌症|吸烟)，它等于(P(吸烟者|癌症)* P(癌症))/ P(吸烟者)=(0.20 * 0.05)/(0.10)=0.10。

通过引入新的证据，我们因此获得了更好的概率估计。最初我们有 0.05 的概率，但是使用吸烟者的证据，我们能够得到更准确的概率，是我们先前的两倍。在给出的例子中(即使有我们编造的数字)，这种影响应该是很符合逻辑的，因为我们知道吸烟会导致癌症。因此，这证明了贝叶斯规则如何允许我们使用相关信息来更新我们的信念。

贝叶斯统计有什么用？

原文：https://towardsdatascience.com/what-is-bayesian-statistics-used-for-37b91c2c257c?source=collection_archive---------3-----------------------

概率编程与机器学*

在过去的十年里，我们看到了机器学*应用的爆炸式增长，这些应用在搜索、电子商务、广告、社交媒体和其他垂直领域尤为成功。这些应用特别关注预测准确性，通常涉及大量数据——有时在万亿字节左右——事实上，这推动了网飞、亚马逊、脸书和谷歌等科技巨头的大量创新。

从根本上说，虽然这些模型通常是“黑箱”，观察者不容易理解，但在客户流失建模或构建目标广告模型等应用中，模型“如何”工作并不重要，重要的是它确实工作。“工业机器学*”的另一个局限是，它需要收集大量的数据。举例来说，你的服务需要数百万活跃用户来证明建立一个广告模型的合理性。

这些限制使得很难或不可能制作只使用少量数据并利用特定领域专业知识的模型。它们还会在危险或法律复杂的环境(如健康或保险)中对模型产生负面影响。在这种情况下，产生预测的模型必须充满信心，让人们能够评估风险。例如，在预测患者患病的可能性时，了解不确定性估计值是很重要的，或者了解投资组合在银行或保险方面的损失风险有多大也是很重要的。

如果我们超越这些限制，我们就为新产品和新分析敞开了大门，这就是本文的主题。解决方案是一种叫做贝叶斯推断的统计技术。这种技术从我们陈述关于被建模系统的先验信念开始，允许我们将专家意见和特定领域的知识编码到我们的系统中。这些信念与数据相结合来约束模型的细节。然后，当用于进行预测时，该模型不会给出一个答案，而是给出一个可能答案的分布，让我们能够评估风险。

贝叶斯推理长期以来一直是学术科学中的一种选择方法，原因如下:它天生包含了信心的概念，它在稀疏数据中表现良好，模型和结果高度可解释且易于理解。利用你对世界的了解以及相对较少或杂乱的数据集来预测世界未来的样子是很简单的。

直到最*，实现这些系统的实际工程挑战仍然令人望而却步，并且需要大量的专业知识。最*，出现了一种新的编程范式——概率编程。概率编程隐藏了贝叶斯推理的复杂性，使得这些高级技术可以被广大的程序员和数据分析师所使用。

概率和结果分布的基本概念是这种范式中模型的基本构件。

现代机器学*中最令人兴奋和最具影响力的创新之一是图像分析的深度学*，这使得以前不可能的性能成为可能。概率编程通常过于专业或涉及专业语言，虽然这不是一种新的能力，但可能会像深度学*一样有影响力。

概率编程允许你将你的领域知识与你观察到的数据结合起来。它之所以强大，有三个原因:首先，它允许你整合领域知识——大多数机器学*框架不会这样做；其次，它对小型或嘈杂的数据集工作良好；第三，它是可解释的。

有哪些应用？

简而言之，在任何有大量异构或噪声数据的应用领域，或者任何需要清楚了解不确定性的领域，都可以使用贝叶斯统计。根据与专家的讨论，一些已经看到早期采用的领域是、电子商务、保险、金融和医疗保健。

来源:https://www . psychologyinaction . org/psychology-in-action-1/2012/10/22/Bayes-rule-and-bomb-threats

贝叶斯法则的力量源于这样一个事实，即它将我们可以计算的量(假设为真时我们观察到测量数据的可能性)与我们可以用来回答任意问题的量(给定数据时假设为真的后验概率)联系起来。

分层模型

贝叶斯秘方是分层模型。我们可以用它们来模拟具有独立性的复杂系统。在这样一个模型中，我们观察单个事件的行为，但是我们加入了这样一个信念，即这些事件可以在一个层次结构中组合在一起。

例如，这可以是房地产定价模型或商业保险中的风险定价模型。在这两种模式中，你都可以在社区中拥有公寓或商店，而社区又在行政区中。一个街区里的商店并不都一样，但一般来说都很相似。佩克汉姆的普通商店不同于德普福德的普通商店，也不同于普特尼的普通商店。

这是层次模型。通过这种方式建模，我们可以学到很多东西，我们不仅可以从德普福德，还可以从佩卡姆和普特尼那里了解德普福德。这在特定等级的数据稀疏的情况下非常有用，例如，在特定时间段的特定邻域中没有索赔。

图:说明了“收入预测”模型的层次结构。

想了解更多？

https://www.youtube.com/watch?v=0kRytJZcHVw 是我最*在伦敦 PyData 做的一个演讲
你可能想在这里注册概率编程初级邮件列表【http://eepurl.com/dFZZGb
我组织了一门叫做概率编程入门的课程，它提供了超过 3 个半小时的关于概率编程本质的视频直播。
要了解更多数据科学的东西，你可以在 Twitter 上关注我@ springcoil

什么是数据科学，什么不是？

原文：https://towardsdatascience.com/what-is-data-science-and-what-is-it-not-c6a09d735f02?source=collection_archive---------6-----------------------

数据科学，也被称为数据驱动的科学，是一个关于科学方法、过程和系统的交叉学科领域，以结构化或非结构化的各种形式从数据中提取知识或见解，类似于数据挖掘。

现在，我们准备讨论什么是数据科学。它包含了一些编程技巧、一些统计准备、一些可视化技术，最后但同样重要的是，许多商业意识。我特别关心的商业意识是一种能力和意愿，有时是渴望，将任何商业问题转化为可以利用当前或即将到来的可用数据来回答的问题。事实上，这需要一种特殊的方式来连接充满数据的随机世界中的所有点，其中大多数数据可能不会立即对成为一名工作数据科学家有用。

根据我目前的理解，数据科学家是连接商业世界和数据世界的人。同样，数据科学是数据科学家用来实现这一目标的手艺。

什么是

这有点用词不当，是媒体用来描述一切的时髦词。然而，通过这次讨论达成一致是很好的。
这些问题是关于数据科学的。所以我不会谈论数据科学家。转到什么是数据科学家？感兴趣的话。
我在大多数答案中发现的最大错误是某种“数据科学就是当你处理大数据、大量数据时”。那不是真的，数据科学可以应用到一个有一千行的数据集，这个没有问题。
如果我们要称之为“科学”,我们需要考虑科学和科学方法的定义。据此，数据科学不仅仅是实用的或经验的方法，它需要科学的基础。
没有人谈到数据和信息的区别。
数据是一组原始的、无组织的东西，需要处理后才有意义。
信息是指数据在给定的环境中被处理、组织、结构化或呈现以使其变得有用
基于此，我们将有数据科学和信息科学。现在，人们有一种偏见，谈论数据科学，包括信息科学。
很明显，在过去的几年里，它被应用于许多领域:
统计/数学
商业分析
市场情报
战略咨询
许多其他人…
最疯狂的是，你会看到这些领域的专业人士更新他们的简历，比如“我从事数据科学工作…”
以简单的方式创造数据科学。两个并不完全相关的方面，但随着新的快节奏和技术世界的到来，将不得不融合在一起:
统计/数学:公式化合适的模型，产生洞察。
计算机科学:在模型和数据之间架起一座桥梁，在可行的时间内得出结果。
从事数据科学工作时需要了解或掌握一些知识的主题/工具:
线性代数
非线性系统
解析几何
最佳化
结石
统计数字
编程语言(R、Python、SAS)
软件:IBM 的 Excel，SPSS
通用平台:IBM 的 Watson Anlytics，Azure 机器学*，Google Cloud 机器学*，
数据可视化:使用 plotly/ggplot 的 Power BI、Tableau、R/Python
机器学*(监督、非监督和强化学*)
大数据
大数据框架(Hadoop 和 Spark)
硬件(CPU、GPU、TPU、FPGA、ASIC)
一图抵一万字。绘制了康威的数据科学维恩图。实质性专业知识(或领域专业知识)是您正在应用数据科学的领域的具体知识。要了解更多关于数据科学缺乏实质性专业知识的信息:数据科学讲座中缺少什么——风险越来越大

什么不是

机器学*不是数据科学的一个分支。机器学*起源于人工智能。数据科学只是把 ML 作为一个工具。原因是它为特定的任务产生惊人的和自主的结果
这并不能拯救那些从来没有衡量过任何东西，现在想要从他们的数据中获得洞察力的公司。“垃圾进，垃圾出”的数据科学将和未来几年产生的数据一样好。
只是使用一些 Excel 图表呈现数据，而没有任何关于数据的见解。

什么是期望值？

原文：https://towardsdatascience.com/what-is-expected-value-4815bdbd84de?source=collection_archive---------3-----------------------

用简单的游戏例子直观地解释期望值

期望值是大量实验中随机变量的平均值。随机变量将数值映射到实验中每个可能的结果。我们可以通过求和来计算离散随机变量的期望值，在离散随机变量中，潜在结果的数量是可数的，求和的每一项都是随机变量的可能值乘以结果的概率。因此，例如，如果我们的随机变量是通过滚动一个公平的三面骰子获得的数字，期望值将是(1 * 1/3) + (2 * 1/3) + (3 * 1/3) = 2。

如果我们假设实验是一个游戏，随机变量将游戏结果映射到获胜金额，因此它的期望值代表了游戏的预期平均获胜额。因为期望值跨越了实数，所以它通常被分成负值、中性值和正值。具有每种期望值的游戏在现实生活中经常出现，因此期望值提供了一个简单的决策启发。

为了举例说明每种类型的游戏，我将使用 3 个类似的涉及抛硬币的例子，明确地说，每个场景中的随机变量是抛一次硬币的预期赢款。假设在每种情况下，硬币都是公平的，那么正面和反面的概率都是 1/2。

中性期望值博弈

You flip the fair coin. Every time you get heads, you lose $1, and every time you get tails, you gain $1.

这种情况下的期望值是(-1 * 1/2) + (1 * 1/2) = 0。因此，因为硬币是公平的，损失金额等于收益金额，所以随着时间的推移，你既不会获利也不会亏钱。在这样的游戏中，虽然没有理由玩，但也没有理由不玩。因此，这些类型的游戏非常适合简单的娱乐，例如石头剪子布，在这种游戏中，随机选择一步棋是最佳策略，预期收益为 0。

正期望值博弈

You flip the fair coin. Every time you get heads, you lose $1, and every time you get tails, you gain $2.

这种情况下的期望值是(-1 * 1/2) + (2 * 1/2) = 1/2。因为正面和反面的可能性相等，所以反面的收益大于正面的损失。在这样的游戏中，你会随着时间的推移而获得金钱，所以你应该玩这种类型的游戏。这种类型的场景出现在许多现实生活的决策中，例如投资股票市场(随着时间的推移，市场处于总体上升趋势)，学*考试(几个小时的损失时间被更高的 GPA 所抵消)，或准备面试(几周的损失时间被更好的工作所带来的好处所抵消)。

负期望值博弈

You flip the fair coin. Every time you get heads, you lose $1, and every time you get tails, you gain $1\. Additionally, there is a $0.01 fee for every flip regardless of the outcome.

这种情况下的期望值是(-1.01 * 1/2) + (.99 * 1/2) = -0.01。因此，尽管硬币本身是公平的，损失金额等于收益金额，恒定费用导致游戏是一个负价值的游戏。在这样的游戏中，随着时间的推移，你预计会输钱，所以你不应该玩这种类型的游戏。这在许多赌博平台中很常见，在这些平台中，赌场提供最初中立的游戏，但随后收取费用，从而破坏了游戏的中立性(因此有“赌场总是赢家”的说法)。

结论

从期望值的角度考虑决策是决定是否有经济原因参与一项活动的简单方法。当然，除了纯粹的经济回报，还有其他方法来衡量效用，因此预期收益并不是一个万无一失的决策工具。此外，请记住，期望值是在大量重复试验的基础上得出的，因此这可能会对某些可能性非常少的事件提供扭曲的观点。比如考虑中彩票。这很可能是一个积极的预期价值机会，但你在有限的生命中真正实现这一价值的机会是如此之低，以至于不值得购买彩票。

什么是特质阿尔法？

原文：https://towardsdatascience.com/what-is-idiosyncratic-alpha-cd3fb3a491c5?source=collection_archive---------3-----------------------

Eagle’s View 资产管理公司总裁尼尔·伯杰(Neal Berger)在一篇市场评论中提到了特殊交易策略。在本文中，我们试图阐明这些特质策略是什么。

下面是摘自尼尔·伯杰的市场评论，由马蒂亚斯·克纳布报道。)

总之，我们认为量化策略在我们的投资组合中仍有一席之地。传统的、更“普通”的量化策略，如基本面因素、动量和基于均值回归的统计套利，则不会。我们已经或正在退出那些策略和经理，我们认为他们运行的是更加平庸的量化策略，这些策略和经理没有认识到或跟上量化竞争的加剧以及由于上述原因可用 alpha 的减少。虽然我们在广泛减少 quant，但在 quant 内部，我们正在增加对经营特质 和高度能力受限的 策略 的策略和经理的分配，这些策略或需要高度专业化的技能和知识来实现，或只是能力受限，无法吸引来自大型参与者的竞争。

提到的阿尔法值降低的原因主要是由于“行人策略”中的拥挤效应和可从中获利的傻钱的减少。有人认为，至少对一些基金来说，解决这一难题的方法是转向特殊的阿尔法。

让我们从这个定义开始:

特异的:奇特的或个别的。

根据上面的定义，流行的策略，包括趋势跟踪，横截面和绝对动量，统计套利，包括多头/空头市场中性，不提供特殊的阿尔法，因为它们是众所周知的和高容量的。例如，依靠高容量和广泛使用的策略，CTA 已经受到影响；alpha 已经降低，CTA 现在正试图在与股票市场和另类 beta 相关性较低的背景下推广这些策略；也就是说，Neal Berger 认为，过去的高绝对回报潜力现在已经一去不复返了。

因此，我们知道什么是特质策略。它们肯定不是一些流行书籍中几行代码就能完整描述的策略。由于潜在的领域很大，但很难进行全面的研究，下面是确定其中一些策略的努力。

特殊的阿尔法策略

事件和情绪驱动

事件驱动策略试图从公司事件中产生 alpha，包括合并、收购、意外收入、破产、CEO 更换、债务重组等等。

情绪驱动策略基于对新闻和社交媒体的分析，以确定情绪和趋势。

在我的书《被技术分析愚弄的 T4》的第八章中，我简要地谈论了这些策略和它们的危险。简而言之，数据挖掘偏差和虚假关联的产生是他们的主要问题。这些策略很难进行回溯测试，但这不一定是一个主要的缺点，因为任何不能回溯测试的策略也不容易被复制。然而，没有确凿的证据表明这些策略是有效的。

任何基金都不太可能完全依赖上述阿尔法来源。

全权委托技术分析

基于趋势线、图表模式和简单的价格和交易量指标的技术分析对大多数人来说基本上是一种随机交易方法。我们也承认，一小部分技术分析师能够持续盈利，但这不是因为技术分析的预测能力，而是因为他们对市场结构和运作的理解。实际上，技术分析不是作为预测工具，而是用来识别有吸引力的市场进入和退出。

很明显，这样的方法无法被 quants 测试。证据，如果有的话，是在实际的性能记录。即使在这种情况下，也必须仔细分析，以区分技能和运气。这是因为有大量随机交易者使用技术分析，他们中的一些人很有可能产生高额回报。因此，我们还必须查看这些回报在时间上的一致性，以及它们如何受到任何异常值的影响。

根据我自己对对冲基金有限的经验，没有多少经理会使用技术分析来分配给交易者，因为他们担心决策中可能存在的确认偏差和其他认知偏差。

机器学*模型

机器学*的基本问题是偏差-方差权衡。监督分类需要一组特征的可用性，也称为预测因子、因子或属性。简单模型具有高偏差和低方差，而更复杂的模型具有低偏差和高方差。简而言之，随着特征数量的增加，偏差会降低，但存在过度拟合噪声的风险。随着特征数量的减少，模型往往不适合新数据。没有简单的方法来找到最佳的平衡。更重要的是，特征工程是机器学*的一个关键方面，但它更像是一门艺术而不是科学。

有几个量化基金试图通过机器学*来产生阿尔法。numeri为数据科学家提供加密功能，用于开发模型。数据科学家上传他们的预测，这些预测由基金运营商进行评估，以确定他们的薪酬。上次我用 Numerai 的数据有 21 个特征。这组丰富的特征可能会导致高方差预测。操作者希望通过进行整体预测来减少方差，但是这可能仅保证较低的权益方差，而不能保证权益趋势，即基金权益无论如何都会下跌。这可能发生，因为大多数数据科学家使用或多或少相同的模型，他们也在各种论坛和博客上讨论这些模型。换句话说，通过采用低偏差/高方差预测的集合来最小化模型方差是有问题的。然而，与 Quantopian 的方法相比，这是一种更有趣的方法，在 quanto pian 中，大量证券(大约 1500 种)用于开发市场中性的长/短股票策略，机器学*采用已知因素。无法卖空大量证券的风险、训练集的过度拟合和测试集中的高方差增加了大规模快速提款的风险，由于预测集合方法，这种情况不太可能发生在数字案例中。

我解决这个问题的方法集中在特征工程上。 DLPAL LS 软件生成一小组特质特征，可用于开发算法和机器学*模型。这种方法可以实现更好的偏差-方差权衡。道琼斯 30 种股票的例子可以在这里找到。

许多基金已经决定探索机器学*，但在我看来，问题在于新定量分析师的倾向，他们认为解决方案取决于机器学*算法的复杂性，而不是特征的质量。因此，这些基金可能会遭受损失。

全权委托量化方法

这些方法本质上是将主观技术分析提升到基于证据的分析的下一个层次。在这种方法中，所有的模型都需要有一个清晰的逻辑，可以通过编码来回溯测试性能。这听起来好得不像是真的，实际上是真的。

基于一些感知异常的自主交易模型的根本问题是，即使它们看起来产生了 alpha，样本量也很小。最*，社交媒体和博客中所有试图预测下一个市场顶部的回溯测试指标都表明了这一点:样本规模远小于 20，在大多数情况下小于 10。这是因为高利润率异常现象很少出现。鉴于这个问题，定量分析师必须找到验证这些模型预测的方法。大多数在博客和社交媒体上展示这种回溯测试的人从来没有讨论过验证和虚假关联的可能性。主要原因是，对大多数分析师来说，回溯测试是一种证实他们偏见的手段。因此，他们提出的回溯测试只能证实他们的观点。

有很多方法可以验证自主量化方法，但是几乎不可能产生方法的回溯测试。因此，这些方法将缺乏基金经理的青睐，需要长时间的业绩记录来筛选交易者。

来自《走向数据科学》编辑的提示: 虽然我们允许独立作者根据我们的 规则和指导方针 发表文章，但我们并不认可每个作者的贡献。你不应该在没有寻求专业建议的情况下依赖一个作者的作品。详见我们的 读者术语 。

这篇文章最初发表在价格行动实验室博客

如有任何问题或意见，欢迎在推特上联系: @mikeharrisNY

免责声明

关于作者: Michael Harris 是一名交易者和畅销书作家。他也是 17 年前第一个识别价格行为无参数模式的商业软件的开发者。在过去的七年里，他一直致力于开发 DLPAL ，这是一个软件程序，可以用来识别市场数据中的短期异常，以用于固定和机器学*模型。点击此处了解更多信息。

什么是智能？

原文：https://towardsdatascience.com/what-is-intelligence-a69cbd8bb1b4?source=collection_archive---------7-----------------------

大约 7 年前，当我还在上高中的时候，我是一名网站开发人员，并把学*心理学作为一种爱好，我偶然发现了一篇关于人工神经网络的文章。令人兴奋。就在我读完它之后，我开始寻找一种智力理论，这种理论可以解释我已经了解的人类智力，并以某种方式将其与人工智能联系起来。我研究过心理学、神经科学、控制论、认知科学、计算机科学、生物学、化学、物理学、神学、社会学和许多其他领域。上千篇文章论文，几百本书，几十门课过去了，我还是没有找到让我满意的答案。于是这篇文章诞生了。

让我们从维基百科对智力的定义开始，这实际上是我迄今为止看到的最好的定义之一:

感知或推断信息的能力，并将其作为知识保留，以应用于环境或背景中的适应性行为。

这与情报机构(CIA & Co .)通常使用的方式非常不同。他们的定义更接*于数据，特别敏感和有价值。然而，人工智能和生物智能的大多数定义是完全不同的，通常将智能描述为某种智能体的属性。此外，这个主体不可能完全孤立地存在，而是以某种方式体现在其环境中。

我将从人工制剂的概述开始，因为它们比生物制剂简单得多。之后，我将过渡到生物和他们有什么共同点。

人工智能

虽然很难确切说明第一个人工智能代理是什么，但巴贝奇的分析引擎可能是最佳候选。它没有任何特殊的“适应”能力，但是非常灵活。不幸的是，尽管理论上令人难以置信的美丽，没有一个原型已经完成。

Plan diagram of the Analytical Engine from 1840. Source: Wikipedia

有趣的是，在图灵出生前大约 50 年，图灵完成了。理论上，它可以将任何带数据的可计算函数作为输入，并在完全机械的情况下产生输出。大约比你的智能手机慢 1.000.000.000.000 倍。

这导致了算法复杂性理论的发展和一个普遍的认识，即建立一个通用计算机是一个相对容易的任务。此外，算法可以以多种方式实现。尽管一路上出现了技术挑战，但在过去的 70 年里，你可以以同样的价格购买的计算量大约每两年翻一倍。

换句话说，建立一个有能力计算任何政策的人工智能代理是很容易的。然而，它总是受到所提供的数据/输入以及处理它所需的时间的限制。这反过来提出了一个有趣的问题:如果每台计算机的能力都受到可用数据的限制，我们能称它们中的任何一台是智能的吗？我鼓励读者思考一下。

为了了解背景，让我们简单回顾一下人工智能研究的历史。从早期开始，它大致分为两个学派:象征主义学派和 T2 联结主义学派。符号方法更强调形式逻辑和手工制作的知识，而连接主义者更关注统计学*和人工神经网络(ann)的变体。他们的历史大致是这样的:

Relative popularity of Connectionist vs Symbolic approaches to AI. Source: Intuition Machine

“橙色”阵营之所以领先，首先是因为它与神经科学和人类大脑的关系，人类大脑仍然被认为是“强人工智能”或“AGI”的唯一成功实现。然而，最初的人工神经网络在处理现实世界的问题时过于局限。其中许多是线性的，能力非常有限，明斯基对此进行了深入的批评。与此同时，“蓝色”阵营发展了严谨的数学理论，能够创造出更多有用的东西。

随着手工知识的积累，扩展这些系统变得越来越困难。在输入或输出空间大于几千个选项的情况下，它们总是失败。此外，就像通常的法律可能相互冲突一样，专家系统中的规则也可能相互冲突。他们的规模需要越来越多的“法官”来解决这些问题。发展停滞。

与此同时，“橙色”阵营获得了足够的标记数据和计算资源，在合理的时间内“训练”他们的网络，让世界各地的研究人员开始实验。然而，在经历了最初的失败后，人工神经网络花了相当一段时间才重新获得公众的信任。开发人员花了一段时间才适应模糊逻辑和统计的概念，而不是布尔逻辑和清晰的对应概念。

但是在更详细地讨论人工神经网络之前，我想强调几个已经证明在许多领域有用的其他方法。此外，到这个时候，很明显，与混合方法相比，纯符号或连接方法的性能较差。我需要指出的是，我将只描述算法的大类，因为即使是所有人工智能方法的简要描述也需要至少几本书。

在我看来，最值得注意的是决策树、概率模型和进化算法。

Schematic decision tree. Source: prognoz.com

决策树是最简单和最有效的算法之一。简而言之，他们的“学*”是通过依次检查数据的每个属性，并找出哪一个对特定输出最有预测能力来进行的。像随机森林这样更高级的变体使用更复杂的学*技术，并在同一模型中组合多棵树，它们的输出是通过“投票”得出的。然而，基本原理和直觉是一样的。

概率模型代表统计方法，是人工神经网络的*亲。他们经常共享架构、学*/优化过程，甚至符号。但是概率模型大多受到概率逻辑(通常是贝叶斯)的约束，而 ann 可能没有这样的联系。

进化计算最初是受生物进化的启发。特别是关于随机突变和适应度的观点。考虑到修改通常是随机的，限制噪声的效果令人惊讶。这个课程是一种引导式搜索，在许多方面类似于退火过程。

Evolution of “walkers”. Source: alanzucconi.com

所有这些方法都有一个共同点:它们通常从非常差的政策开始，但逐渐改进以在某种性能评估函数上获得更好的分数。

如今，机器学*技术，特别是深度学*正在主导人工智能的研发。与大多数使用 1 或 2 个抽象中间层的 ML 方法(所谓的浅层模型)相比，DL 可能有数百甚至数千个堆叠的可训练层。

Deep network and learned features. Image from: edureka.co

在进行实际实验之前，人们普遍认为需要发现全新的优化程序来训练这样的深度网络。然而，事实证明，传统的反向传播(又名链式法则)和梯度下降可以很好地完成这项工作。数学家们在几个世纪前就知道这些算法了。更现代的算法，如 Adam 或 RMSProp，被发明来解决 GD 的一些问题，但在大多数现实情况下证明是不必要的。

简而言之，神经网络的训练工作如下:

取一堆可能的输入
计算各自的输出
计算性能
将误差传递给前一层以调整其参数(并对网络中的每一层重复)
对每一组可能的输入重复上述步骤，直到性能足够好

梯度下降不是唯一的最大似然训练算法，但是其中绝大多数算法的基本原理是相同的。只需通过策略取回错误，并调整参数以将其最小化。这种方法的一个主要问题是，人们普遍认为网络会陷入局部最小值，无法实现最佳设置。然而，最*的理论进展表明，在温和的假设下，许多神经网络可能确实达到全球最低水平。

Gradient Descent example. Source: distill.pub

DL 中另一个有趣的经验结果是训练可以高度并行化，这就是所谓的分布式学*。如果您在多台机器上同时训练相同的架构，同时不时地在它们之间交换梯度，您可以获得超过 1000 倍的加速，这个乘数直接取决于可用计算机的数量。

此外，经过训练的层可以重复用于类似的任务。这种现象被称为迁移学*，是人工神经网络广泛流行的重要原因。例如，为图像分类而训练的网络可以在以后用于其他计算机视觉任务。同样的原则也适用于自然语言处理和其他领域。不仅如此，同一个网络可以用来解决不同模态的问题。

所有这些经常会在强化学*领域聚集在一起。RL 背后的最初想法是从行为心理学借来的，在行为心理学中，研究人员研究了奖励如何影响学*和塑造动物的行为。

对于人工智能研究人员来说，RL 方法特别有趣，因为它们不需要完整的正确输出来进行训练。例如，不是精确地向机器人展示他应该如何移动，而是使用 RL 技术，你可以根据它走的多远或多快来奖励它，它会自己解决剩下的问题。然而，这种培训模式在实践中也是最具挑战性的，即使对于相对简单的任务，通常也需要付出很大的努力才能正确设置。

Source: blog.openai.com

我想强调的是，对于现实世界的问题，通常很难指定环境中的奖励，现在研究人员更关注内部奖励模型。

与 RL 并行的是逆向强化学*方法的发展，其中代理接收由专家产生的输入和输出，试图逼*可能驱动其行为的奖励函数。

除了上面提到的方法之外，一些对 AGI 的研究有明显不同的基础。这些框架有些来自严格的数学理论，有些受神经元回路的启发，有些基于心理学模型。然而，他们大多数人的共同点是关注他们受欢迎的同行失败的方面。我想强调的框架是 HTM、AIXI、ACT-R 和 SOAR。

让我们从分级时间记忆 (HTM)开始。最初，它是基于新大脑皮层回路启发的一些想法。但是，请记住，这些电路还没有得到足够的理解，HTM 可能只是一个粗略的*似。

然而，在 HTM 理论的核心有一个特别重要的概念——稀疏分布表示或 SDR。实际上，它只是一个通常包含几千个元素的位数组，它们的构造方式是将语义相关的输入映射到有许多重叠位的 SDR。从概念上讲，这类似于用神经网络导出的矢量化表示，但是稀疏性和过大的容量是主要的区别。这些想法特别相关，因为 DNN 收敛证明背后的关键假设之一是网络的过度参数化。

Example of SDR overlapping in the presence of noise. Source: numenta.com

在我看来，HTM 理论的其他观点没那么有趣。抑制类似于批量归一化和一些其他正则化技术，boosting 是 ML 中一个相对较老的概念，层次结构似乎过于严格，而新皮层具有更复杂的连接模式，拓扑似乎是普通 NN 的架构的同义词，一般来说，这种理论对对象赋予了很大的权重，而对它们之间的关系则给予了很小的权重，甚至 SDR 也可以用普通的 ann 构建，使用大量神经元，同时惩罚激活。总的来说，HTM 仍然需要太多的调整才能达到与其他大联盟竞争对手相当的表现。无论如何，我相信 Numenta(HTM 背后的公司)对这些想法简单直观的解释值得称赞。

我的下一位“客人”——艾西，没有这么简单，但有更坚实的数学基础。然而，它有一个显著的缺点——它是不可计算的。事实上，许多最大似然算法不可能精确计算，我们必须处理*似。无论如何，这些*似法在实践中经常表现良好。艾西可以用一句话来形容:

The model has an agent and an environment that interact using actions (outputs), observations (inputs), and rewards (might be described as a specific part of the input). The agent sends out an action a, and then the environment sends out both an observation o and a reward r,and term l(q) denotes the complexity of the environment. This process repeats at each time k…m. Source: lesswrong.com

它在很多方面都被证明是最优的，而且在我看来，它是对我们现在所拥有的 AGI 的最好的数学描述。此外，AIXI 是一个通用强化学*代理，在许多方面与 Schmidhuber 开发的哥德尔机器相似。然而，这两者都是 AGI 的描述模型，而不是创造它的配方。无论如何，它们是人工智能研究人员的巨大灵感来源。

相反，ACT-R，或者说思想理性的自适应控制，不仅仅是一个理论，还是一个用 LISP 编写的软件框架。它的发展已经持续了几十年，为其他语言带来了许多副产品，并对原始模型进行了修改。

Source: teachthought.com

ACT-R 主要关注不同类型的内存，而较少关注内存中数据的转换。它是作为人类思维的计算模型开发的，并在一定程度上取得了成功。它已被应用于预测 fMRI 成像结果以及一些关于记忆的心理学实验。然而，它在实际应用中总是失败，仍然只是研究人员的一个工具。SOAR 与 ACT-R 有着相似的根源和潜在的假设，但更侧重于实现 AGI，而不是人类认知的建模。

ACT-R 和 SOAR 是人工智能符号方法的经典代表，相对于连接主义方法，它们都逐渐失去了流行性。它们在认知科学的发展中发挥了重要作用，但是它们的应用比现代连接主义 ML 对应物需要更多的配置和先验知识。此外，神经成像和其他用于研究思维的工具正变得越来越详细和准确，而 ACT-R 和 SOAR 都落后了，从某种意义上说，它们过于僵化，无法保持相关性。

然而，在我看来，人工智能的未来必须是象征性的，至少在某种程度上，人工智能主体可以理解并遵循我们用人类友好的符号组成的法律。

野外的人工智能代理

上面我主要描述了定义现有人工智能代理策略的算法。但是，它们中的每一个都有某种身体:计算机、机器人或服务器，以及它们运行的环境，这通常是由它们所连接的互联网服务来定义的。

大多数个人电脑、智能手机和其他设备的硬件性能非常相似。他们的策略是由操作系统定义的，他们通过下载额外的软件来“学*”。虽然早期的计算机完全依靠与人类的互动来学*，但现在大多数计算机都通过互联网接收更新。

随着越来越多的数据转移到云中，服务器代理的作用越来越大。这些代理负责大多数计算密集型任务，有点类似于中枢神经系统。相反，面向消费者的小工具正在提高它们的输入/输出能力，变得有点类似于外周神经。

Source: researchgate.net

一个极端的例子通常被称为物联网，在物联网中，几十个高度专业化的微型设备各自只执行一项或几项功能，而基于云的中央“大脑”协调所有这些设备来控制房屋、工厂甚至整个区域。

相比之下，机器人通常专注于更加自主的代理。这些机器人通常必须实时处理复杂的真实世界输入/输出通道。无人驾驶汽车可能是最著名的例子:

The system-level overview of Voyage self-driving taxi. Source: news.voyage.auto

这只是一个简化的情况，而实际系统通常有超过 100 个传感器，这些传感器具有恒定的输入流，而它们的输出可以决定生死。设计这样的智能体是当今人工智能研究中最困难的领域之一。

不仅如此，面向消费者的机器人只是其中的一小部分，也是一个相对较新的趋势，而大多数是为工业和军事需求而设计的。考虑到这一点，与武装无人机或核电站控制人员的失误相比，自动驾驶出租车的不当行为看起来像是一场小事故。这种系统的策略编程不能依赖于黑盒学*算法，但通常涉及到他们工作的每个方面的严格数学规范。

总而言之，人工智能代理以各种形状和颜色出现，但趋势是外围设备越来越小，而数据中心越来越大。

量子世界

虽然这一部分可能看起来与智能的主题无关，但我相信物理学，尤其是量子物理学，由于一些原因值得特别关注。

Source: physics.stackexchange.com

首先，QM 是所有人工和生物制剂的共同点。半导体和生化试剂的工作原理都是基于量子效应。虽然谈论原子或亚原子水平的智能没有多大意义，但完全有可能用各种材料建造通用计算机。

第二，300 多年前开发的计算行星运动的数学工具成为反向传播和梯度下降的基础。不仅如此，概率论、统计力学和矩阵力学是质量管理的基础，也是现代人工智能的*亲。目前，深度学*就像炼金术，但我相信物理学可以帮助我们比现在更好地理解它。

三、量子计算的兴起。虽然量子计算机仍处于起步阶段，但当前的实验已经显示出某些优化问题的显著加速潜力。例如，Boltzmann Machine 是一种在大多数实际场景中难以处理的 ann，因此实践者提出了一种受限制的变体，这种变体成为了首批深度神经网络之一。然而，也许量子计算机将允许我们利用 BMs 以及许多其他概率模型的全部能力。

最后，QM 比上面描述的任何东西都更难理解。概率幅度、对经典概率逻辑的违反以及对亚原子水平上发生的一切的模糊描述只是冰山一角。具有讽刺意味的是，尽管许多人批评人工神经网络的可解释性差，但即使是人类也无法用直观的术语描述量子物理。

生物制剂

与只存在了大约 100 年的人工智能相比，生物智能已经存在了大约 30 亿年。地球上有数百万个物种，它们都有一个共同点: DNA 。

Source: evogeneao.com

为什么 DNA 如此重要？一般是细胞的“中枢神经系统”。此外，人们普遍认为，在以 DNA 为基础的生命出现之前，就有以 RNA 为基础的生物，但它们在功能和结构上非常相似。

Source: Wikipedia

大多数 DNA，大约 98%的人类 DNA，不编码蛋白质，并且在很长一段时间内被认为是无用的。然而，它的相当大一部分在控制编码 DNA 的哪些部分应该根据环境而活跃方面起着至关重要的作用。此外，DNA 本身的部分可能会因甲基化而失活，这也是可逆的，可能在整个生命周期中发生多次。

所有这些都允许基因组以不同的方式对不同的输入组合做出反应，决定宿主细胞应该专门扮演何种角色以及应该有多活跃。此外，DNA 实际上并不需要宿主细胞的存在。细胞外 DNA 正在降解，但较小的片段可能存活多年。

顺便说一下，现代生物技术让我们可以随心所欲地合成和编辑 DNA，所以在这一点上，人工和生物制剂的区别基本上消失了。

细胞

基本功能细胞被称为原始细胞:

Source: xabier.barandiaran.net

它们代表了第一个生命体可能的样子。大约 30 至 40 亿年前地球上的环境模型表明，脂质气泡可能已经捕获了足够多的核苷酸，从而偶然创造了第一个基因组，而第一个基因组可能已经通过从周围环境中捕获营养物质开始复制。在基因和其他化学物质积累到临界量后，这些气泡在内部压力的作用下分裂。

另一个简单的例子是病毒。两者的主要区别在于，病毒不维持内部代谢，需要利用其他生物因子进行复制。它们的基因组通常很短，可能只编码 1 或 2 种蛋白质。然而，在被称为水平基因转移的过程中，病毒可以通过与宿主的 DNA 交换进行“交流”。许多单细胞生物都有这种能力，它在整体进化中起着重要作用。

相比之下，细菌可以对不同的化学物质、光线、压力、温度和其他东西有多个传感器。它们中的许多都有在分子尺度上类似普通内燃机的运动机制。

Bacteria E. Coli. Source: gfycat.com

此外，他们有相当先进的通讯技术，可以成群结队。他们的产出不再仅仅是废物。它们的基因组及其周围的各种蛋白质使它们能够消化广泛的营养物质，并执行相当复杂的行为。然而，总的来说，它们的结构与原始细胞和古细菌非常相似。

相反，真核细胞有相当多的细胞器。其中一些，像线粒体和叶绿体，有自己的 DNA 片段，在过去可能是独立的有机体。此外，线粒体在所谓的克雷布斯循环中起着至关重要的作用，这对新陈代谢至关重要。

Source: biochemanics.wordpress.com

典型的真核细胞内部有更复杂的化学机制，但缺乏自行移动的能力。不仅如此，动物细胞还缺乏叶绿体和细胞壁，这进一步损害了它们的自主性。一般来说，上面从左到右描绘的进化树上的生物的细胞逐渐失去了依靠自己生存的能力，同时获得了更复杂的“社会”政策和专门的功能。

细胞对环境变化做出反应的最快方式之一是通过动作电位。当一些传感器检测到化学物质、压力或其他刺激时，它们可以导致细胞膜中电势的快速变化，这反过来可能会引发一连串的化学反应，导致各种结果。

Venus Flytrap plant. Source: giphy.com

然而，动作电位信号仅限于起源细胞和与之有直接膜-膜连接的细胞。它可以通过信号分子与其他细胞交流，但这个过程要慢得多。为了避免这个瓶颈，大多数动物都有专门的细胞——神经元。

Schematic view of a neuron. Source: Wikipedia

它们有不同的形状，在其一生中可以生长新的突触或去除旧的突触。外围神经元通常只有几百个连接，而中间神经元可以有超过 10，000 个。所有这些机制使它们能够快速传递信号，并通过调整突触强度来转换信号。此外，脊椎动物的许多轴突都有髓鞘，允许电位移动得更快，同时激活更少的膜通道并节省能量。

然而，神经元来自高度互联的系统，为了理解它们在宏观尺度上做什么，你需要考虑整个连接体。迄今为止研究得最好的神经系统之一是线虫:

Overview of the C. elegans nervous system. The majority of neurons are located in several ganglia near the nerve ring. Source: stb.royalsocietypublishing.org

它已经被研究了 50 多年，我们已经知道它所有 302 个神经元和 5000 多个突触的详细结构:

Partial circuit diagram of the C. elegans somatic nervous system and musculature. Sensory neurons are represented by triangles, interneurons are represented by hexagons, motor neurons by circles and muscles by diamonds. Arrows represent connections via chemical synapses, which may be excitatory or inhibitory. Dashed lines represent connections by electrical synapses. VNC, ventral nerve cord. Source: rstb.royalsocietypublishing.org

正如你可能看到的，即使是 302 个神经元也对理解每个神经元在做什么构成了真正的挑战。这变得更加复杂，因为它们正在“学*”,它们的功能可能会实时变化。现在试着想象一下人类大脑中的数十亿个细胞会发生什么。

鉴于所有这些复杂性，神经科学的大多数研究都集中在特定的区域、途径或细胞类型上。大多数进化的旧结构负责呼吸、心跳、睡眠/觉醒周期、饥饿和其他至关重要的功能。然而，大脑皮层受到的关注比其他任何东西都多。

在结构上，皮层是一个折叠的分层薄片，厚度约为 2-3 毫米，面积约为餐巾纸大小，包围着大脑的其他部分。

Cross section of the cortex. Source: etc.usf.edu

它涉及所有我们认为是高级认知功能的东西，如语言、意识、计划等。在人类中，大约 90%的皮层由新皮层代表，这是大脑中最*的进化发明之一。

另一个被充分研究的区域是海马:

Source: gregadunn.com

所有的脊椎动物都有一个类似的结构，叫做大脑皮层，但是只有哺乳动物有上面描述的更进化的结构。它在空间和情景记忆中起着至关重要的作用。简单来说，它的功能是一个认知时空地图。有了这张地图，大脑可以在其他部分储存复杂的记忆，这些部分专门负责视觉、听觉和其他类型的表达。

对大脑的最初研究集中在损伤和病变上。然而，大脑皮层缺失区域和认知功能缺失之间的相关性相对较弱。事实证明，记忆分布在整个大脑皮层，甚至在手术切除某个部分后，邻*的神经元可能会重新学*缺失的功能。此外，通常很难准确界定伤害的界限。这些研究提供了这样的地图:

Source: pinterest.fr

这些地图的主要问题是在实践和理论两方面都缺乏精确性。在实验环境中，你可以刺激大脑的小部分，观察反应。但是，除了主要的感觉和运动区域，它通常产生相当模糊的结果。另一方面，现在你可以使用功能性磁共振成像来跟踪受试者在执行一些任务时大脑的哪些部分是活跃的，但由于这些区域并不专门针对少数任务，所以结果通常是模糊的。此外，功能性核磁共振成像实际上是测量氧气供应水平，所以像这样在单个神经元水平上测量活动是不够的:

Spike propagation in a hippocampal neuron. Source: nature.com

目前神经科学研究中最有前途的方向之一是光遗传学。它允许我们使用为神经元提供光传感器的基因，以更高的精度控制单个神经元的活动。然而，它需要基因操作，不能用于人类实验。

大脑活动的另一个有趣的特征是它以波的形式进行:

High-level interpretation of EEG recordings (cps = cycles per second). Source: dickinson.edu

所有这些研究都有助于我们理解和治疗神经系统疾病，但它们远不能描述人类的行为，除了某些部位的活动与这个人正在做什么或在想什么的模糊描述之间的相关性。无论如何，这种自下而上的思维研究方法导致了许多重要的发现，如根据神经活动预测某人选择的可能性，以及大脑没有“中央”部分。

另一方面，从心理学角度进行的行为研究受遗传、文化和环境因素的影响很大。这项研究最广为人知的成果之一是智商以及测量智商的测试。也有许多理论试图解释智力，如多元智能理论、三元智能理论和其他理论。然而，到目前为止，它们都没有被广泛接受。

心理学理论的主要问题是它们的描述性，这种描述性不能提供一种定量证明它们的方法。即使像走路或说“嗨”这样简单的行为背后的神经元级过程的数量也是极其巨大的，再加上考虑到每个细胞内 DNA 和其他生物机械的复杂性，神经科学研究的心理解释往往比实验本身更复杂。然而，一些人类认知模型在行为和神经活动之间建立了牢固的联系。

在我看来，最有趣的一个是综合信息理论 (IIT)，它基于这些公理:

Axioms and postulates of IIT. Source: wikipedia.org

其他理论包括强化学*及其在大脑中的实施方式，大量的记忆、视觉、听觉、语言和其他模型。然而，在我看来，IIT 提出了其中最普遍的理论框架。

虽然上面提到的模型主要集中在个人的行为上，但“社会心理学”对大多数生物体来说是至关重要的。从你肠道中的细菌群落开始，一直到鱼、蚂蚁、蜜蜂、鸟类和人类社会都是从社会互动中产生的。我们已经对蚂蚁的化学语言和蜜蜂如何通过“跳舞”进行交流有了相当多的了解，但理解人类的情感却是一个巨大的挑战。随着语言、法律和宗教的发展，事情变得越来越复杂。

那么，什么是智能呢？

答案有很多，但我们还没有一个被广泛接受的生物和人工智能的统一理论。然而，我相信艾西和 IIT 的杂交可能会让我们更接*它。为了把它们结合起来，我们需要一个奖励/效用的物理概念，这个概念可能来源于医学和经济学，适用于每一种人工和生物制剂，这本身就是一个巨大的问题。

几乎所有当前的智能测量都是基于某些任务的表现，这在现实世界中造成了一个问题，在现实世界中，环境以及智能体可能偶然遇到的任务都在不断变化。另一方面，将意识定义为“任何可能的经验”以及相关的 IIT 框架与艾西背后的智力框架一起可能会提供认知表现的更广阔的图景。

从内部的观点来看，任何代理人的工作都可以被描述为量子系统的波函数，但是在几乎所有的情况下，它都是难以计算的。此外，对*得的中间表征的解释对生物和人工智能都是一个巨大的挑战。

最重要的是，我相信没有单一的算法或机制最终负责智能，但它是一个代理如何与其环境交互的属性。

下一步是什么？

虽然人工智能的进步和对人类智能的更深入理解有很多好处和大量的实际应用，但它们也揭示了我们需要应对的许多挑战，其中大多数都属于以下类别之一:

隐私。以前——你的数据属于你，在某种程度上，属于政府，有严格的法律规范其流动。现在，数以百计的跟踪服务，社交网络和其他公司几乎没有披露这些数据是如何使用的。
偏见。除了人工筛选的数据集，每个训练数据集都有其偏差，它们往往会在像推荐引擎这样的闭环系统中放大。
对齐。大多数人工智能训练都是基于效用最大化或错误最小化，那些目标函数并不代表所有的人类价值和道德。
位移。一段时间以来，技术已经在许多任务中取代了人类，但人类的进化比人工智能慢得多。就在几十年前，计算机还是专业人士的稀有工具，但现在不每天使用它们就很难保持相关性。
网络攻击。以前，网络攻击通常需要做大量准备才能瞄准一个人，但现代人工智能可以比人类更快地收集信息、猜测密码、生成钓鱼内容并伪装成其他人，同时在这个过程中改进自己。
心理工程。无数的心理学实验和历史教训表明，即使没有任何暴力倾向的人，如果被恰当地操纵，也会造成真正的伤害。脸书、谷歌和其他大公司可能有足够的关于我们的信息来瞄准、筛选和强迫我们做任何事情。

在控制全球经济主要部分的交易机器人的情况下，我们如何可靠地解决偏差和对齐问题？谁应该为人工智能代理在他们没有得到足够好的训练的场景中的错误负责？我们如何才能制造出容错的脑机接口，使其无法控制我们的思想？此外，这些问题中的大部分与人类和人工智能一样相关。

我们将在 5 年、10 年或 20 年后走向何方？我不知道，我也鼓励你对任何关于人工智能的预测持怀疑态度。历史表明，大多数预测，甚至来自领先的人工智能研究人员的预测，最终都被证明是错误的，有时是错误的幅度很大。然而，我相信人工智能和生物智能的共生是不可避免的，如果我们承认相关的问题并解决它们，这可能对我们非常有益。

资源

arxiv.org/cs/0309048——《哥德尔机器:自我参照的通用问题解决者做出可证明的最佳自我改进》，作者于尔根·施密德胡伯
numenta.com/hierarchical-temporal-memory-white-paper——杰夫·霍金斯的《分级时间记忆(HTM)》
amazon.com/Soar-Cognitive-Architecture-John-Laird——约翰·莱尔德的《腾飞的认知建筑》
——约翰·r·安德森、丹尼尔·博瑟尔、迈克尔·d·伯恩、斯科特·道格拉斯、克里斯蒂安·勒比尔、秦玉林的《整合的心智理论》
arxiv.org/1812.06162——open ai Dota 团队的 Sam McCandlish、Jared Kaplan、Dario Amodei 的“大批量训练的经验模型”
arxiv.org/1606.06565——Dario Amodei、Chris Olah、Jacob Steinhardt、Paul Christiano、John Schulman、Dan Mané的“人工智能安全的具体问题”
、——《通过过参数化实现深度学*的收敛理论》，作者·艾伦-朱，
arxiv.org/1805.08974——“更好的 ImageNet 模型传输得更好吗？”西蒙·科恩布利斯，黄邦贤·史伦斯
apps.dtic.mil/708563.pdf——彼得·菲什伯恩的《决策的效用理论》
——《深度神经网络的安全性和可信赖性:一项调查》，作者:、丹尼尔·克罗宁、玛尔塔·夸特考斯卡、阮、孙友成、埃姆斯·塔莫、、易新平
archive.org/CerebralMechanismsInBehavior——《行为中的大脑机制》作者劳埃德·a·杰弗里斯
cognitivemap.net——《海马作为认知地图》，作者约翰·奥基夫、林恩·纳德尔
mitpress.mit.edu/spikes——《尖峰信号:探索神经代码》作者:威廉·比亚莱克，罗伯·德鲁伊特·范·斯蒂文宁克，弗雷德·里克，大卫·沃兰德
psyarxiv.com/d6qhu/——《怪异心理学的起源》，作者乔纳森·舒尔茨、杜曼·巴拉米-拉德、乔纳森·比彻姆、约瑟夫·亨利克
nature.com/articles/d41586–018–05097-x——“意识是什么？”作者克里斯托夫·科赫
arxiv.org/0706.3639——《智力定义集》，作者沙恩·莱格，马库斯·哈特
amazon.com/Frames-Mind-Theory-Multiple-Intelligences——《心智框架:多元智能理论》作者哈沃德·加德纳
amazon.com/Beyond-IQ-Triarchic-Theory-Intelligence——《超越智商:人类智力的三元理论》，作者罗伯特·斯腾伯格
archive.org/tom_bingham_the_rule_of_law——汤姆·宾汉姆的《法治》
【link.medium.com/cDzwHQm0YR——乔纳森·奥尔布赖特的《脸书和 2018 年中期选举:看数据》
【intelligence.org/all-publications
integratedinformationtheory.org
portal.brain-map.org
github.com/OpenWorm

以及coursera.org、edx.org等众多开放教育平台。当我开始研究所有这些时，我并没有打算发表任何东西，所以我没有收集参考文献的列表，如果你的工作如上所述而不在列表中，我很抱歉(请随时通过 twitter @eDezhic 或电子邮件 edezhic@gmail.com 联系我)。

什么是知识蒸馏？

原文：https://towardsdatascience.com/what-is-knowledge-distillation-41bb77a3c6d8?source=collection_archive---------15-----------------------

知识提炼是一个迷人的概念，我们将简要介绍为什么我们需要它，它是如何工作的。

体重很重要

今天的模型可能相当大，以下是 ImageNet 数据集的一些顶级模型:

The models were instantiated via *keras.applications* module with top layers, the number of parameters are given by *summary()*.

似乎公平地说，简单的计算机视觉模型重量很容易~100Mo。仅仅用一百个 Mo 就能做出一个推论，对于最终产品来说并不是一个可行的解决方案。远程 API 可以做到这一点，但现在你的产品需要添加加密，你需要存储和上传数据，用户需要有一个可靠的互联网连接，以有一个像样的速度。我们可以训练一个更窄的网络，它们可能适合一个小内存。但它们很可能无法很好地提取复杂的特征。

我们不是在谈论合奏。集成是从训练数据中提取大量知识的好方法。但是在测试时，并行运行 100 个不同的模型代价太高。每个参数的知识比率相当低。

最后，一个模型可以在训练时得到很高的分数，但是我们可能想要:降低它的大小(对于嵌入式系统)，提高推理速度或者简单地降低复杂性。杰弗里·辛顿谈到减少它的“记忆足迹”:

许多昆虫的幼虫形态最适合从环境中吸取能量和营养，而完全不同的成虫形态最适合完全不同的旅行和繁殖需求。在大规模机器学*中，我们通常在训练阶段和部署阶段使用非常相似的模型，尽管它们的需求非常不同(……)()在神经网络中提取知识 )

从一个较大的模型训练一个较小的模型被称为知识提炼。

蒸馏

作者继续说，我们用权重值来识别知识，这使得“很难看出我们如何改变模型的形式，但保持相同的知识”。并且提醒我们，我们可以把知识看作是从输入到输出的映射。

知识提炼的目标是将知识从一个表现突出的老师那里转移到一个更紧凑的学生那里。

为此，我们查看教师的 softmax 图层，将其放大，然后学生学*如何制作它们。我们需要放大，因为 softmax 层会将最不可能的类粉碎为零，并上升到最可能的类附*(就像一个热矢量)。我们还可以保持类之间的相对概率，其中摩托车和自行车在 softmax 层上比在书上有更多的相似性。我们可以通过提高温度 t 来实现。

为了传递知识，学生被训练由一个更大的老师产生的软化概率(T>>1)。当温度 T 小于 1 时，最期望的类对最终概率的影响最大。类似地，当温度升高时，概率会变得更软/更平——你可以让在这里直观地感受到温度对单个exp()的影响。

首先，老师的体温升高到某一点。然后学生被训练模仿老师的软概率。

利益

对软目标的训练有几个优点:可以从单个样本中提取更多的信息，可以在更少的样本上进行训练，不需要标记数据

多类分类器的 softmax 将为您提供相似图像的更高概率。玫瑰可能与郁金香而不是拉布拉多有相似的软概率。同样，两个不同的类出现在同一个图像中，我们可能会在输出中看到它。所以从每个训练样本中提取更多的信息。

这是第一点的结果，模型可以用比老师更少的训练样本来训练。学*也更快，因为对学生有更多的约束。它需要针对多个(软)输出，而不是一个(硬)输出。

由于学生仅从软目标学*，通过类之间的相对相似性，它可以在未标记的数据集上训练，仅使用主设备具有运行中的“软标记器”。但实际上，数据集可以和老师一样。

失败

蒸馏损失一般有两种形式:匹配函数值、匹配导数或两者都有，对应一个不同阶的回归问题:

匹配函数值:试图最小化老师和学生的预测之间的差异。对于分类任务，这是通过使用经典的交叉熵来完成的。
匹配导数:尝试匹配导数的值和。这是一种比以前更有效的方法，因为在这里我们可以完全接触到老师，并且我们能够测量其输入中的小变化的影响。

我们也可以尝试通过直接增加硬损失来增加预测的影响:

alpha ~= 0.1 
KD_loss = alpha * log_loss(y_true, softmax(logits)) + logloss(y_true, softmax(logits/temperature))

你可以在这里看到一个很酷的实现。

资源

TTIC·杰佛瑞·希尔顿——黑暗知识——第一篇知识蒸馏论文的作者所做的报告。
IEE 安全研讨会，Papernot :注意，蒸馏作为对抗例子的对策已经被证明不再有效。

最初发表于data-soup.github.io/blog/。

什么是机器学*？

原文：https://towardsdatascience.com/what-is-machine-learning-891f23e848da?source=collection_archive---------8-----------------------

这是一系列文章中的第一篇，旨在让没有受过技术培训的人更容易理解机器学*。希望有帮助。

过去几十年中计算机技术的进步意味着在人类努力的大多数领域中收集电子数据已经变得更加普遍。许多组织现在发现自己拥有跨越许多年的大量数据。这些数据可能涉及到人、金融交易、生物信息等等。

与此同时，数据科学家一直在开发被称为算法的迭代计算机程序，这些程序可以查看大量数据，对其进行分析，并识别人类无法识别的模式和关系。分析过去的现象可以提供非常有价值的信息，告诉我们在相同或密切相关的现象中未来会发生什么。从这个意义上说，这些算法可以从过去学*，并使用这种学*对未来进行有价值的预测。

虽然从数据中学*本身并不是一个新概念，但机器学*与其他学*方法的区别在于它能够处理大量数据，并且能够处理结构有限的数据。这使得机器学*可以成功地用于广泛的主题，这些主题以前被认为对其他学*方法来说太复杂了。

机器学*的例子

以下是你在日常生活中可能遇到的更成熟的机器学*应用的例子:

信用评分:金融机构长期收集客户的详细信息，例如收入、资产、工作、年龄、金融历史。可以对这些数据进行分析，以确定哪些特征与消极结果(如拖欠贷款)关联更大，或者哪些特征推动积极结果(如及时偿还贷款)。因此，可以构建预测关系，该预测关系可以基于客户违约的可能性对客户进行分类，并且金融机构可以使用该预测关系来做出更有效的贷款决策。
购物篮分析:当顾客在杂货店或网上结账时，购买的特定商品的信息将最终存储在一个大型数据库中。该数据库可以被分析以确定典型的购买行为或关联。例如，购买了牙刷的客户还会购买牙膏的可能性有多大？在许多情况下，可以收集个人客户数据，这有助于分析这种行为在特定人口统计或收入群体中的变化。分析这些数据可以为营销和广告策略以及决策提供信息。它还可以带来更加个性化的广告，客户可以收到他们更有可能感兴趣的产品的报价。
基因科学:23andme.com在线 DNA 检测服务的成员提供个人信息和健康信息，并提供他们的唾液样本进行 DNA 分析。这些成员经常收到关于他们健康和个人特征的调查问卷。报告相似健康状况或特征的人的遗传密码可以在大量个体中进行分析，以寻找频繁出现的字符串或部分。如果这样的字符串或部门被发现，他们可以用来预测未来可能出现的特征或可能的医学问题。这种学*也可用于确定服役人员之间的生物关系，在某些情况下，使因收养或其他情况而失散的家庭成员团聚。
估价:可以对一段时间内的汽车销售数据进行分析，以确定汽车的哪些特征对价格影响最大，以及价格对这些特征的敏感度。基于此，在线估价工具现在可以根据车主输入的信息给出汽车的价格范围。
其他常见应用包括医疗诊断、手写到文本转换、语音识别、人脸识别、图像压缩、机器人、自动驾驶汽车和许多其他用途。

机器学*的类型

机器学*可以分为三大类:

监督学*算法利用输入和输出数据的训练集。该算法从训练集中学*输入和输出数据之间的关系，然后使用该关系来预测新数据的输出。最常见的监督学*目标之一是分类。分类学*的目的是利用学*到的信息来预测某一类的成员。信用评分示例代表分类学*，因为它预测拖欠贷款的人。
无监督学*旨在通过推断数据中的潜在模式和结构，在没有已知结果或结果的数据中进行观察。关联学*是最常见的无监督学*形式之一，其中算法搜索输入数据之间的关联。购物篮分析示例代表关联学*。
强化学*是一种“试错”学*形式，输入数据刺激算法产生响应，算法根据响应是否是期望的而受到“惩罚”或“奖励”。机器人技术和自主技术充分利用了这种学*形式，

机器学*成功的必要条件是什么？

*年来，机器学*和“大数据”变得越来越广为人知，并引发了大量报道。因此，许多个人和组织正在考虑如何以及是否可能适用于他们的具体情况，以及是否有从中获得的价值。

然而，为成功的机器学*建立内部能力(或利用外部专业知识)可能成本高昂。在接受这一挑战之前，明智的做法是评估是否存在合适的条件，使组织有机会取得成功。这里的主要考虑与数据和人类洞察力有关。

有效的机器学*有三个重要的数据要求。通常，并非所有这些要求都能令人满意地得到满足，一个方面的缺点有时会被另一个或两个方面抵消。这些要求是:

数量:机器学*算法需要大量的例子，才能提供最可靠的结果。大多数监督学*的训练集将涉及数千或数万个示例。
可变性:机器学*旨在观察数据的异同。如果数据过于相似(或过于随机)，它将无法有效地从中学*。例如，在分类学*中，训练数据中每个类别的样本数量对成功的几率至关重要。
维度:机器学*问题往往在多维空间中运行，每个维度都与某个输入变量相关联。数据中丢失的信息量越大，阻碍学*的空白空间就越大。因此，数据的完整程度是学*过程成功的一个重要因素。

机器学*也可以得到高质量人类洞察力的帮助。从一组给定的数据中可以研究的分析和情景的排列和组合通常是巨大的。这种情况可以通过与主题专家的交谈来简化。基于他们对情况的了解，他们通常可以突出数据中最有可能提供见解的方面。例如，招聘专家可以根据多年的参与和观察，帮助确定哪些数据点最有可能推动公司的选择决策。了解组织内部的底层流程也有助于数据科学家选择最能模拟该流程的算法，从而获得最大的成功机会。

下一章将讨论机器学*是如何工作的。在这里 读一下 。

什么是机器学*？

原文：https://towardsdatascience.com/what-is-machine-learning-8c6871016736?source=collection_archive---------2-----------------------

这个世界充满了数据。很多很多数据。从图片、音乐、文字、电子表格、视频等等。看起来短期内不会减缓。机器学*带来了从所有这些数据中获取意义的希望。

在这个系列中，我想带你在人工智能的世界中进行一次冒险，探索艺术、科学和机器学*工具。在这个过程中，我们将看到创造惊人的经历和产生有价值的见解是多么容易。我们将从高级概念开始，然后深入技术细节。

The data frontier stretches far into the distance

亚瑟·C·克拉克曾经说过:

"任何足够先进的技术都和魔法没什么区别。"

乍一看，ML 似乎很神奇，但是一旦你深入了解，你会发现它是一套从数据中获取意义的工具。

我们周围的数据

传统上，人类分析数据并使系统适应数据模式的变化。然而，随着数据量超过人类理解数据和手动编写规则的能力，我们将越来越多地转向能够从数据中学*的自动化系统，更重要的是，数据中的变化，以适应不断变化的数据格局。

机器学*已经无处不在

在我们今天使用的产品中，我们看到机器学*在我们周围，但对我们来说，机器学*并不总是显而易见的。虽然标记图片中的对象和人物显然是机器学*，但你可能没有意识到，像视频推荐系统这样的功能通常也是由机器学*驱动的。

当然，也许最大的例子是谷歌搜索。每次你使用谷歌搜索，你都在使用一个以许多机器学*系统为核心的系统，从理解你的查询文本到根据你的个人兴趣调整结果。当你搜索“Java”时，机器学*决定先显示哪些结果，这取决于它认为你是咖啡专家还是开发者。也许你们两个都是！

今天，机器学*的直接应用已经相当广泛，包括图像识别、欺诈检测、推荐引擎，以及文本和语音系统。这些强大的功能可以应用于广泛的领域，从糖尿病视网膜病变和皮肤癌检测到零售，当然还有运输，形式为自动停车和自动驾驶车辆。

预期的特征

Don’t get left behind

不久前，当一家公司或产品在其产品中包含机器学*时，它被认为是新颖的。现在，每家公司都在寻求在他们的产品中使用机器学*。它正迅速成为一个预期的功能。正如我们期望公司有一个在我们的移动设备或应用程序上工作的网站一样，我们的技术将被个性化、有洞察力和自我纠正的那一天很快就会到来。

当我们使用 ML 使现有的人工任务比以前更好、更快或更容易时，我们也可以展望未来，那时 ML 可以帮助我们完成我们自己永远无法完成的任务。

谢天谢地，利用机器学*并不难。工具已经变得相当好；你需要的只是数据、开发者和冒险的意愿。

用数据回答问题

出于我们的目的，我们可以将机器学*的定义缩短为五个词:

《用数据回答问题》

当然，这是一种过于简单化的做法，但是它仍然可以达到一个有用的目的。

具体来说，我们可以将定义分为两部分:“使用数据”和“回答问题”。这两部分概括了机器学*的两个方面，两者同等重要。

“使用数据”通常被称为“训练”，而“回答问题”被称为“做出预测”，或“推断”。

将这两部分联系在一起的是模型。我们训练模型，使用我们的数据集做出越来越好、越来越有用的预测。然后，可以部署这种预测模型来提供对以前看不到的数据的预测。

数据是关键

您可能已经注意到，这个过程的关键部分是数据。数据是开启机器学*的钥匙，就像机器学*是开启隐藏在数据中的洞察力的钥匙一样。

下一步是什么？

这只是对机器学*的高度概述，为什么它有用，以及它的一些应用。机器学*是一个广阔的领域，跨越了从数据中推断答案的整个技术家族。在未来，我们的目标是让您更好地了解对于给定的数据集和您想要回答的问题应该使用什么方法，以及提供如何完成它的工具。

这是云人工智能冒险系列文章的第一篇。下一次，我们将更详细地研究 ML 的具体过程，通过一步一步的公式来解决机器学*问题。

什么是机器学和机器学的类型—第 1 部分

原文：https://towardsdatascience.com/what-is-machine-learning-and-types-of-machine-learning-andrews-machine-learning-part-1-9cd9755bc647?source=collection_archive---------1-----------------------

几个月来，我一直在阅读什么是机器学*以及如何在实际应用中应用它。当我第一次读到谷歌的自动驾驶汽车 Waymo 时，故事就开始了。然后我读到了它是如何工作的。然后我听说机器学*这个术语在其中发挥了巨大的作用。几天后，我参加了印度 Pycon 会议，以获得更好的直觉。我刚刚在那里参加了一些关于机器学*的讲座。不幸的是，所有的都在我耳边消失了。然后我开始谷歌它。在大多数博客和 quora 上，我听说了吴恩达的 coursera 机器学*课程。突然我就一头扎进去了。
在这篇文章中，我将简要地提到 Coursera 的机器学*课程的第一周。

什么是机器学*？

提供了机器学*的两种定义。阿瑟·塞缪尔将其描述为:“在没有明确编程的情况下，赋予计算机学*能力的研究领域。”这是一个更老的，非正式的定义。
Tom Mitchell 提供了一个更现代的定义:“如果一个计算机程序在 T 类任务和性能测量 P 中的性能(由 P 测量)随着经验 E 而提高，那么就说它从经验 E 中学*。”

我举一个简单的例子来更好地理解。假设你有几组数字。然后，你只需将一组中的一个数字输入机器，就可以预测另一组数字。
(2，4)，(3，6)，(4，9)。计算机程序必须预测(5，？)
程序首先需要找到配对之间的逻辑，然后应用相同的逻辑来预测数字。去发现逻辑叫做“机器学*”。以便在找到逻辑之后，它可以应用相同的逻辑来预测每个数字。

机器学*的类型？

一般来说，有 3 种类型的机器学*。

1.监督学*

2.无监督学*

3.强化学*

监督学*

在监督学*中，我们得到一个数据集，并且已经知道我们的正确输出应该是什么样子，知道输入和输出之间有关系。
监督学*问题分为“回归”和“分类”问题。在回归问题中，我们试图预测连续输出中的结果，这意味着我们试图将输入变量映射到某个连续函数。在分类问题中，我们试图预测离散输出的结果。换句话说，我们试图将输入变量映射到离散的类别中。

例 1:

给定房地产市场上房屋大小的数据，试着预测它们的价格。价格作为规模的函数是一个连续产出，所以这是一个回归问题。我们可以把这个例子变成一个分类问题，我们的输出是关于房子“卖得比要价高还是低”在这里，我们根据价格将房屋分为两个独立的类别。

例二:

(a)回归——给定一个人的照片，我们要根据给定的照片预测其年龄
(b)分类——给定一个患有肿瘤的患者，我们要预测肿瘤是恶性的还是良性的。

无监督学*

无监督学*允许我们在很少或根本不知道结果应该是什么样的情况下解决问题。我们可以从数据中推导出结构，而不一定知道变量的影响。我们可以根据数据中变量之间的关系对数据进行聚类，从而得到这种结构。
无监督学*，没有基于预测结果的反馈。

例 1:

聚类:收集 1，000，000 个不同的基因，并找到一种方法来自动将这些基因分组为在某种程度上相似或通过不同变量(如寿命、位置、角色等)相关的组。
非聚类:“鸡尾酒会算法”，让你在混乱的环境中找到结构。(即在鸡尾酒会上从声音网格中识别出个人的声音和音乐)。

例 2:

我不擅长煮咖啡。所以有一天，我决定建立一个模型，根据糖、牛奶、咖啡粉的数量来预测我的咖啡质量。不幸的是，那并不顺利。但是，我希望我能在此基础上建立一个有效的模型。

强化学*

强化学*是机器学*的一个领域，受到行为主义心理学的启发，涉及软件代理应该如何在环境中采取行动，以最大化累积回报的概念。

例 1:

考虑教狗一个新把戏。你不能告诉它该做什么，但如果它做了正确/错误的事情，你可以奖励/惩罚它。它必须弄清楚它做了什么让它得到了奖励/惩罚。我们可以使用类似的方法来训练计算机完成许多任务，例如玩双陆棋或象棋，调度作业，以及控制机器人肢体。

例 2:

通过学*和适应游戏的新情况，教游戏机器人在游戏中表现得越来越好。

今天就到这里吧，伙计们。谢谢你的耐心。如果帖子中有错误，请告诉我，因为这是我的第一篇帖子。

测量对象检测模型-地图-什么是平均精度？

原文：https://towardsdatascience.com/what-is-map-understanding-the-statistic-of-choice-for-comparing-object-detection-models-1ea4f67a9dbd?source=collection_archive---------0-----------------------

对于使用机器学*解决的大多数常见问题，通常有多个模型可用。每个人都有自己的怪癖，并会根据各种因素表现不同。

每个模型都根据其在数据集上的表现来判断，通常称为“验证/测试”数据集。这种性能是用各种统计数据来衡量的——准确度、精确度、召回率等。选择的统计数据通常特定于您的特定应用程序和用例。对于每个应用程序来说，找到一个可以用来客观比较模型的指标是至关重要的。

在本文中，我们将讨论用于对象检测问题的最常见的度量标准— 平均精度也就是图。

大多数时候，这些指标很容易理解和计算。例如，在二进制分类中，精度和召回率是一种简单直观的统计。

另一方面，物体检测是一个相当不同的…有趣的问题。

即使你的物体检测器在一幅图像中检测到一只猫，如果你在它所在的图像中找不到的位置，也没有用。

由于您预测的是图像中物体的出现和位置，因此我们如何计算这一指标相当有趣。

首先，让我们定义对象检测问题，以便我们在同一页上。

目标检测问题

这就是我所说的“目标检测问题”,

给定一幅图像，找到其中的物体，定位它们的位置，并进行分类。

对象检测模型通常在一组固定的类上训练，因此该模型将仅定位和分类图像中的那些类。

此外，对象的位置通常是边界矩形的形式。

因此，对象检测涉及图像中对象的定位和该对象的分类。

Image 1 — Few prominent Image Processing problems [Image taken from Stanford’s CS231n Course slides(lecture 8)]

如下所述，平均精度特别用于预测对象位置和类别的算法。因此，从图像 1，我们可以看到，它对于评估定位模型、对象检测模型和分割模型是有用的。

评估对象检测模型

为什么要地图？

对象检测问题中的每个图像可能具有不同类别的不同对象。如前所述，模型的分类和定位都需要评估。因此，在图像分类问题中使用的标准精度度量不能直接应用于此。这就是 mAP(平均精度)发挥作用的地方。我希望在这篇文章结束时，你能够理解它的含义和代表。

关于地面真相

对于任何算法，总是在与真实数据的比较中评估指标。我们只知道训练、验证和测试数据集的基本事实信息。

对于对象检测问题，地面真实包括图像、图像中对象的类以及该图像中每个对象 **** 的真实边界框。

一个例子:

Human visualisation of the ground truth

我们被给予实际的图像(jpg、png 等)和作为文本的其他注释(边界框坐标(x、y、宽度和高度)和类)，红色框和文本标签仅被绘制在该图像上以供我们人类可视化。

对于这个特殊的例子，我们的模型在训练中得到的是这个

The actual image

以及定义地面实况的 3 组数字(假设该图像是 1000x800px，所有这些坐标都是像素，也*似为)

现在，让我们把手弄脏，看看地图是如何计算的。

我将在另一篇文章中讨论各种对象检测算法、它们的方法和性能。现在，让我们假设我们有一个经过训练的模型，我们正在验证集上评估它的结果。

计算地图

让我们说，原始图像和地面真相注释是我们在上面看到的。训练和验证数据以相同的方式对所有图像进行注释。

该模型将返回大量预测，但在这些预测中，大多数预测都具有非常低的关联置信度得分，因此我们只考虑高于某个报告置信度得分的预测。

我们通过我们的模型运行原始图像，并且这是在置信度阈值化之后对象检测算法返回的，

带边框的图像-

Results from our model

现在，由于我们人类是物体检测专家，我们可以说这些检测是正确的。但是我们如何对此进行量化呢？

**我们首先需要知道这些检测中每一个的正确性有多大。告诉我们一个给定的边界框的正确性的度量是联合上的— IoU — 交集。这是一个非常简单的视觉量。

就单词而言，有些人会说这个名字是不言自明的，但是我们需要一个更好的解释。我简单解释一下欠条，对于真正想要详细解释的人，* 阿德里安·罗斯布鲁克 有一篇 真正的好文章 可以参考一下。*

借据

交集/并集是预测框和基础事实框的交集和并集之间的比率。这种统计也被称为 Jaccard 指数，由 Paul Jaccard 在 20 世纪初首次发布。

为了获得交集和并集值，我们首先将预测框覆盖在基础真值框上。(见图片)

现在，对于每个类，与预测框和地面真实框重叠的区域是交集区域，并且跨越的总区域是联合。

We’ll show this example only for the horse

上面的 horse 类的交集和并集如下所示，

In this case the intersection is pretty large

交集包括重叠区域(青色区域)，并集包括橙色和青色区域。

欠条的计算方法如下

This Image is inspired by the pyimagesearch article, which was inspired by University of Pittsburg’s CS1699 HW assignment4

识别正确的检测并计算精度

对于计算精度和召回，就像所有机器学*问题一样，我们必须识别真阳性、假阳性、真阴性和假阴性。

为了得到真阳性和假阳性，我们使用 IoU。使用 IoU，我们现在必须确定检测(阳性)是正确的(真)还是错误的(假)。最常用的阈值是 0.5，即如果 IoU > 0.5，则认为是真阳性，否则认为是假阳性。COCO 评估指标建议测量各种 IoU 阈值，但为简单起见，我们将坚持 0.5，这是帕斯卡 VOC 指标。

为了计算召回率，我们需要否定的计数。由于图像中我们没有预测到物体的每一部分都被认为是负面的，所以测量“真正的”负面效果有点没用。所以我们只测量“假”否定。我们的模型遗漏的对象。

此外，另一个要考虑的因素是模型为每次检测报告的置信度。通过改变我们的信心阈值，我们可以改变一个预测框是积极的还是消极的。基本上，高于阈值的所有预测(盒+类)被认为是正盒，低于阈值的所有预测是负盒。

现在，对于每个图像，我们都有基础数据，它告诉我们该图像中给定类别的实际对象的数量。

现在，我们使用模型报告的每个阳性检测框的地面真实值来计算 IoU。使用这个值和我们的 IoU 阈值(比如 0.5)，我们计算图像中每个类别的正确检测的数量( A ) 。这用于计算每个类的精度[TP/(TP+FP)]

精度= TP / (TP+FP)

由于我们已经计算了正确预测的数量( A ) (真阳性)和漏检(假阴性)，因此我们现在可以使用此公式计算该类模型的召回( A / B ) )。

召回= TP / (TP+FN)

计算平均精度

平均精度是一个有不同定义的术语。这种度量通常用于信息检索和对象检测领域。这两个域有不同的计算 mAP 的方法。我们将讨论对象检测相关的地图。

当前流行的 mAP 的对象检测定义在 2007 年的 PASCAL 视觉对象类(VOC)挑战中首次正式化，该挑战包括各种图像处理任务。关于确切的文件，请参考和。

我们使用与上一节提到的相同的方法来计算精度和召回率。

但是，如前所述，我们至少有 2 个其他变量决定精确度和召回率的值，它们是 IOU 和置信度阈值。

IOU 是一个简单的几何指标，很容易标准化，例如 PASCAL VOC challange 基于固定的 50% IOU 来评估 mAP。(MSCOCO 挑战赛更进一步，在 5%到 95%的不同阈值范围内评估 mAP。另一方面，置信度因模型而异，对我的模型设计 50%的置信度可能相当于对其他人的模型设计 80%的置信度，这将改变精确回忆曲线的形状。因此，PASCAL VOC 组织者想出了一种方法来解释这种差异。

我们现在需要一个度量来以模型不可知的方式评估模型。

这篇论文建议我们计算一个叫做 AP ie 的度量。平均精度

*For a given task and class, the precision/recall curve is
computed from a method’s ranked output. Recall is defined
as the proportion of all positive examples ranked above a
given rank. Precision is the proportion of all examples above
that rank which are from the positive class. The AP summarises
the shape of the precision/recall curve, and is de-
fined as the mean precision at a set of eleven equally spaced
recall levels [0,0.1,...,1]:*

这意味着我们选择了 11 个不同的置信度阈值(决定了“等级”)。阈值应该是这样的，在那些置信度值下的回忆是 0、0.1、0.2、0.3、…、0.9 和 1.0。AP 现在被定义为在这些选定的 11 个召回值处的精度值的平均值。这导致该图是整个精确召回曲线的总体视图。

本文还对上述计算中所用的精度进行了详细的计算。

*The precision at each recall level r is interpolated by taking
the maximum precision measured for a method for which
the corresponding recall exceeds r.*

基本上，我们使用给定召回值的最大精度。

因此，该图是上面测量的所有类的所有平均精度值的平均值。

这实质上是如何为对象检测评估计算平均精度的。有时可能会有一些变化，例如 COCO 评估更加严格，使用各种借据和对象大小强制执行各种指标(更多细节请点击)。如果你们中的任何一个人想让我说得更详细，请在评论中告诉我。

因此，总结一下，平均精度，从字面上看，是数据集中所有类的平均精度(AP)的平均值。

比较地图值时需要记住的一些要点

MAP 总是在固定的数据集上进行计算。
尽管解释模型输出的绝对量化并不容易，但 MAP 通过提供一个非常好的相对度量来帮助我们。当我们在流行的公共数据集上计算该度量时，该度量可以很容易地用于比较新旧对象检测方法。
根据类在训练数据中的分布情况，平均精度值可能会从某些类的非常高(具有良好的训练数据)到非常低(具有较少/较差数据的类)不等。所以你的地图可能是中等的，但是你的模型可能对某些职业真的很好，对某些职业真的很差。因此，在分析模型结果时，查看单个类的平均精度是明智的。这些值也可以作为添加更多训练样本的指标。

原载于 2018 年 1 月 27 日 tarangshah.com*。2018 年 5 月 27 日更新***

什么是基于物理的动画？

原文：https://towardsdatascience.com/what-is-physically-based-animation-cd92a7f8d6a4?source=collection_archive---------12-----------------------

基于物理的动画(PBA) 指的是计算机图形学的一个领域，其目标是使用人工智能(AI) 生成物理上看似真实的动画。动画通常使用 2D 或 3D 模拟环境中的虚拟角色来播放。下面是一个使用 PBA 的最新最先进结果的好例子:

An example of a 3D humanoid character running under heavy perturbations. Physically-based animation enables the character to dynamically adjust its movements to the environment [1].

PBA 与传统关键帧动画的一个主要区别是，PBA 可以根据环境的变化进行动态调整。另一方面，关键帧动画本质上是静态的和无响应的，必须小心处理，否则很容易产生不自然的运动，如下所示:

If not handled carefully, traditional keyframe animation easily produces unnatural movements (footage from Fallout 76).

在这篇文章中，我将简要概述 PBA 的基本概念以及解决这个问题的研究现状。

1.常见的方法有哪些？

*二十年来，许多研究人员一直致力于 PBA 的研究，迄今为止，已经提出了无数的方法来解决这个问题。我将这些方法分为两类:1)基于搜索的方法，和 2)强化学*。在这一节中，我将解释这些方法背后的核心思想。

1.1.基于搜索的方法

解决 PBA 的一类经典而强大的方法是使用基于搜索的方法来优化运动。这些方法背后的基本思想相当简单:1)生成多个动作序列，2)使用正向模拟和计算一些成本函数来评估它们，最后，3)选择最小化成本函数的动作序列。这个过程的简单说明如下所示:

This picture demonstrates the basic mechanism in search-based methods using a simple example. Here the aim is to control an object from the left side to the green circle in the right. The optimal trajectory is shown in blue, and the gray lines indicate the randomly generated trajectories. After computing the cost function for all generated trajectories, the trajectory with minimum cost (shown in black) is considered as the solution [2].

迄今为止，已经提出了大量基于搜索的方法来求解 PBA。使用此类方法的最佳示例之一获得的最终动画如下所示:

The result of a search-based method, in which offline optimization is used to optimize a parameterized controller that generates the movements [3].

这项工作有趣的一点是，它没有直接优化运动。相反，它首先定义一个用于合成运动的参数化控制器，然后优化该控制器的参数。这使得角色能够稳健地处理环境中的随机扰动[3]。

1.2.强化学*

强化学*(RL) 是机器学*(ML) 的一个热门领域，研究从交互中学*的计算方法【4】。RL 的基本定义包括一个与某些环境交互的主体，其目标是随着时间的推移最大化累积的回报。在每个时间步中，代理观察当前状态并采取行动。之后，代理人观察到一个标量奖励以及新状态的观察结果。目标是优化代理，使其通过采取最佳行动获得最大可能的回报。这种相互作用的示意图如下所示:

The agent-environment interaction in reinforcement learning [4].

在过去的几年里，由于雅达利游戏[5]和围棋游戏[6，7，...]中的深度强化学*(DRL) 的显著成果，RL 受到了更多的关注。这些进展也激发了连续控制 RL 的几项突破。这些类别中的一种最先进的方法如下所示:

An example of using reinforcement learning to imitate acrobatic movements by watching Youtube videos [8].

上述工作中使用的流水线包括三个阶段:1)姿态估计，2)运动重建，和 3)运动模拟。输入视频首先由姿势估计阶段处理，姿势估计阶段预测演员在每一帧中的姿势。接下来，运动重建阶段将姿态预测合并到参考运动中，并修复可能由姿态预测引入的伪像。最后，参考运动被传递到运动模仿阶段，在那里模拟角色被训练来使用 RL [8]模仿运动。

2.哪些游戏使用基于物理的动画？

由于其在计算资源方面的高要求，PBA 在视频游戏的动画流水线中没有被广泛使用。然而，有趣的是，几乎所有拥有密集动画系统的游戏都至少使用了一些 PBA 技术。在我看来，最好的例子包括 FIFA 、 PES 和刺客信条。

FIFA is a good example of a big game title that uses PBA in its animation pipeline.

抛开大型游戏不谈，也有一些独立游戏已经完全使用 PBA 实现了他们的动画管道。在这些游戏中， QWOP 和 Toribash 是其中最成功的两个(如果你知道这里其他值得一提的好例子，请告诉我)。你可以在 Youtube 上找到很多这些游戏的游戏性视频。但是，我强烈建议您自己下载并测试它们，这样您就可以感受到 PBA 的强大和复杂。您可以从下面的 Toribash 中看到一个示例动作:

A few games have implemented their whole animation pipeline using physically-based animation (footage from Toribash).

3.有哪些开放性的问题？

到目前为止，我只告诉了你这个好消息。坏消息是，目前解决 PBA 的方法仍然不能以适中的计算成本合成鲁棒的运动。所以在这个领域有很多公开的问题。我试图在下面解决最重要的问题(从我的角度来看):

我们如何开发有效的方法来解决 PBA？
如何在实时应用和游戏中使用 PBA？
我们如何评价一部动画的质量(流畅度，自然度等)。)?
如何利用 PBA 设计出新颖的游戏机制或者人机交互界面？
PBA 如何影响不断发展的增强、混合和虚拟现实技术？

4.结论

这篇文章是对 PBA 的简单介绍。与传统的关键帧动画技术相比，PBA 具有以更大的灵活性和多样性合成运动的潜力。当前解决 PBA 的方法使用基于搜索的方法和/或强化学*。尽管该领域最*取得了显著进展，但在计算能力和鲁棒性方面，仍有很大的空间来改进当前的方法。这就是为什么 PBA 还没有完全进入游戏开发管道的原因。

我希望这篇文章能帮助你对基于物理的动画问题有所了解。最后，我希望听到您的任何意见或问题。

参考文献

彭；阿贝耳，p。Levine，S. & van de Panne，m .，“DeepMimic:基于物理的角色技能的示例引导的深度强化学*。” ACM Trans。图表。，ACM，， 2018 ，37 ，143:1–143:14
哈姆莱宁，p。rajamki，J. & Liu，C. K .，“使用粒子信念传播的模拟人形机器人的在线控制”， 《美国计算机学会图形学报(TOG)》,美国计算机学会， 2015 ，34 ，81
Geijtenbeekvan de Panne，M. & van der Stappen，A. F .，“两足动物基于肌肉的灵活运动”， 《美国计算机学会图形学汇刊》， 2013 ，32
萨顿，R. S. &巴尔托，A. G .，《强化学*:导论》， 麻省理工出版社， 2018
Mnih，v；Kavukcuoglu 白银，d；鲁苏公司；Veness，j；贝勒马尔；格雷夫斯，a。里德米勒，m；菲吉兰，又名:奥斯特洛夫斯基、g .等人、《通过深度强化学*的人类级控制》、《自然》、《T33》、《T34》、《T35》、《T36》、《2015》、《T37》、《T38》、《518》、《T39》、《529》
白银，d；黄；马迪森，首席法官；Guez，A 西弗尔湖；范登德里斯切；Schrittwieser，j；安东诺格鲁岛；Panneershelvam，v。Lanctot，m .等人，“用深度神经网络和树搜索掌握围棋游戏”， 《自然》， 2016 ，529 ，484–489
白银，d；Schrittwieser，j；西蒙扬，k；安东诺格鲁岛；黄；Guez，A 休伯特，t。贝克湖；赖，男；波顿，a . .等人，《掌握没有人类知识的围棋游戏》， 自然， 2017 ，550 ，354
彭；金泽，a；j .马利克；Abbeel，P. & Levine，s .，《SFV:从视频中强化学*身体技能》， ACM Trans。图表。、ACM、、T4 2018、37

什么是“无服务器计算”？

原文：https://towardsdatascience.com/what-is-serverless-computing-a07f4a96759b?source=collection_archive---------5-----------------------

当我第一次听到“无服务器计算”这个词时，我惊慌失措地想，这怎么可能。服务器是一种特殊的计算机，用于处理请求并通过网络传送数据。例如，“网络服务器”被用来访问互联网上的网页。当 web 浏览器向 web 服务器发送请求时，它会处理该请求并传送所请求的网页。有许多其他类型的服务器可用于不同种类的服务，

Web 服务器
电子邮件服务器
FTP 服务器

实际上，“无服务器计算这个词是用词不当。即使它说无服务器计算，仍然需要一个服务器。不同之处在于，我们不需要自己维护物理服务器。服务器在云中维护，我们只需要向云提供所需的指令，以确保服务器按照我们想要的方式运行。通常，这些指令是使用函数发送到云的。

亚马逊在 2014 年推出的“AWS Lambda ”是第一个提供无服务器计算的公共云。最初，它只支持 Node.js。然而，目前它支持其他流行的编程语言，包括 Java 和 Python。

最*， Google Firebase 也在云功能下提供无服务器设施。开发人员可以将他们在函数中的后端代码上传到云，云会根据事件触发器和 HTTP 请求自动执行相应的逻辑。

如果你读到这里，你会认为这是另一种类型的云计算。实际上，无服务器计算是基于 FaaS，即功能即服务。由于云的参与，使用这种架构有很多优势。

简化部署流程
不需要复杂的基础架构和管理
支持微服务架构
动态资源分配
成本效益(使用收费)
可量测性

现在让我们使用 Google Firebase 获得一些关于无服务器计算的实践经验，它可以免费用于学*:)

我们将创建 2 个函数并上传到 firebase。第一个函数触发一个 HTTP 请求，将一个给定的输入保存到数据库中。另一个功能基于 firebase 事件触发器。它将在每次对数据库进行保存调用时自动执行，将输入转换为大写。你可以从这里阅读更多谷歌文档。

*注意:你需要安装 Node.js 才能遵循这个。如果不是从 这里 下载安装。

首先，使用以下命令安装 Firebase CLI。

2。认证&初始化

然后运行以下命令来验证和初始化项目。你需要有一个谷歌帐户进行认证。

执行该命令时，浏览器将弹出，您将被重定向到登录页面。输入凭证，完成所有工作后，转到 firebase 中的控制台，创建一个新项目。启动项目时，本地项目将与此同步。

这里“功能”代表项目名称。当执行这个命令时，您将被要求选择一个默认项目，并且您将得到在 Firebase 中创建的项目。选择适当的项目，并通过安装所有必需的依赖项来继续初始化过程。

3。导入模块

设置完成后，导航到项目文件夹，您将看到已经创建了一个 index.js 文件。这个文件用于编写需要上传到 Firebase 的函数。

首先，我们需要导入云函数来创建函数和设置触发器。然后 Admin SDK 需要访问 Firebase 实时数据库来保存我们的输入。

4。添加我们的第一个函数

现在我们可以开始实现我们的功能了。首先，让我们编写函数，将给定的输入保存在数据库中。

如果你熟悉 Node.js，这里没有太大的区别。基本上，我们从请求中获取输入，并通过/message 路径中的管理模块将其保存在数据库中。我们保存的每个文本都将存储在实时数据库的消息下。当我们执行该功能时，您可以从 Firebase dashboard 中看到这一点。

5。添加第二个功能

同样，我们可以添加第二个函数。

由于这是一个事件触发函数，我们可以从事件中获取原始值。然后我们把它转换成大写，保存在“大写”下。当我们在 Firebase 仪表板中执行和查看结果时，这对您来说是有意义的。

6。部署功能

现在我们已经实现了我们的功能，是时候将它们部署到云中了。运行以下命令来部署我们的函数。

您将看到它将逐步部署我们所有的功能，并将给出一个 URL 来触发我们的 HTTP 触发功能。你可以用它来传递一个文本作为一个普通的 URL 参数(xyz.com/saveInput?输入=测试)。完成后，使用 web 浏览器中的 Firebase 仪表板检查实时数据库。您将能够看到一个创建为“消息”的部分，并且您传递的文本作为“原始”保存在那里。此外，它包含大写文本作为“大写”。现在回到代码片段，现在一切对你来说都有意义了。

希望你从这篇文章中得到一个基本的想法。这是一个非常基本的示例，可以为使用谷歌云功能提供一些指导。这个例子摘自官方文档，如果您有任何疑问，请遵循它。

干杯！

函数式编程有多棒:尾部递归消除

原文：https://towardsdatascience.com/what-is-tail-recursion-elimination-or-why-functional-programming-can-be-awesome-43091d76915e?source=collection_archive---------9-----------------------

Iguanas are experts at tail elimination. I am not sure about the recursion though. Source: Pixabay

尾部递归消除是函数式编程语言中一个非常有趣的特性，比如 Haskell 和 Scala。它使得递归函数调用几乎和循环一样快。

在我的关于 Python 中函数式编程特性的最新文章中，我说鉴于列表理解的存在，T2 映射有点多余，并且也没有很好地描绘 T4 表达式。我觉得我总体上没有做好函数式编程，因为我确实喜欢它作为一种构造程序的优雅方式。它与 Python 的风格和哲学不太合拍。作为越位评论，我提到了缺少尾部递归消除，这是 Python 实现中另一个有争议的设计决策。

老实说，当我写这个的时候，我并不完全确定什么是尾部递归消去法(TRE，从现在开始)。我知道这是一个与递归函数调用有关的优化，它出现在 Haskell 中，但并不多。

所以我决定用我能做到的最好的方式来弥补:学*并写一篇关于它的文章，这样这就不会发生在你身上了！

什么是递归调用？

当一个函数调用在被调用的函数范围内进行时，我们说它是递归的。所以基本上它是一个调用自身的函数。

许多问题(实际上任何你可以用循环解决的问题，和许多你不能解决的问题)都可以通过递归调用一个函数直到满足某个条件来解决。
例如，这里有一个以命令式和函数式两种风格编写的 Python 函数:

Note that the last two clauses in the second function could be merged with an ‘or’.

这两个函数在理论上做同样的事情:给定一个列表和一个元素，查看该元素是否存在，并将其作为 bool 返回。但是在较低的层次上，第二个实现进行了大量的函数调用，并且直到最后一个调用完成后才真正返回。为什么这是一个问题？

递归消除的动机

由于函数调用会占用计算机堆栈的空间，所以在遇到堆栈溢出之前，我们可以调用的函数数量有一个硬性限制:填满整个堆栈。不仅如此:由于每个函数调用都是从建立堆栈开始的(将东西推到内存和其他高成本的操作)，第二段代码要慢很多。

正如我之前说过的，有些问题你无法用不使用递归的解决方案来解决，或者至少不那么优雅。因此，如果我们能以第二种方式编写函数，并使它们像第一种方式一样快，那将是非常好的——特别是如果这也允许我们避免堆栈溢出的话。

幸运的是，有人已经找到了解决方案——但首先，让我们澄清一些事情。

什么是尾部递归？

我们已经看到了为什么我们想要以一种有效的方式实现递归，但我一直在谈论消除尾部递归，而不是所有类型的递归。那么是什么让尾部递归变得特别呢？尾递归只是递归的一个特殊实例，函数的返回值被计算为对自身的调用，除此之外别无其他。

例如，下面是阶乘函数的两个版本。一个是尾递归，一个不是。

请注意，即使第一个函数的返回行包含对自身的调用，它也对其输出做了一些事情(在这个特殊的例子中是计算一个产品),所以返回值并不是递归调用的返回值。通常我们可以通过使用累加器参数使一个常规递归函数尾递归，就像我在第二次声明阶乘时所做的那样。

引入尾部递归消除

TRE 背后的整个思想是尽可能避免函数调用和堆栈帧，因为它们耗费时间，并且是递归和迭代程序之间的关键区别。你没看错:函数式语言很棒，部分原因是它们找到了调用更少函数的方法。

为了理解下一部分，重要的是回退一步，理解每次函数调用时到底发生了什么。

无论我们的代码是编译的(如 C 或 Golang)还是解释的(如 Python)，它总是以机器语言指令的形式结束。这些通常用汇编或其他类似的语言编码，它们代表了最低层次的抽象，因此是对内存和硬件的最细粒度的控制。

下面是每次函数调用时发生的情况:

所有寄存器——存储数据的变量的硬件等价物——都被推到堆栈上(写入内存，但不是以最慢的方式)。
您的计算机开始从不同的内存地址读取指令(对应于被调用函数的第一行代码)。
代码从该地址开始执行，做函数实际做的事情。通常以某种方式改变寄存器值。
所有的寄存器值都从堆栈中弹出/取回，所以我们返回的函数有它的数据。
运行 return 语句，并再次开始从前面的函数中读取指令。

就时间而言，第二步和第四步的运行成本更高，就像大多数处理内存的操作一样。每次 push 或 pop 通常需要十倍于“常规”(仅处理寄存器)指令的时间。然而，如果跳过这些步骤，一个函数可以在寄存器中写入值，潜在地覆盖调用者函数已经写入的值。想象一下，如果每次调用 print，时，所有变量都变成任意值，会发生什么。

然而，在函数调用自身的特殊情况下，我们可以使用一些技巧:

我们可以存储函数开始的内存地址，而不是调用函数，只是在最后将“内存读取器”移回到它那里。
我们可以自己写入寄存器，知道前一个函数期望从我们这里得到哪些值，而不必使用堆栈来恢复前一个状态。我们知道“前一个函数”期望的是什么，因为它就是这个函数。不仅如此:我们甚至不需要保存和恢复我们不会改变的寄存器。

这样我们可以避免来回推动和弹出我们的寄存器，这将花费很多时间。但这还不是全部——因为没有实际的函数调用发生(我们只使用了 jump 语句——移动我们的指令读取器—),我们没有填充我们的堆栈，也不会发生堆栈溢出。我们不需要首先在堆栈中保存以前的上下文，因为我们只是一次又一次地返回到同一个函数。我们需要保存的唯一上下文是第一次调用我们的函数时的上下文。

总而言之，TRE 是一种优化，它利用了函数调用的一种非常特殊的情况:函数调用自己，并返回它们的输出，而不做任何进一步的处理。它使用函数自身的知识，因此它可以将合适的值写入相关的寄存器，而不必恢复它在运行期间没有进行任何修改的值。然后，当它调用自己时，它就跳到自己的起点，而不必在堆栈中移动任何东西。

由于这个特性，像 Haskell 这样的语言可以运行递归算法的实现，这对于函数式编程来说是至关重要的(特别是对于纯函数式语言)，就像它们的命令式对应物一样快。

这是 Haskell 中一个非常精简的线性搜索，看看它在两行代码中是多么优雅！(对于那些实际上擅长 Haskell 的人，请原谅我的糟糕做法或可怕的代码):

This code does the same thing as the second Python function defined above, only in Haskell

我希望你现在对 TRE 有了更好的理解，也许对函数式语言也有了更好的理解。如果你认为这个解释中的任何部分不够清楚，或者太详细，请在评论中告诉我，因为我还在学*写作。

如果你想要更多的编程教程、技巧和诀窍，请关注我！
并请考虑 表示对我写作的支持 。

机器学*最好的编程语言是什么？

原文：https://towardsdatascience.com/what-is-the-best-programming-language-for-machine-learning-a745c156d6b7?source=collection_archive---------0-----------------------

克里斯蒂娜·沃斯科格鲁

问答网站和数据科学论坛一遍又一遍地讨论着同样的问题:我是数据科学新手，我应该学*什么语言？机器学*最好的语言是什么？

有大量的文章试图回答这些问题，要么基于个人经验，要么基于工作机会数据。然而，机器学*中的活动比西方的工作机会所能描述的要多得多，同行的意见当然非常有价值，但往往相互冲突，因此可能会让新手感到困惑。相反，我们转向了来自 2000 多名数据科学家和机器学*开发者的硬数据，他们对我们关于他们使用哪些语言和他们正在从事哪些项目的最新调查做出了回应，以及关于他们的机器学*活动和培训的许多其他有趣的事情。然后，作为数据科学家，我们不得不运行一些模型，看看哪些是与语言选择相关的最重要的因素。我们比较了排名前五的语言，结果证明“哪种语言？”没有简单的答案问题。这取决于你试图建立什么，你的背景是什么，以及你最初为什么参与机器学*。

哪种机器学*语言总体上最受欢迎？

首先，我们来看看机器学*语言的整体流行程度。Python 领先，57%的数据科学家和机器学*开发人员使用它，33%的人优先开发它。考虑到深度学* Python 框架在过去 2 年中的所有发展，包括 TensorFlow 和大量其他库的发布，这并不奇怪。Python 经常与 R 相提并论，但它们在受欢迎程度上没有可比性:R 在总使用量上排名第四(31%)，在优先级上排名第五(5%)。事实上，在这五种语言中，r 是优先级使用比率最低的语言，只有 17%的开发者会优先使用它。这意味着在大多数情况下，R 是一种补充语言，而不是首选语言。Python 的这一比例为 58%，是五种语言中最高的，这清楚地表明 Python 的使用趋势与 r 的使用趋势完全相反。Python 不仅是使用最广泛的语言，也是大多数用户的首选。C/C++在使用率(44%)和优先级(19%)上都远远落后于 Python。Java 紧随 C/C++之后，而 JavaScript 在使用上排在第五位，尽管优先级性能比 R (7%)略好。我们向受访者询问了机器学*中使用的其他语言，包括 Julia、Scala、Ruby、Octave、MATLAB 和 SAS 等常见语言，但它们的优先级都低于 5%，使用率低于 26%。因此，我们将注意力集中在排名前五的语言上。

Python 在 Java 没有的应用中被优先考虑。

我们的数据显示，在为机器学*选择语言时，最具决定性的因素是你将从事的项目类型——你的应用领域。在我们的调查中，我们向开发人员询问了 17 个不同的应用领域，同时也为我们的受访者提供了机会，告诉我们他们仍在探索各种选项，而不是积极致力于任何领域。这里我们展示了每种语言顶部和底部的三个区域:开发人员对每种语言的优先级最高和最低的区域。

与从事其他领域工作的开发人员相比，从事情感分析的机器学*科学家更优先考虑 Python (44%)和 R (11%)，JavaScript (2%)和 Java (15%)。相比之下，网络安全/网络攻击和欺诈检测领域的工作人员更重视 Java，而 Python 在这两个领域最不受重视。网络安全和欺诈检测算法大多是在大型组织中构建或使用的，尤其是在金融机构中，在这些机构中，Java 是大多数内部开发团队的最爱。在不太关注企业的领域，如自然语言处理(NLP)和情感分析，开发人员选择 Python，它提供了一种更简单、更快速的方法来构建高性能的算法，因为它附带了大量的专业库。

考虑到所需的控制水平、高性能和效率，游戏中的人工智能(AI)和机器人移动(27%)是 C/C++最受青睐的两个领域。在这里，带有高度复杂的人工智能库的低级编程语言，如 C/C++是一个自然的选择，而为统计分析和可视化设计的 R，被认为是最不相关的。游戏中的人工智能(3%)和机器人移动(1%)是 R 优先度最低的两个领域，其次是语音识别，情况类似。

除了情感分析，R 在生物工程和生物信息学(11%)中也有相对较高的优先级——与其他应用领域相比，这是一个 Java 和 JavaScript 都不被看好的领域。鉴于 R 在生物医学统计中的长期使用，无论是在学术界内部还是外部，它是使用最多的领域之一也就不足为奇了。最后，我们的数据显示，数据科学和机器学*的新开发者仍在探索各种选择，他们比其他人更优先考虑 JavaScript)，而比其他人更优先考虑 Java(13%)。在许多情况下，这些开发人员通过在 web 应用程序中使用第三方机器学* API 来试验机器学*。

专业背景是选择机器学*语言的关键。

其次是应用领域，专业背景在选择机器学*语言时也很关键:与来自五种不同背景的其他语言相比，开发人员更优先考虑前五种语言。那些将数据科学作为第一职业或研究领域的人最优先考虑 python(38%)。这表明 Python 现在已经成为数据科学不可或缺的一部分——它已经发展成为数据科学家的母语。对于 R 来说就不一样了，它主要被数据分析师和统计学家优先考虑(14%)，因为这种语言最初是为他们创造的，取代了 s。

前端 web 开发人员将 JavaScript 的使用扩展到机器学*，16%的人为此优先考虑它，同时避开繁琐的 C/C++ (8%)。与之完全相反的是嵌入式计算硬件/电子工程师，他们比其他人更喜欢 C/C++，而比其他人更回避 JavaScript、Java 和 R。考虑到他们在工程生涯中对掌握 C/C++的投资，满足于一种会损害他们对应用程序的控制水平的语言是没有意义的。嵌入式计算硬件工程师也最有可能从事接*硬件的机器学*项目，如物联网边缘分析项目，硬件可能会强制他们选择语言。我们的数据证实，他们在工业维护、图像分类和机器人运动项目等方面的参与程度明显高于平均水平。

对于 Java，前端桌面应用程序开发人员比其他人更重视它(21%)，正如前面提到的，这也与它主要用于企业应用程序是一致的。企业开发者倾向于在所有项目中使用 Java，包括机器学*。在这种情况下，公司的指令也明显来自与语言优先化密切相关的第三个因素——进入机器学*的原因。进入机器学*的开发人员最优先考虑 Java(27%)，因为他们的老板或公司要求他们这样做。对于那些进入这个领域仅仅是因为好奇想看看到底有什么大惊小怪的人来说，它是最不受欢迎的(14%)——Java 不是一种你通常只是为了好玩而学*的语言！好奇者比其他人更优先考虑 Python(38%)，这是另一个迹象，表明 Python 被认为是人们需要实验以发现机器学*是什么的主要语言。

似乎一些教授数据科学课程的大学仍然需要跟上这一理念。与其他人相比，那些说他们进入机器学*是因为数据科学是/曾经是他们大学学位的一部分的开发人员最不可能优先考虑 Python (26%)，最可能优先考虑 R (7%)。很明显，在学术界的统计界——它诞生的地方——仍然存在对 R 的偏爱，但随着数据科学和机器学*越来越倾向于计算，这种趋势正在消退。受过大学数据科学培训的人可能比其他人更喜欢它，但从绝对意义上来说，这仍然只是该群体中的一小部分人会首先选择 R。

那些希望通过机器学*来增强现有应用/项目的人(20%)更优先考虑 C/C++，而那些希望基于机器学*来构建新的极具竞争力的应用的人(14%)则较少考虑 C/c++。这种模式再次表明，C/C++主要用于工程项目和物联网或 AR/VR 应用程序，很可能已经用 C/C++编写，其中添加了 ML 支持的功能。当从头开始构建一个新的应用程序时——特别是一个使用 NLP 的聊天机器人——没有特别的理由使用 C/C++，而有很多理由选择提供高度专业化库的语言，如 Python。这些语言可以更快更容易地产生高性能的算法，这可能在新的以 ML 为中心的应用程序中提供竞争优势。

最后，进入机器学*以增加获得高利润项目机会的承包商比其他人更优先考虑 JavaScript)。这些可能是 JavaScript 开发人员正在构建 web 应用程序，他们正在向其中添加机器学* API。一个例子是在基于网络的仪表板上可视化机器学*算法的结果。

没有所谓的“机器学*的最佳语言”。

我们的数据表明，在为机器学*和数据科学选择编程语言时，流行度不是一个很好的衡量标准。没有“机器学*的最佳语言”这种东西，这完全取决于你想要构建什么，你来自哪里，以及你为什么参与机器学*。在大多数情况下，开发人员将他们已经在使用的语言移植到机器学*中，特别是如果他们要在与他们以前的工作相邻的项目中使用它——例如 C/C++开发人员的工程项目或 JavaScript 开发人员的 web 可视化。

如果你第一次接触编程是通过机器学*，那么鉴于 Python 丰富的库和易用性，你在我们调查中的同行会指出 Python 是最好的选择。另一方面，如果你梦想在企业环境中工作，准备好使用 Java。无论如何，这都是机器学*的激动人心的时刻，无论你选择哪种语言，这段旅程都肯定会令人兴奋不已。享受旅程！

如果你是机器学*程序员或数据科学家， 加入我们的社区 ，在我们的 未来调查 中说出你的看法。

什么是 C4.5 算法，它是如何工作的？

原文：https://towardsdatascience.com/what-is-the-c4-5-algorithm-and-how-does-it-work-2b971a9e7db0?source=collection_archive---------0-----------------------

C4.5 算法在数据挖掘中用作决策树分类器，可用于基于特定数据样本(单变量或多变量预测器)生成决策。

所以，在我们直接进入 C4.5 之前，让我们讨论一下决策树以及它们如何被用作分类器。

决策树

Example of a Decision Tree

决策树看起来有点像这个流程图。假设你想计划今天的活动，但是你被告知一些会影响你决定的情况。

在上图中，我们注意到影响决策的一个主要因素是父母拜访。所以，如果这是真的，那么很快就会做出决定，我们选择去电影院。如果他们不来访呢？

这带来了一系列其他情况。现在，如果天气是晴天或雨天，我们要么分别去打网球或待在。但是，如果是刮风的天气，我会检查自己有多少钱。如果我有足够的钱可以花，也就是说，有钱，我会去购物，否则我会去电影院。

记住，树的根总是对一个价值函数有最小值的变量。在这个例子中，父母来访的概率各为 50%,如果你仔细想想，会更容易做出决定。但是如果天气被选为根呢？那么我们将有 33.33%的几率发生这种情况，这可能会增加我们做出错误决策的几率，因为有更多的测试用例需要考虑。

如果我们过一遍信息增益和熵的概念，会更容易理解。

信息增益

如果你随着时间的推移获得了有助于你准确预测某件事是否会发生的信息，那么关于你所预测的事件的信息就不是新信息了。但是，如果情况变糟，出现了意想不到的结果，这也是有用和必要的信息。

类似的还有信息增益的概念。

你对一个话题了解得越多，你就越不容易获得新的信息。更简洁地说:如果你知道一件事很有可能发生，那么当它发生时就不奇怪了，也就是说，它给你的信息很少是它确实发生了。

从上面的陈述中，我们可以得出，获得的信息量与事件发生的概率成反比。我们也可以说，随着熵的增加，信息增益减少。这是因为熵指的是事件发生的概率。

假设我们正在看掷硬币。期待公平硬币任何一面的概率是 50%。如果硬币是不公平的，获得正面或反面的概率是 T2 1.00，那么我们说熵是最小的，因为不需要任何尝试，我们就可以预测硬币的结果。

在下面的图表中，我们注意到，当每个事件的概率相等时，由于特定事件的最大不确定性而获得的信息量最大。这里，p=q=0.5p=q=0.5

E =系统事件的熵

p =人头作为结果的概率

q =作为结果的尾部概率

在决策树的情况下，重要的是节点被排列成使得熵随着向下分裂而减少。这基本上意味着，越是恰当地分割，做出明确的决定就越容易。

因此，我们针对每种分裂可能性检查每个节点。信息增益比是观测值与观测值总数的比值(m/N = p)和(n/N = q)其中 m+n=Nm+n=N，p+q=1p+q=1。在分裂之后，如果下一个节点的熵小于分裂之前的熵，并且如果该值与所有可能的分裂测试用例相比是最小的，则该节点被分裂成其最纯的成分。

在我们的例子中，我们发现父母访问与其他选项相比，在更大程度上降低了熵。因此，我们选择了这一方案。

修剪

我们最初例子中的决策树非常简单，但是当数据集很大并且需要考虑更多的变量时，情况就不一样了。这就是需要修剪的地方。修剪指的是在我们的决策树中删除那些我们认为对我们的决策过程没有显著贡献的分支。

让我们假设我们的示例数据有一个名为 Vehicle 的变量，当它的值为 Rich 时，它与条件 Money 相关或者是条件Money的衍生物。现在，如果车辆可用，我们就开车去购物，但是如果没有，我们就通过任何其他交通工具去购物。但最终我们还是去了 T21 购物。

这意味着车辆变量意义不大，可以在构建决策树时排除。

修剪的概念使我们能够避免回归或分类模型的过度拟合，以便对于小样本数据，在生成模型时不包括测量中的误差。

伪代码

检查为以上底座情况。
对于每个属性 a，从 a 上的分裂中找到标准化的信息增益比。****
设 a_best 是具有最高归一化信息增益的属性。****
创建一个在 a_best 上拆分的决策节点。
在通过对 a_best 进行拆分而获得的子列表上重现，和将这些节点添加为节点的子节点。****

c 4.5 相对于其他决策树系统的优势:

该算法固有地采用单遍修剪过程来减轻过拟合。
它可以处理离散和连续数据
C4.5 可以很好地处理数据不完整的问题

我们还应该记住，C4.5 并不是最好的算法，但它在某些情况下确实证明是有用的。

最优秀的数据科学家拥有的关键技能是什么？

原文：https://towardsdatascience.com/what-is-the-key-skill-that-the-best-data-scientists-have-655edea228ac?source=collection_archive---------4-----------------------

有一项技能可以让你脱颖而出。找出是哪一个，并查看在构建行为评分模型时如何应用它的示例。

了解如何应用不同的 Python 或 R 算法非常简单:我们都知道，只要修改一两行代码，就有可能从线性回归变成神经网络。或者 SVM，或者任何你喜欢的模特。

定义超参数也没有那么困难:只需创建一个交叉验证和网格搜索来查找将提升您的模型度量的值。部署一个模型可能更棘手，但是，通过一点坚持、大量的教程和无限的试错，你将能够上传一个每分钟可以处理数百万个请求的体面模型(或者你可以使用诸如马文之类的工具，它将为你做大量的工作)。但是，到底是什么让你与众不同呢？最优秀的数据科学家拥有的关键技能是什么？

简单明了:知道如何从数据中创建分析视图。

交易数据库——那些存储交易数据的数据库，如订单、支付、访问日志等——是为存储应用程序交易数据而定制的，对数据科学没有直接用处。构建这些数据库的开发人员没有考虑过，也不应该考虑如何使用它们进行分析。他们只是创建了数据模型，可以提高他们当时正在编写的任何应用程序的性能。

试图用交易基础创建机器学*模型根本行不通，除非你想要的是预测交易。数据科学家通常需要分析基础来工作。好吧，但是到底什么是分析基础呢？它与交易基础有何不同？

到底什么是分析数据库？

为特定的研究建立和组织分析数据库。为预测客户流失而创建的基础将不同于购物车产品推荐的基础。然而，两者的来源可能是相同的:事务数据库。客户流失预测必须对每个客户的行为数据进行分组，这样才有可能观察到一段时间内的客户行为。至于产品推荐，必须按会话对数据进行分组，以预测购物车上的相关商品。

Being able to create analytical databases is more important than being versed in multiple algorithms.

知道如何创建分析基础是数据科学家可以培养的最重要的技能之一。同时也是课程、MOOCs、教程里教的比较少的一种。为了将事务数据库转换为分析数据库，有必要真正了解您正在处理的业务。这一点，再加上批判性思维，是正确处理问题的基础。

创建目标和分析数据一致性并不那么明显:它需要一个漫长的调查过程，这往往会让你的经理失望。

数据科学家通常需要目标来训练他/她的模型。如果你看一下 Kaggle ，你会发现无数的比赛和数据集已经定义了目标，并且在训练和评估基地中可用。然而，事务数据库通常没有现成的目标可供使用。数据科学家必须定义客户何时放弃服务，这样他/她才能创建一个流失模型。将需要定义什么是不良付款行为，因此可以预测违约。创建目标和分析数据一致性并不那么明显:它需要一个漫长的调查过程，这往往会让你的经理们失望(直到现在，他们都相信他们拥有所有的数据，他们所需要的只是一个数据科学家)。

事实是，数据科学远不止是向模型提供数据和评估性能指标的即插即用过程。

数据勤奋

想象一下这样一种情况，您有一个数据库，其中几名销售分析师根据行为特征对销售线索进行分类。为了对客户进行分类，分析师必须判断谈判过程中领导的行为，然后为客户选择合适的资料并填写表格。这里我们有一些潜在的问题:

在同一个谈判中，一个分析师对一个线索的判断不一定与另一个分析师的判断相同。不同的分析师可以在不同的配置文件中对相同的销售线索进行分类。
分析师真的了解每个行为特征代表什么吗？是否有明确的标准将销售线索划分为“X 类”而不是“Y 类”？
在收集期间，流程是否有变化，比如插入新的行为类别/档案？如果是这样的话，你将不得不决定在定义你的目标时如何考虑它们。
数据是如何收集的？在每次与线索的新接触中，行为特征是否会被打乱，以便分析师真正选择最好的一个？
经理们要求准确地进行这种分类吗？如果这只是一个要求分析师回答的“无聊”的过程，那么很有可能一些分类只是“因为他们不得不”而被填充的。当行为特征总是以同样的顺序呈现给分析师时，这个问题变得更加明显:目标可能会偏向第一个选项。

在这个过程之后，你可能会得出结论，到目前为止收集的数据是完全无用的，因为没有标准和过程。而这肯定会让很多人失望(大概连你也会失望)。

创建用于信用违约预测(行为评分)的分析数据库

为了使创建分析数据库的过程更加清晰，让我们看一个正确定义问题和创建分析数据库以执行预测所需的一组过程的示例。

Creating a model to predict customer credit default involves a series of business and technical decisions that have to be made by the data scientist.

假设您从事金融服务，并且面临以下问题:

我们需要创建一个模型来识别哪些客户在不久的将来不会支付他们的发票。

为此，您需要创建描述客户付款的变量。然后，有必要创建一个回归模型，能够挑选出好的和坏的付款人。最后，你需要计算客户好坏的概率。

1。定义目标是什么

你在你的数据库中找不到一个分类变量来表明某个客户是好的还是坏的付款人。首先有必要定义什么是好客户，什么是坏客户。对此，我们可以研究逾期付款。例如，您可能会发现，平均延迟时间为 20 天，但 75%的发票在到期日后 17 天内支付。

然后，您可以设计一个按逾期天数进行付款的累积分布。因此，您将能够验证 30 天后，87%的发票已经支付。但是，6 个月后，这个百分比将增加到只有 90%。然后，我们可以使用贝叶斯推断来预测客户在过期 30 天后支付发票的概率。

*# h1 = paid
# h0 = didn't pay
# e = observed event - reach 30 days past due
# With 30 days past due, 87% of invoices were already paid.**P(h1) = 90% # probability of paying, regardless the delay
P(h0) = 10% # probability of not paying, regardless the delay* P(e|h1) = 3 / 90 = 3,3% # *probability of reaching 30 days past due given that will pay* P(e|h0) = 10 / 10 = 100% # *probability of reaching 30 days past due given that will not pay*P(e) = P(e|h1) * P(h1) + P(e|h0) * P(h0)P(h1|e) = P(e|h1) * P(h1) / P(e)
P(h1|e) = 23,07% # *probability of paying the invoice given that is already 30 days past due*

我们可以得出的结论是，如果客户的付款已经晚了 30 天，他/她在未来结清债务的概率非常低(只有 23%)。要决定什么是好的或坏的付款行为，对业务的深入了解是必要的，因为你需要了解这种概率是否足够低，以将逾期不到 30 天的客户归类为好的付款人，而将逾期超过 30 天的客户归类为坏的付款人。

2。创建观察和绩效框架

我们感兴趣的是，利用客户在过去一段时间内的行为数据，预测客户在未来一段时间内的违约概率。选择这些框架的大小更多的是商业/谈判决策，而不是统计决策，记住它们必须足够大，以包含几个客户的行为观察。太短的窗口会增加观测值的方差，从而使模型失去精度。

定义:

根据客户在过去 12 个月的行为，我想预测他/她在未来 6 个月成为优秀付款人的可能性。

为了满足这一定义，您需要:

定义当前日期至少 6 个月之前的观察点。
定义一个观察框架，从观察点前 12 个月开始，到观察点结束。
定义一个在观察点之后 6 个月的绩效框架。
定义什么是好的付款人。我们之前做的事情！

Time framing the problem is a very important step in the process of creating an analytical database.

请注意，这个定义带来了一些影响:

你需要至少 18 个月的数据
你的预测是有时间限制的。每次你运行你的模型，它会计算未来 6 个月内的违约概率。
在分析数据库中创建要素时，观察点和时间范围的大小将始终作为您的参考

3。创建目标特征

既然我们已经定义了什么是我们的目标，什么是观察和性能框架，我们最终可以在数据库上创建目标。为此，您将计算每个客户在绩效时间范围内的最大逾期天数，并根据以下规则创建 GOOD_PAYER 变量:

*if max(delay) >= 30 days then is bad = 0
If max(delay) < 30 days then is good = 1*

因此，如果在绩效时间框架内，客户的付款延迟超过 30 天，他/她将被归类为不良，即使发票是后来支付的。

我们输入 0 代表坏，1 代表好，因为我们想定义得分越高，违约的概率越低。

4。排除事项

现在，我们需要广泛的业务结构知识，所以我们可以从我们的基础上执行一些排除。示例:

排除在观察点没有信用限额的每个客户
排除所有在观察点发票过期超过 30 天的客户，因为我们已经知道他们是不良付款人
排除所有从未进行交易的客户

5。特征构造

对于这项研究，基础必须按客户分组。每个变量必须描述客户在观察时间段内的特定行为。以下是一些可以设计的变量示例:

Example of an analytical database created to feed a behaviour score model that predicts customer default.

州 : 个人信息特征— 表示客户居住的省/州

年龄 : 个人信息特征 —表示客户的年龄，在观察点计算

性别 : 个人信息特征 —表示客户的性别

MOB: 账面月数 —自客户签到至观察点的月数

AVG _ 限额:12 个月观察期内限额使用的平均百分比

MAX _ LIMIT:12 个月观察期内限额使用的最大百分比

购买 _ 合计:12 个月观察期内的总购买金额

DPD_OP: 观察点逾期天数

MAX _ DPD:12 个月观察期内的最大逾期天数。如果所有发票都是预付的，则可能为负。

DPD AVG:12 个月观察期内的平均逾期天数。如果所有发票都是预付的，则可能为负。

BEFORE _ DUE _ QTY:12 个月观察期内到期前支付的发票数量。

GOOD _ PAYER:Target—表示在 6 个月的业绩窗口内，客户没有超过 30 天未提交发票。

6。表演时间到了！

现在终于说到建模型了！您现在可以应用您在数据科学课程中学到的一切。您的分析基础已经设计好并准备好行动——在这种情况下，数据处理和应用模型。

最简单的解决方案是使用上面创建的变量应用逻辑回归，以便预测 GOOD_PAYER 目标。该模型将为每个客户返回一个介于 0 和 1 之间的值，表明他/她成为优秀付款人的可能性。

记住始终正确解读结果:

该分数将显示某个客户在未来 6 个月内不会延迟付款超过 30 天的概率。

你喜欢吗？

这篇文章对你有用吗？分享！我说了什么蠢话吗？纠正我！想补充点什么？留言评论！

组建数据科学团队的最有效方式是什么？

原文：https://towardsdatascience.com/what-is-the-most-effective-way-to-structure-a-data-science-team-498041b88dae?source=collection_archive---------0-----------------------

从 2012 年到 2017 年，我有幸在 Coursera 从零开始建立数据和分析组织。在那段时间里，随着公司规模的扩大和业务的发展，我们尝试了各种不同的团队结构(参见这篇博文或这篇 Quora 回答)。根据我的经验，组建数据科学团队没有一种“正确的方式”——最有效的方式在很大程度上取决于公司的环境和发展阶段。

虽然没有任何硬性规定，但要记住的核心问题通常是:

应该如何定义数据科学家的角色？
数据科学家应该向哪里汇报？
数据科学功能应该放在哪里？
组织应该做些什么来建立成功的数据科学？

让我们一个一个地检查一下。

应该如何定义数据科学家的角色？

借用 Michael Hochster 的分类法，通常有两种主要类型的数据科学家:

A 型(“分析”)数据科学家专注于通过统计分析来理解数据。
B 类(“构建”)数据科学家开发预测模型和算法，为数据产品提供动力。

一些公司在这两种不同风格的数据科学家之间建立了头衔区别(例如，决策科学家/统计学家/定量分析师与数据科学家/数据产品科学家/ML 工程师)。其他公司试图将 A 型数据科学家与产品/业务分析师的角色区分开来，后者通常被认为技术性较低。虽然专业头衔可以帮助设定期望值，但就我个人而言，我并不清楚阐明这些区别的努力是否值得。特别是，对于需要多面手的早期创业公司来说，在高度重叠的角色之间建立人为的界限往往会导致围绕领域和范围的模糊讨论，这往往是徒劳的。

建议:对于一家初创公司来说，不要把时间浪费在区分头衔上，而是要认识到，你雇佣的个体数据科学家可能有各种形状和大小(有些可能更擅长分析，有些可能更擅长构建)。最终，可能会有合理的理由来澄清角色和职责，但这通常可以等到公司更大的时候。

数据科学家应该向哪里汇报？

一般来说，数据科学团队倾向于采用分散或集中的报告结构。

分散式(或“集成式”)数据科学组织让数据科学家向整个公司的不同职能部门或业务部门汇报。这种组织通常出现在较大的组织中，在这些组织中，数据科学计划在业务的多个部分中有机地出现。从责任的角度来看，分散的组织通常是有吸引力的，因为它们为业务单位提供了更大的灵活性来控制他们自己的资源需求。由于数据科学家是产品或业务团队的一流成员，因此分散化促进了强大的组织一致性。这确保了数据科学家将拥有与其业务合作伙伴有效合作所需的环境，并有机会发展有意义的个人关系，以获得对想法和计划的认可。然而，权力下放也带来了一些挑战。为了让一个分散的结构很好地工作，拥有数据科学家的团队需要有能力管理工程师和数据科学家的领导者。在分散的组织中，数据科学家的流动性受到更多限制，这通常会导致知识孤岛、同行指导机会减少或职业发展机会受限。权力下放还会加大实施统一质量招聘标准、投资共享分析基础设施或推动采用标准化分析实践的难度。
集中化数据科学组织让数据科学家向公司内的单一数据科学主管汇报。对于创业公司来说，由于资源分配的灵活性，集中化的团队在人员数量上更有效率。在这些团队中，数据科学家有更多的机会参与广泛的项目并与其同行合作，因此提供了更好的职业发展和技术指导机会。从结构上来说，集中化还简化了雇佣和招聘，创建了机构来推动公司范围的分析计划，并减少了知识孤岛。另一方面，在远离业务合作伙伴优先事项的集中团队中工作的数据科学家可能缺乏有效工作所需的背景或支持。在某些情况下，这可能会导致一种不健康的动态，即数据科学被视为一种支持功能，回答产品经理的问题，而不是作为真正的思想伙伴运营，并从数据知情的角度积极推动对话。

大多数较小的公司倾向于依赖一种混合的集中/分散策略，这种策略结合了上述两种策略的元素。通常，数据科学家集中汇报，因为招募和留住人才通常是在早期阶段建立数据科学团队的主要瓶颈。然而，为了确保数据科学家获得成功，初创公司通常会安排数据科学家与业务部门密切合作，这种做法被称为嵌入。

在小型数据科学团队中，嵌入可能会产生让数据科学家过度孤立的副作用。在 Coursera，我们通过组建由 2-4 名数据科学家组成的小型协作子团队(或“集群”)来解决这个问题，这些数据科学家将与不同的职能部门/业务部门合作，如这篇博文中所述。在 Airbnb，一个类似的方法被用于扩展数据科学。

建议:对于试图建立强大数据文化的初创公司来说，集中报告可能是最简单的开始方式。使用嵌入来确保数据科学家在对业务有价值的项目上工作，但要小心制造知识孤岛。

数据科学职能应该放在哪里？

在一些组织中，数据科学职能是工程组织的一部分(例如，LinkedIn)。在其他组织中，数据科学可能是产品组织的一部分(例如 Coursera)，或者可能作为直接向首席执行官报告的独立职能部门存在(例如 StitchFix )。有时，A 型和 B 型数据科学家可能向不同的小组报告(例如在 Instacart )。

没有一个放置数据科学的最佳位置，即使在同一家公司内，数据科学报告结构也经常随着时间的推移而演变。最佳位置取决于以下因素:

数据科学家有哪些沟通渠道来影响产品决策？
开发机器学*系统需要多少参与生产工程的数据科学家？
公司中的哪位高管能够最有效地倡导数据科学？
数据科学在多大程度上是整个组织的核心竞争力？

建议:无论数据科学在哪里，都要优先培养强大的跨职能协作，因为数据科学家几乎总是需要与产品经理、设计师、营销人员、工程师以及整个公司的其他产品和业务领导密切合作。

数据科学家需要公司其他人做什么？

数据科学团队的成功很大程度上与团队本身的结构和运行方式有关。但这在很大程度上也与公司其他团队如何与数据科学家互动有关。总的来说，我发现三件事很重要:

数据基础设施工程支持。为了让数据科学家高效工作，关键工具(如数据管道、仪器和跟踪、A/B 测试框架和分析环境)至关重要。因此，公司在雇佣第一个数据科学家之前优先雇佣数据基础设施工程师通常是有意义的，并且数据基础设施工程和数据科学团队密切合作是至关重要的。
了解构建数据产品复杂性的产品和工程经理。构建数据产品所涉及的考虑因素与常规产品非常不同——工作代码不足以确保数据产品为客户提供正确的体验。数据质量问题是潜在的，调试复杂的预测模型可能是一个真正的挑战。截止日期也不会以同样的方式工作；与大多数软件产品不同，对于按时交付项目来说，缩小范围是一种可以接受的策略，但对于数据产品来说，走捷径通常是行不通的。在对功能进行优先排序时，对机器学*的能力和局限性有良好的直觉是至关重要的。因此，拥有具备相关技术知识的产品和工程经理可以帮助事情进展得更加顺利。在许多情况下，数据科学家本身通常是最有资格承担这些类型角色的人。
强烈的高管认同。数据科学团队的影响力在很大程度上取决于高管团队(尤其是首席执行官)是否愿意让人们对培养强大的数据文化负责。对于 A 型数据科学家来说尤其如此，他们的工作通常强烈依赖于产品经理和业务领导是否愿意通过河马(薪酬最高的人的意见)倾听数据。此外，构建和维护释放数据作为竞争优势所需的基础设施需要大量的时间和资源，因此希望拥有强大数据文化的高管应该准备好进行适当的投资。

建议:当建立一个数据科学团队时，通过考虑团队运作的环境，确保团队的建立是为了成功。

最后，我要说的是，上述建议远非绝对，而主要只是反映了我自己在 Coursera 的经历，这是我在过去五年里反复试验的结果。一些对我的想法有帮助的在线资源是:

建立一个分析驱动的组织:埃森哲的白皮书，对不同类型的分析组织进行了细致入微的描述。
建立数据科学团队:DJ Patil(他创造了“数据科学家”一词)的电子书，概述了建立能够交付伟大数据产品的团队的关键要素。
分析分析器:一本由 Harlan Harris、Sean Murphy 和 Mark Vaisman 编写的电子书，采用数据驱动的方法来理解数据科学家在野外发现的各种原型。

在这段时间里，我还有幸从其他公司的数据科学领导者那里获得了非常有益的慷慨建议，所以如果我能有所帮助，请不要犹豫。

注:这篇博文最初以 Quora 答案 的身份出现。

你真正出类拔萃的概率有多大？

原文：https://towardsdatascience.com/what-is-the-probability-that-you-are-truly-exceptional-1ec7d4bcdb1d?source=collection_archive---------8-----------------------

贝叶斯定理——熟能生巧

杰出的数据科学家比大海捞针还少:不到千分之一的这门学科的学生被证明是真正杰出的。也就是说，让我们假设你刚刚“通过”了一个新的技能测试，该测试承诺在 99%的情况下正确识别这样的顶尖人才……【I】

你真正出类拔萃的概率有多大？为什么贝叶斯定理在这里有用，它是如何应用于机器学*的，它的假设是什么，当依赖这种方法时我们应该采取什么预防措施？

贝叶斯定理归功于 19 世纪英国数学家托马斯·贝叶斯牧师的工作，他研究了如何从一个事件的结果中推断出其原因。他的工作，后来被皮埃尔·西蒙·拉普拉斯证实，是由一个简单的想法驱动的，即我们的预测的相关性可以通过更好地利用可观察的数据来提高。这里的关键要点是，预测建模应该基于经验，我们的初始信念必须不断更新，因为我们获得了手头问题的额外信息。数据科学的主要含义是，机器学*算法天生受理论和经验的约束。

贝叶斯定理是基于联合概率和条件概率之间的密切关系。在 netshell 中，贝叶斯规则假定后验概率等于似然性乘以先验除以归一化常数。

后验变量或响应变量是我们试图预测的因变量。可能性，或条件概率，是在给定初始假设的情况下观察到新证据的机会。先验知识或现有知识是在没有任何额外信息的情况下我们的假设正确的概率。最后，边际可能性，或标准化常数，是观察证据的绝对概率。【ii】当我们使用朴素贝叶斯时，我们假设我们正在研究的数据符合正态分布，即每个变量都是条件独立的。

贝叶斯网络在数据科学中是如何使用的？每当要建模的数据量适中、不完整和/或不确定时，Bayes 推理在二进制或多类分类问题中都能得到很好的应用。贝叶斯分类器需要相对较少的计算资源，并且对于大数据集或高维数据点表现良好。在一个层面上，这些分类器在文本分析中特别受欢迎，它们经常用于解决自然语言处理、文本分类和垃圾邮件检测的挑战。更一般地，在给定一组新属性的情况下，可以部署贝叶斯算法来预测响应变量的概率。最后，贝叶斯定理可以用于校准专家意见和/或建议，因为它们结合了人类和机器学*。

使用贝叶斯定理时需要注意哪些事项？因为朴素贝叶斯假设因变量的条件独立性，所以它不能用于检测特征之间的交互。贝叶斯规则还假设响应变量反映了模型参数的可识别分布——连续变量为高斯分布，离散变量为伯努利分布或多项式分布。最后，贝叶斯逻辑只有在与先验知识相关联时才有意义——目标是解决特定的“学*问题”，而不是探索更高层次的“学*问题”。

“让你陷入麻烦的不是你所知道的，而是你所确定的事情并不是这样的”——乔希·比林斯

贝叶斯逻辑为数据科学家提供的不仅仅是一种算法，它还提供了一种思考数据科学问题的思维方式。在处理数字之前，我们应该明智地检查所有相关的证据(先验概率)，用竞争的观点来测试我们对问题的观点(条件概率)，并根据新的证据(加权概率)不断更新我们的预测。【iii】在介绍这篇预测杰出人才的帖子的案例中，我们需要仔细考虑杰出的数据科学家到底有多少(千分之一)。即使测试正确地识别了 99 %的顶尖人才，它也错误地证明了每个正确预测有 10 个案例。在这种情况下，即使你已经通过了这个假想的测试，今天你真正出类拔萃的机会也只有 9%。继续工作——熟能生巧！

商业分析实践是商业分析研究所的核心和灵魂。在我们位于巴约纳的暑期学校，以及我们在欧洲的大师班，商业分析研究所专注于数字经济、数据驱动的决策、机器学*和视觉通信，将让分析为您和您的组织服务。

Lee Schlenker 是 http://baieurope.com 商业分析研究所的教授和负责人。他的 LinkedIn 资料可以在www.linkedin.com/in/leeschlenker.查看，你可以在https://twitter.com/DSign4Analytics的 Twitter 上关注我们

【我】百分之一的假阴性

【ii】Soni，d .(2018)，什么是贝叶斯法则？，走向数据科学

【iii】加莱夫，j .(2015)。贝叶斯思维的视觉指南

AI 软件工程师在数据科学团队中的角色是什么？

原文：https://towardsdatascience.com/what-is-the-role-of-an-ai-software-engineer-in-a-data-science-team-eec987203ceb?source=collection_archive---------4-----------------------

Photo by Marvin Meyer on Unsplash

我最*加入了埃森哲都柏林全球创新中心的 Enterprise Insight Studio 团队，担任人工智能(AI)软件工程师。鉴于这是团队中的一个新角色，以及在整个领域中，围绕人工智能软件工程做什么以及该角色如何适应数据科学团队，仍有许多问题。为了帮助回答其中的一些问题，我在这篇文章中强调了人工智能软件工程师带来的一些关键技能，以及他们如何融入数据科学团队。实际上，数据科学团队中有几个人在构建分析和数据产品。最终产品的好坏取决于负责收集、构建和分析底层数据的团队。不久前，数据科学团队主要由数据科学家、数据架构师和业务分析师组成。然而，要将数据科学工作转化为可扩展和稳定的产品，仍然有很大的差距需要填补，人工智能软件工程师也有确切的发挥作用的地方。

人工智能软件工程师在数据科学团队中的主要角色是将数据科学工作产品化，以便为内部利益相关者或外部客户服务。人工智能工程师必须与数据科学家、数据架构师和业务分析师合作，以确保业务目标和分析后端之间的一致性。此外，为了证明职位名称中的人工智能部分是正确的，人工智能软件工程师负责保持最新并了解具有转变业务、劳动力或消费者体验潜力的突破性人工智能技术，以及数据科学团队如何利用这些技术。这听起来很好，但实际上，它到底意味着什么呢？简单地说，这意味着人工智能工程师负责将软件工程文化引入数据科学过程。这是一项艰巨的任务，包括以下内容:

按照代码构建基础设施

数据科学团队基础设施的自动化。这一重要的软件工程概念是成功的数据科学项目的关键部分。人工智能软件工程师负责确保在模型开发和培训过程中创建的环境可以很容易地管理和复制到最终产品中。用于 Python 包管理的 Anaconda 和用于创建可轻松传输的自包含环境的 Docker 或 vagger 等工具应该成为数据科学团队流程的一部分，以帮助团队成员之间的协作和轻松部署的模型。人工智能软件工程师的责任是建立和管理管道，让数据科学家专注于模型开发。

持续集成和版本控制

这是软件工程师在数据科学团队中容易忽略的另一个重要事实。像 TFS 或 GIT 这样的工具应该成为数据科学项目日常流程的一部分。在模型开发期间，有如此多的迭代和不同的更新，如果没有适当的版本控制系统，就不可能跟踪所有已经完成的工作。候选版本、不同类型问题/用户故事的不同分支、团队中每个人都可以访问的同一位置等概念对于将数据科学工作转化为实际产品极其重要。这也允许引入代码审查等概念，这保证了更多的数据科学家将了解代码/模型是如何工作的，这将有助于提高所创建工作的质量。

测试

任何产品，无论是具有简单用户界面的模型还是完全集成的应用程序，都应该经过彻底的测试。显然，从软件工程师的角度来看，那些测试应该完全自动化。这意味着单元测试、分支测试、集成测试和安全测试应该嵌入到数据科学的核心流程中。当然，这不包括 A/B 测试，它们是不同的情况，在开发的不同阶段完成，但是它们同样重要，不应该被丢弃。

API 开发

开发 API 以帮助将数据产品和源集成到应用程序中。人工智能软件工程师负责构建和维护一个平台，以便轻松地将模型“转换”成可供其他应用程序使用的 API。这意味着遵循标准方法和公共语言的工具或定制 API 的开发。这也意味着数据科学团队可以快速地将模型转化为 API，供“外部世界”使用。这是将科学模型转化为产品的关键步骤，人工智能软件工程师应该发挥他/她的所有专业知识，以保证从模型中创建的 API 是可扩展的、灵活的和可靠的。

试点和 MVP 应用的开发

虽然并不总是需要，因为一些数据科学工作可以通过 Jupyter 或其他数据可视化工具简单地呈现，但在数据科学过程中，飞行员和 MVP 的开发仍然非常重要。MVP 是最终产品，它包含了我到目前为止提到的所有其他方面，从模型的创建和测试，通过 API 开发，一直到最终产品可以被最终用户演示和消费。这里的要点是应用程序——无论是 MVP 还是最终版本——是如此的坚实，以至于最终用户甚至不会意识到它下面有一个数据产品。

AI 软件工程师还应该考虑在数据科学团队中实施其他软件工程师概念，例如连续交付、应用程序监控和自动扩展，这些也应该是核心流程的一部分。然而，在深入到它的工程方面之前，上面提到的几点，我认为是整个过程中最重要的，应该已经被实现并完全融入到团队的文化中。只有这样，更先进的工程概念才会被提出来。

总之，我们可以认为人工智能软件工程师是负责让数据科学家和数据架构师的生活变得更容易的人。他们应该专注于他们工作的重要方面:分析数据和创建高精度的模型，或者致力于项目的整体架构。人工智能软件工程师将负责创建 API，测试和部署模型，创建任何可能需要的用户界面来显示更相关的模型视图-模型可视化，自动化我们的基础设施等-并弥合数据科学家和数据架构师之间的差距。简而言之，人工智能软件工程师负责将数据科学工作包装成最终产品。

Overview of a Data Science Team

这只是对人工智能软件工程师在数据科学团队中的角色以及此人带来的贡献的基本概述。希望这将帮助你理解这个角色需要什么，以及为什么在数据科学工作背后有软件工程概念是重要的。鉴于这是数据科学范围内的一个新角色，仍然有许多问题需要回答，人工智能软件工程师必须足够灵活，以便在团队中实施他/她的想法，并在不一定与软件工程相关的领域采取行动。尽管如此，这是一个非常令人兴奋的职位，有很多学*和成长的机会。对于软件工程来说，这也是一个进入激动人心且不断发展的数据科学领域的绝佳机会。如果你有兴趣谈论更多关于人工智能软件工程师的事情，或者如果你有任何问题或建议，请随时联系我，我很乐意听到你的意见。与此同时，保持好奇，继续编码。

数据科学教育的对象、地点和时间是什么？

原文：https://towardsdatascience.com/what-is-the-who-where-and-when-of-an-education-in-data-science-1bb25049fe62?source=collection_archive---------5-----------------------

自从五年前《哈佛商业评论》宣称数据科学是“地球上最性感的工作”以来，成千上万的学生蜂拥而至，追求该领域的学位。今年早些时候，Alphabet 的埃里克·施密特(Eric Schmidt)更是火上浇油，他宣称:“对数据分析的基本理解对于下一代年轻人来说非常重要。这就是你要进入的世界。”【ii】埃隆·马斯克(Elon Musk)对缺乏数据专家的担忧促使他向 Neuralink 提供资金，这家公司的使命是将计算机与人脑进行物理连接，以提高数据处理速度。LinkedIn 本周报告了不少于 14 300 个数据科学家的空缺，仅在法国就有超过 774 个机会。在如此狂热的情况下，数据科学教育的对象、地点和时间是什么？

什么是数据科学？

什么是数据科学的基本问题在今天与本世纪初一样相关，当时威廉·s·克利夫兰(William S. Cleveland)建议这一新的学术学科扩展统计学领域，以纳入“数据计算的进展”。【iii】如今，组织正在从生物技术到金融等行业寻找数据科学家；信息技术和服务，以及公共服务营销。填补这些空缺的专家的稀缺很大程度上是因为数据科学被营销为分析、业务和技术技能的混搭，这些技能很少在任何一个档案中找到。在审查当前的职位空缺时，数据科学似乎是管理咨询、计算机系统分析、信息安全、运筹学和统计学的混乱组合。唯一的共同点是使用数据来了解现实生活中的业务挑战的普遍使命。

那么，数据科学教育的本质是什么？这种对商业问题解决的关注将数据科学从计算机科学和统计学中分离出来。消费者、管理者和利益相关者不仅做出决策，而且以不同的方式解释数据，这一事实强烈表明，数据科学不能简化为算法和机器学*。Ed Chen 指出了提供“数据科学”课程的学校数量与他个人的信念之间的矛盾，即数据科学的课程不能在学校里学到。【iv】数据科学教育需要理论和实践，理论是理解当今企业面临的问题的本质，实践是理解如何将数据转化为决定性的行动。

谁应该投资数据科学？

在一个日益受到虚假事实和假新闻考验的世界，我坚信每个学生都将从数据科学基础中受益。如果分析方面的普通教育应该成为任何高等教育学位的一部分，那么数据科学学位的价值就是另一个问题了。如果今天 88%的大数据专业人士拥有高级学位【v】，那么这些学位中很少是数据科学的。同样，如果薪资调查强调数据科学家的高薪级别，拥有该领域的学位不会成就或毁掉你的职业生涯。一旦炒作平息下来，雇主们寻找的是能帮助他们解决业务问题的技能组合。

那么谁应该申请专业学位呢？即使总会有无数的程序准备好并愿意接受你的钱，专攻分析也是有先决条件的。如果你不喜欢解决问题，不喜欢处理数据，不喜欢处理复杂性和模糊性，你永远不会成为一名数据科学家。如果你在以前的学*中没有花时间探索编程、统计和决策科学，不要欺骗自己认为你现在可以一次学会所有的东西。你不会因为一个正式的学位而成为一名数据科学家，而是在一年中的每一天养成一种心态。

你应该何时何地去上学？

如今，几乎有数千个高等教育项目承诺授予数据科学学位，其中包括 74 个英国项目和 24 个法国项目。不幸的是，其中许多只是计算机科学和统计学院现有课程的重新包装和营销。许多人吹捧“R”、机器学*和数据可视化方面的实践——这就像是在蛋糕上浇糖霜，而没有提供制作蛋糕本身的配料。寻找学位课程的学生应该像数据科学家一样考虑挑战:学校提供关于学生过去位置的什么数据，他们提供课程的什么细节，他们如何鉴定他们的教师，要求的工作和实践项目的性质是什么，以及他们如何证明你的投资回报？-

应该从什么时候开始学*数据科学？作为一种心态而不是文凭，分析是一步一步发展起来的。在学校打好基础，参加商业、数学、决策和计算机科学的相关本科和研究生课程。你不需要注册一个正式的学位项目来开始，互联网提供了大量的免费在线课程。博客帖子和专门的网站提供了探索数据科学基础的洞察力和机会。公共领域数据集和应用程序可以帮助您练*检测、探索和解决各种类型的业务问题。国家和国际数据科学竞赛，如即将举行的皇后大学创新挑战赛【VI】，提供了充分的机会来建立关系网并发展您的技能和声誉。在这个数字无处不在的时代，什么时候是现在！

希望提高您的数据科学技能？在巴约纳的暑期学校以及欧洲的大师班，我们让分析为您和您的组织服务。该研究所专注于管理者数据科学的五个应用:数字经济学、数据驱动的决策、机器学*、社区管理和视觉通信。改善管理决策会对你未来的工作和职业生涯产生影响。

Lee Schlenker 是 Pau 商学院的教授，也是 http://baieurope.com 商业分析研究所的负责人。他的 LinkedIn 个人资料可以在 www.linkedin.com/in/leeschlenker.查看你可以在 https://twitter.com/DSign4Analytics的 Twitter 上关注我们

【我】达文波特，t .和帕蒂尔，D.J .，(2012)，数据科学家，21 世纪最性感的工作，HBR

谷歌亿万富翁 Eric Schmidt 说，这是雇主们在未来寻找的技能，美国消费者新闻与商业频道

【iii】出版社，G. (2012)，数据科学家:性感的定义，福布斯

【四】莱文，d .(2015)；获得数据科学学位前你应该知道的 5 件事

【v】Ahern，k .和 Keller，N. (2014)，你是大数据专业人士？，营销新闻

【VI】……(2017)，女王大学创新挑战赛

什么是迁移学*？

原文：https://towardsdatascience.com/what-is-transfer-learning-8b1a0fa42b4?source=collection_archive---------1-----------------------

迁移学*利用在解决一个问题时获得的知识，并将其应用于另一个不同但相关的问题。

例如，在学*识别汽车时获得的知识可以在一定程度上用于识别卡车。

预培训

当我们在大型数据集(例如:ImageNet) 上训练网络时，我们训练神经网络的所有参数，因此模型被学*。在你的 GPU 上可能要花几个小时。

微调

我们可以给出新的数据集来微调预训练的 CNN。考虑新数据集几乎类似于用于预训练的原始数据集。由于新数据集是相似的，因此可以使用相同的权重从新数据集提取要素。

如果新数据集非常小，最好只训练网络的最后几层，以避免过度拟合，同时保持所有其他层不变。所以去掉预训练网络的最后几层。添加新层。仅重新训练新层。
如果新数据集非常大，使用预训练模型的初始权重重新训练整个网络。

如果新数据集与原始数据集差别很大，如何进行微调？

ConvNet 的早期特征包含更多的通用特征(如边缘检测器或彩色斑点检测器)，但 ConvNet 的后期层逐渐变得更加具体到原始数据集中包含的类的细节。

较早的图层有助于提取新数据的特征。因此，如果你只得到少量的数据，修复早期的层并重新训练其余的层将会很好。

如果您有大量的数据，您可以使用从预训练网络初始化的权重来重新训练整个网络。

卷积神经网络有什么问题？

原文：https://towardsdatascience.com/what-is-wrong-with-convolutional-neural-networks-75c2ba8fbd6f?source=collection_archive---------4-----------------------

介绍

当然，卷积神经网络(CNN)是一种迷人而强大的工具，也许这是深度学*这些天如此受欢迎的原因之一，自从 Alex Krizhevsky，Ilya Sutskever 和 Geoffrey Hinton 在 2012 年发表了“用深度卷积网络进行图像网络分类”以来，CNN 一直是计算机视觉中在许多任务中实现超人性能的制胜法宝，但 CNN 是完美无瑕的吗？那是我们能做的最好的吗？我想从标题中你可以看出答案是否定的。

2014 年 12 月 4 日，Geoffrey Hinton 在麻省理工学院做了一个关于他的名为“胶囊网络”的项目的演讲，他讨论了 CNN 的问题，以及为什么合用是非常糟糕的，以及它工作得如此好的事实是一场灾难

如果你熟悉 CNN，你可以跳到怎么了？

卷积层

卷积层具有一组矩阵，这些矩阵在称为卷积的过程中与前一层输出相乘，以检测一些特征。这些特征可以是基本特征(例如边缘、颜色等级或图案)或复杂特征(例如形状、鼻子或嘴)。因此，这些矩阵称为过滤器或内核

(source)

池层

有多种类型的池层(最大池、平均池……)，目前最常见的是最大池，因为它给出了交易方差，虽然很差，但对某些任务来说已经足够好了，并且它降低了网络的维数，非常便宜(没有参数)
最大池层实际上非常简单，你预定义一个过滤器(一个窗口)并在输入中交换该窗口，取窗口中包含的最大值作为输出

max pooling with filter size 2*2 (source)

(source)

怎么了？

1- 反向传播

反向传播算法是一种在对一批数据进行预处理后，寻找每个权重在误差中的贡献的方法，大多数好的优化算法(SGD，ADAM …)都使用反向传播算法来寻找梯度

反向传播在过去几年做得很好，但不是一种有效的学*方式，因为它需要庞大的数据集
我相信我们可以做得更好

2-平移不变性

当我们说平移不变性时，我们的意思是，方向或位置稍有变化的同一物体可能不会激发本应识别该物体的神经元

(source)

如上图所示，如果我们假设有一个用来检测猫的神经元，它的值会随着猫的位置和旋转的变化而变化，数据增强部分解决了这个问题，但并没有完全解决它

3-池层

合并图层是一个很大的错误，因为它丢失了很多有价值的信息，而且它忽略了部分和整体之间的关系，如果我们谈论的是人脸检测器，那么我们必须结合一些特征(嘴、两只眼睛、椭圆形脸和鼻子)来说这是一张脸
CNN 会说如果这 5 个特征以很高的概率出现，这将是一张脸

(source)

所以两个图像的输出可能是相似的，这并不好

结论

CNN 很棒，但它有两个非常危险的缺陷:平移不变性和池层，幸运的是，我们可以通过数据增强来减少危险，但有些事情正在发生(胶囊网络),我们必须准备好迎接变化

来源

[## 用于视觉识别的 CS231n 卷积神经网络

斯坦福 CS231n 课程材料和笔记:视觉识别的卷积神经网络。

cs231n.github.io](http://cs231n.github.io/) [## 理解辛顿的胶囊网络。第一部分:直觉。

理解 Hinton 的胶囊网络系列的一部分:

medium.com](https://medium.com/ai³-theory-practice-business/understanding-hintons-capsule-networks-part-i-intuition-b4b559d1159b) [## 卷积神经网络

这是 CSE6250 大数据分析中医疗保健深度学*实验室系列的初步版本…

www.cc.gatech.edu](https://www.cc.gatech.edu/~san37/post/dlhc-cnn/)

在数据科学中“做”数学意味着什么

原文：https://towardsdatascience.com/what-it-means-to-do-math-in-data-science-843f454fddf6?source=collection_archive---------3-----------------------

当下一代热切的年轻人寻求做出他们的第一个主要职业选择时，许多人会认为数据科学是一个令人兴奋的可能性。随着软件正式蚕食世界，数据作为我们经济的新石油牢牢扎根，从事数据行业的机会从未像现在这样多。公司正准备在一个全新的范式下构建软件，在这个范式中，数据和分析驱动着他们最重要的产品功能。在寻求洞察力和预测的过程中，组织将目光瞄准了有希望的候选人，他们对一切数据的热情与对工作中预期的数字熟练程度的担忧相匹配。

如果你要一份成为成功的数据科学家所需的才能清单，你会看到通常的大多数与 STEM 相关的技能清单；不仅仅是数学和统计学。这应该不足为奇。历史上，所有类型的分析师都使用数学来帮助做出和确认他们的发现。假设良好的数字工作知识会给数据科学职位带来好处是很自然的。

但是，当我们说数学和统计学在数据科学中很重要时，这意味着什么呢？他们在大学里的样子重要吗？我们渴望的年轻人应该把时间花在微积分和概率的基础知识上，为数据驱动的职业生涯做准备吗？如果个人不是天生倾向于传统的数学思维，这是否会妨碍他们进入数据科学职业？用手做数学和训练依靠数学得出结果的机器有区别吗？

如果没有上下文，说我们在某个特定领域做某事没有多大意义。从核物理学家到会计师，每个人都做数学。在科学领域，数学让我们用具体的术语来表达思想，从而帮助我们模拟我们的世界。我们可以利用数学的机制带领我们走上新的道路，并保持我们的发现的一致性。数学可以帮助我们在巨大的复杂程度上争论，并帮助我们用数据讲述故事。与数据科学最相关的是将数学编码成机器的能力，这为解决其他棘手的问题打开了大门，并使我们的核心工具机器学*成为可能。

但是将事物的来源等同于它在现实世界中的应用是理解抽象的失败。那些实现学术发现的人不应该沉浸在他们工具的起源中。医疗从业者没有花时间去研究生物化学的细微差别或控制核磁共振成像机的物理原理。这并不是说良好的基本面工作知识不起作用。但是，如果他们主要关心的是他们的机器内部是如何工作的，医生们将会从使用工具解决病人问题这一更重要的任务中靠边站。

事实是，如果数据科学家把他们的时间花在解方程和讨论定理上，他们在软件世界里将一事无成。软件运行得很快，并从失败的尝试和迭代中获益；不仅仅是写在白板上的公式。重要的是要认识到，这不是为了把产品推出去而进行的廉价分析。快速开发和迭代是解决真正复杂问题的唯一途径。虽然数学有助于控制我们数据的高维度，但它只是原始信息和提供价值的产出之间更艰巨旅程的开始。

在白板上进行数学计算和理解如何实现数学机器是两码事。是的，统计学和数学在数据科学中很重要，但这仅仅是因为它们浮出水面的概念和它们使之成为可能的工具。成为一名伟大的数据科学家意味着知道机器的终点和人类的起点。在数据科学中，我们把数学的求解和执行留给了机器。人类有责任帮助引导我们的系统做出更好的预测，并实现其适应环境的目标。这不是解方程，而是让数学和机器产生人们觉得有用的东西；甚至可能是愉快的。

构建智能软件的学术化、简单化的方法是对复杂性的严重缺乏。在数学和传统软件中，使用简化的硬编码规则将输入转换为输出。但是，当我们寻求创建机器学*应用程序时，复杂程度远远超过简单的输入和输出。在数据科学中，唯一重要的产出(和结果)是那些从我们无法直接进入的数字游戏中产生的结果。任何能够接*“智能”行为的系统都有一层神秘的面纱，认为它可以用基本逻辑解码并拼凑起来是非常短视的。

在数据科学中，我们解释结果，并使用数学推理来考虑我们对模型所做的调整的有效性。这不同于在纸上操作方程和推导结果。在物理学中，求解薛定谔方程和理解为什么它适合于模拟物理系统中随时间的变化之间有很大的区别。你解方程的能力与你知道何时何地使用它的能力无关，而正是后者给数据科学专业带来了好处。

当机器在做数学运算时，我们追求的不是候选人的数学技巧，而是他们对概念的理解。重要的是掌握一种方法的适当性或不适当性；不是比机器能做的更慢更少的解方程的能力。抽象是学术发现的支柱，这也是数据科学家工作的地方。当我们在深层技术细节上运作时，我们能够使用数学驱动的工具来应对困难的挑战，并使用软件解决有趣的问题。如果我们在学术意义上使用数学，这些都是不可能的。

显而易见的反驳观点是，手动推导数学表达式有助于建立我们希望在对模型进行推理时使用的直觉。但这种听起来不错的叙述被赋予了过多的分量，而且只在远离现实的课堂上起作用。虽然人工推导公式确实有助于加深理解，但这种知识缺乏真实世界的背景。你最好构建一个你不理解的工具，而不是用教科书上的积木拼凑出一些在真空中也能玩得很好的东西。当这个世界像在软件开发中一样多次击败你时，你已经有了最伟大的老师。失败。

这并不是远离学*数学，这只是意味着数学需要被理解在那一刻。在失败之前用数学来解决问题，向我们展示了障碍的本质与现实世界中解决问题的方式是相反的。如果你要理解如何用数学给一台复杂的机器带来价值，你的产品必须产生错误的结果。我们的下一代数据科学家需要先学*如何构建，然后再解决。

这种关于擅长数学意味着什么的开明且更恰当的观点超越了职业准备。当我们将数据科学视为传统的 STEM 学科时，我们阻碍了大量原本可以为该领域带来好处的人才。我们寻求的是能够与机器一起工作的个人，利用对数学在适应性机器中所扮演角色的概念性理解，哄骗它们适应它们的环境。这些人来自各行各业，正是他们的多样性为我们带来了最强大的解决方案。

未来数据驱动型公司的主人是那些雇佣能够以更柔和的方式制造机器的人。重要的是，我们的下一代热切的候选人不能将数据科学视为数学上严格的领域，在这个领域中，解决问题的学术方法是驱动结果的因素。数学知识总是有用的，但只有当它被用于我们的机器已经能够做的事情时。这是未来对数学思维的定义，也是数据科学的定位。

我在日本学*机器人两周所学到的

原文：https://towardsdatascience.com/what-ive-learned-from-studying-robotics-in-japan-for-two-weeks-bd252961853f?source=collection_archive---------1-----------------------

或者，如何在一周内喝大量清酒并制作一个 AI 机器人。

我从小就一直渴望去日本。我一直很欣赏这种文化，从他们的传统到尖端科技。此外，现在我的主要兴趣之一是机器人技术。你可以想象当我被东北工程暑期项目录取去日本东北T4 仙台大学学*机器人技术时我的反应。

Sendai.

我和我的一些同事，以及来自世界各地的其他 50 名学生，有机会参加了来自许多不同机器人领域的各种教授的早课，从分子到空间机器人机器人。下午，我们做不同的项目。我与太空 机器人****实验室合作，我团队的任务是开发和制造一个移动机器人。

A picture of the campus.

东北大学的主工科校区真的很厉害。一个美丽的混合现代，精心设计和简约的建筑在一个绿色的环境中，充满了树木和植物。我真的很喜欢外部和内部建筑，这往往给人一种开放空间的感觉，玻璃墙和高天花板，大型公共空间，白色和闪亮的内部。前一段时间，我读了一些关于大学建筑和学生整体表现之间关系的研究，我不禁注意到这些领域中有多少给人一种和平和放松的自然感觉。

日本人非常好和有礼貌。他们的组织非常出色，我喜欢和他们一起生活。从自助餐厅到图书馆，整个校园都被精心管理。我们有机会以非常友好和非正式的方式与教授们聊天，这是我非常喜欢的事情。他们向我们解释了他们的系统如何更多地基于实践而不是纯理论。一位教授在我们吃午饭的时候告诉我们:“我们让学生尽快完成一个项目，并要求他们把它做好。”。这种方法可以产生非常好的结果，就像我们所经历的那样。面对一个现实世界的问题，并试图用实际的硬件和软件来解决它，会让你以许多不同的方式来思考它，突出问题，但会激励你找到有效的解决方案。引用费曼的话，“我不能创造的东西，我不理解”。

Detail of the Space Robotics Lab.

我最喜欢的课是吉田教授上的关于太空、T2 和机器人的课。机器人太空探索的想法在某种程度上对我来说是浪漫的，因为探索的欲望在人类灵魂中燃烧。我有机会与空间机器人实验室的 6 名学生(3 名像我一样来自罗马 Sapienza 大学，2 名来自香港大学，1 名来自佐治亚大学)一起工作，建造一个移动机器人，它可以通过机器人看到的视频流进行远程控制，还可以自主避障和导航，以及其他由我们决定的功能。我们只有不到一周的时间来研究它，整个下午都呆在实验室里，但我相信我们做得很好。

Our robot in all its beauty.

我们与乐高** Mindstorm 合作，这是乐高的一个套件，允许使用传感器、电机和微控制器来控制机器人。作为一台相机，我们使用了 Kinect ，并在一台树莓 Pi 3 和一台 MacBook 上进行处理。制造真正的机器人比我们想象的要困难。我们设计了一个简单的差动驱动机器人，但用乐高积木建造它，试图分配重量和平衡它，但也使它足够稳定，以承受 Kinect 摄像头、树莓 Pi 3 和一个电源库并不简单。**

Kinect 和 MacBook 之间的实际通信是使用处理、一种专门为交互式计算机图形设计的语言来完成的，从这种语言中我知道使用 Kinect 非常容易。有了 RGB 和深度流，实现远程控制就变得轻而易举了:操作员看到了机器人所看到的，并简单地命令它。我们进行了几次有障碍的演示，结果令人满意。

A demo of the robot in action. From left to right: prof. Kazuya Yoshida, Norman Di Palo (myself), Matteo Colajanni.

实现自主导航、避障和地标探测以及跟随要困难得多。我注意到 Kinect 深度相机(或者至少是我们的 Kinect)有一个很大的缺陷:它在一米的距离内完全失明(毕竟，它不是为这些应用设计的)。该范围内的所有障碍物都消失了，因此机器人认为该路径是自由的。为了解决这个问题，我们在机器人上增加了超声波传感器，可以在该范围内以较高的精度检测到障碍物的距离。基于这些传感器信息，我实现了一个避障算法，在有障碍物的情况下执行规避动作，但在此之前，机器人无论如何都会随机漫游。我添加了一个计算机** 视觉算法，该算法根据颜色识别并检测所需地标(红色圆锥体)的坐标(在图像中)。然后，机器人能够每走几步就转向地标，同时避开障碍物。**

这里有一个自主导航和地标跟随的短片。

然后，移动机器人行为的基本目标就实现了(并非没有麻烦)。但是，由于我的专业既专注于机器人技术，也专注于人工智能，我决定通过集成更先进的深度学*视觉模型和自然语言处理来扩展软件架构。

我使用了 Tensorflow 物体检测 模型，在著名的 COCO 数据集上进行训练。该模型为它能够识别的常见对象生成边界框。我将这一输出添加到之前的地标检测算法中，这样机器人就能够识别并跟随常见的物体，如笔记本电脑、椅子和人。

Example of object detection.

然后，通过简单地使用文本** 消息在电报一个著名的信息平台上发送，整体行为被控制。我开发了一个聊天机器人，它可以使用 Python 库 telepot 和 api 接收文本消息。 ai API 我增加了语言理解，所以用户可以简单地给机器人发短信请走向桌子，机器人就会理解请求，寻找桌子并走向它，同时避开路上的障碍。**

尽管组成整体架构的软件部分不同，但结果是一个易于使用的机器人，它以智能的方式响应简单的命令，结合了机器人技术和人工智能技术。

这里有一个关于物体识别和语言理解能力的短片。

我做了一个 GitHub 库与我的同事分享代码。你可以在这里查看，现在它仍在进行中，可能在不久的将来我会添加一些东西，特别是一个更详细的自述文件。

在 CycleBar 的两个月里我学到了什么

原文：https://towardsdatascience.com/what-ive-learned-from-two-months-at-cyclebar-54e9681e9bbd?source=collection_archive---------1-----------------------

The long road. Photography by Eugene Buchko.

2018 年 3 月初，我决定要混合一下我的锻炼日程。我收到了一份来自 CycleBar 的传单，广告上说他们的位置在我住的 Buckhead 附*，并介绍了他们为新骑手提供的一次免费训练。出于好奇，我登录了网站，看到他们提供了另一种选择:25 美元一周不限次数的乘坐。我最终选择了后者。在那一周内，我参加了十次 CycleBar 会议，然后我就上瘾了。在我的试用期结束后，我注册了每月无限套餐。

CycleBar 课程的吸引力很大一部分是精力充沛的讲师，他们在管理有趣的播放列表以适应某个主题方面做得很好。我去过一些健身班，那里的播放列表很少更新，这可能会很无聊。然而，对我来说更大的吸引力是能够在骑行过程中看到你的自行车状态，并在课程结束后立即通过电子邮件收到你的结果的漂亮总结。循环状态包括以下内容:

您的骑行持续时间(MM:SS 格式)
您在骑行期间的平均功率(瓦特)
您在骑行期间的最大功率(瓦特；瞬时度量)
您在骑行过程中的平均速度(英里/小时)
您在骑行期间的最高速度(以英里/小时为单位；瞬时度量)
您的平均每分钟转数(RPM)
您在骑行过程中的最高转速(另一个瞬时指标)
骑自行车行驶的距离(英里)
骑行过程中燃烧的卡路里
周期点**
你在班级中的排名，基于循环积分***

其中，CyclePoints 的广告会考虑您的年龄、性别、体重、身高以及您在骑行过程中输出的功率和转速，从而有效地将您与其他骑手进行排名。循环积分旨在使各种能力和个人特征标准化，以便循环积分可用于比较骑手之间的表现。例如，一名 25 岁的健康男性在骑行中平均推动 200 瓦，可能比一名 37 岁的三个孩子的母亲在骑行中平均推动 150 瓦得到的自行车积分少。

我试图获得更多关于周期点是如何数学计算的信息；然而，我没有从 CycleBar 那里得到足够的信息来进行正式的归纳。然而，要点是骑行过程中，周期积分取决于针对骑手体重、身高、性别和年龄标准化的平均指标(瓦特和 RPM)以及瞬时指标(瓦特和 RPM)。我不知道所有车友的归一化算法。然而，我跟踪了我所有骑行的循环积分和其他统计数据，并在下面列出。

在 Excel 中跟踪循环统计数据

如上所述，每次骑行后，您都会收到一封包含骑行积分的电子邮件。我把所有这些统计数据放在一个 Excel 电子表格中，如下所示。仅仅骑了几次之后，我意识到骑行的持续时间取决于播放列表的长度等等。因此，虽然一次骑行总共是 45 分钟(通常是 41 到 43 分钟的实际骑行时间，加上最后 2 到 4 分钟的拉伸时间)，但 30 秒或更少的差异会对你最终的总表现产生影响，包括消耗的总卡路里、消耗的瓦特数或行驶的距离。因此，我创建了额外的列来跟踪每分钟消耗的卡路里，每分钟消耗的英里数，以及每分钟的平均瓦特数和每分钟达到的循环点数。

在我参加 CycleBar 的两个月里，我参加了 72 个 CycleBar 课程。然而，为了下面的分析，我从数据集中删除了两个班级，因为有一些小故障(一次，发送给我的结果是空白的，另一次，教师忘记结束班级跟踪)。因此，我在下面的分析中使用了 70 个数据点。

A selection of CycleStats in Excel. The highlighted cell refers to an outlier in the system’s calculation of calories burned during the ride.

预测周期点

我很好奇，如果给定我锻炼的强度(平均消耗的总瓦特数、骑行的英里数、消耗的卡路里数等)，我是否可以很容易地预测我在一个给定的课程中能够达到的骑行积分数。)

首先，对我来说很清楚的是，平均消耗的瓦特数和骑行结束时获得的总循环点数之间存在直接的正相关关系。然而，正如我提到的，我想以每分钟为基础跟踪关系。我在 Excel 中创建了一个简单的图表，显示平均瓦特/分钟与平均周期点数/分钟(周期点数/分钟是因变量)，如下所示。红线是显示两个变量之间线性关系的最佳拟合回归线。66.39%的 r 平方表示相当合适。

为了得到在单个课程中达到的预测周期点，只需乘以该课程持续的时间:

CyclePoints =(课程持续时间，以分钟为单位)* [1.1492 *平均瓦特/分钟)+ 4.0116]

The relationship between average watts/minute and average CyclePoints/minute.

对于一个独立变量，预测周期点与实际周期点的转换如下所示。请注意，单个独立变量很大程度上显示了周期点的变化，但一些波峰和波谷没有在样品内拟合中捕捉到。

Linear regression with a single independent variable. Note: transformation from CyclePoints/minute to CyclePoints per ride is made here.

在 R 中构建简单的多元回归模型

我把 cycle stats 电子表格放入了 R 软件包中，并建立了一个非常简单的多元线性回归模型。我选择了三个独立变量:平均瓦特/分钟(如上)，骑行里程/分钟，消耗卡路里/分钟。因变量是循环点数/分钟。

由此产生的系数估计显示在下面的截图中。

这一次，为了得到每个类的预测周期点，等式与之前相似，但是加入了两个额外的变量:

CyclePoints =(课程持续时间，以分钟为单位)* [-6.02359 + (0.32126 *平均瓦特/分钟)+ (27.19041 *英里骑行/分钟)+(0.09326 *消耗的卡路里/分钟)]

多元线性回归包含 66 个自由度(70 个数据点减去 3 个独立变量减去 1 个截距项)。r 平方从大约 66%提高到大约 86%。将因变量(循环点数/分钟)转换为每类循环点数，我们得到下图:

A multiple regression fit of actual vs. predicted CyclePoints. Note: transformation from CyclePoints/minute to CyclePoints per ride is made here.

如上所示，预测周期点的样本内拟合能够更好地捕捉所获得的周期点的波峰和波谷。

健身进度

在我参加 CycleBar 课程的两个月时间里，我注意到我的健康和耐力在逐渐提高。例如，如下图所示，在我开始去 CycleBar(红色粗体线表示两周移动平均值)后的两到三周，我平均每节课大约 180 瓦，在两个月的时间框架结束时，我能够将每节课的平均功率提高到大约 195 到 200 瓦。虽然平均瓦特数的增加看似微不足道，但在我看来，10%左右的提高是相当显著的。

Progression of average watts per class. The red line indicates a two week moving average.

我还跟踪了平均每分钟循环点数的改进。图表如下所示。在这两个月里，我能够将我的平均周期点数/分钟从 8.5 提高到 9.5。我在 CycleBar 期间与一些骑手交谈过，我观察到如果你在骑行期间能超过 10 cycle points/分钟，你就做得非常好，很可能会将自己推向极限****。

Progression of average CyclePoints/minute.

最后，我跟踪了班级排名。在我开始上课的两个星期后，我在 CycleBar 排行榜上名列前五，在我两个月的经历结束时，我平均在排行榜上名列前三。

因为班级的大小取决于班级的日期和时间，所以排名本身(1、2 或 3)可能不是相对表现的最佳指标。我想我会把这个排名转换成一个百分位数，基于某个特定级别的车手人数。一个班的最小人数是 5 人(这是一个午餐时间班)，最大人数是 48 人(巴克黑德自行车室最多有 49 辆自行车)。例如，从这个角度来看，在数学上，在 48 名车手中获得第 9 名(18.75 百分位)比在 5 名车手中获得第 1 名(20 百分位)更好。我的百分位排名如下所示，这表明尽管我在开始上课两周后处于前 20 个百分位，但我能够在两个月结束时将其提高到前 12 个百分位。

其他健身趋势

除了能够在自行车课上逐渐表现得更好之外，我注意到在以下两个方面有了显著的改善:减肥和耐力。在 CycleBar 的两个月里，我减掉了大约 10 磅的体重，这是我在跑步和其他日常锻炼中没能做到的。

我还注意到，在其他锻炼项目中，我的耐力和速度都有所提高。在户外跑步时，我能够将我的常规英里/分钟配速减少 15 到 20 秒(从大约 7:30/分钟减少到 7:10 或 7:15/分钟)。

未来项目

我希望将周期点的分析扩展到我个人的统计数据之外。特别是，如果 CycleBar 的任何人正在阅读这篇文章，并可以向我提供如何根据一个人的体重、身高、年龄、性别和个人表现指标(瓦特/rpm)调整/计算 CyclePoints 的详细信息，我将非常感谢。

最后，非常感谢所有出色的导师(萨拉、塔拉 M. 、安妮、凯蒂、塔拉 R. 、贾斯汀 M. 、贾斯汀 L. 、普尔维、山特尔、多林、海莉、

注意事项:

*无限制的意思是，你可以在一个月内参加任意多的 CycleBar 课程。一般来说，每天有三到六节课。
** CycleBar 已与 FitMetrix 合作，展示平均瓦特数、每分钟转数和循环点数等循环统计数据。

- *您基于 CyclePoints 的等级可能与您在骑行期间在板上看到的实况有所不同，因为有些骑行者希望争夺 CyclePoints，但选择不在板上。当然，你的排名不可能比你在自行车板上看到的更好；要么一样，要么更糟。
- - *有一些非凡的骑手能够在一个级别获得大约 550 到 575 个循环积分，平均每分钟 13 到 14 个循环积分。

我在虚拟现实雕刻中所学到的——Oculus Medium

原文：https://towardsdatascience.com/what-ive-learned-sculpting-in-virtual-reality-oculus-medium-15ba6b16d93a?source=collection_archive---------0-----------------------

更新编辑:带着对这篇不起眼的文章的兴趣，我终于有时间写一些关于 3D 建模和 VR 的后续文章。我将很快在我的网站上发布它们，你可以在这里找到[]。注册我的新 【快讯】 或通过[RSS]订阅，以便在这些更新上线后立即查看。我还将发表关于神经网络在艺术中的应用以及其他艺术/技术相关主题的文章。**

虚拟现实令人兴奋的事情之一是它开辟了互动的新途径，不仅在游戏中，而且在应用程序和工具中。自从 Oculus 宣布以来，我最大的愿望是一个 3D 建模应用程序，虽然还有很多东西需要解决，但 Oculus Medium 已经提供了一个非常引人注目的未来。我来说说我的过程和我学到的东西。

首先让我说，我不是一个专业的建模师。我在 Blender 上过课，在 Zbrush 上过一些在线课程，但我是一名 UX 设计师。我在学校学过传统美术，所以我知道传统的雕刻技巧，但是由于 3D 艺术/设计的高度技术性(相对于更直接的 2D 的东西)，有很多我不知道的。Oculus Medium 非常棒，因为它模拟了现实生活中的雕塑，但它也不像从 Zbrush 或 Mudbox 切换到 Oculus 那么简单。

Not me, just a google image search to give you an idea of what the set up looks like

Oculus Medium 是基于体素的。这实质上意味着它使用 3D 像素。图片+元素=像素，体积+元素=体素。像素是网格，体素是网格的网格，构成立方体。很像游戏 minecraft。体素就像光栅图形。传统的 3D 渲染和 3D 软件使用的是顶点，基本就像 3D 矢量一样。如果你熟悉 Adobe Illustrator/Flash 和 Adobe Photoshop 之间的区别，那么 Oculus Medium 更像是 3D Photoshop。

体素通常不用于渲染 3D 对象，因为它们占用大量内存。如果你想要一个更专业的解释，我强烈推荐 Craig Perko 的视频，他深入描述了原因:

但是为了满足我的需求，你真正需要知道的唯一一件事是体素占用大量内存。很多。我的 windows 桌面机有 16g 内存，在做这些项目的过程中，我设法让我的电脑崩溃了几次，并轻松地在我的 SSD 中存储了大约 50g 的分页文件。我将解释这一点的一些含义，因为它关系到一个人如何在虚拟现实中雕刻。

我的第一个项目是一个简单的骷髅战士。简单、坚硬的表面，没有太多细节，基本上都是一种材料，就像我在用 3D 打印机打印一样。

与传统的顶点建模相比，体素有很多优点。体素雕刻对我来说感觉更直观，我发现自己真的很享受在虚拟现实雕刻的时间。这个雕塑花了两天的时间，有点长，但大部分时间都花在了弄清楚界面和如何最好地处理这件作品上。

做完骷髅战士后，我决定四处寻找新的挑战。facebook 上的一个朋友建议我试着模仿碧昂斯在格莱美上穿的服装。恐怕我对她的大部分作品都不太熟悉，但我最*读了伦敦桂冠诗人、碧昂斯最新专辑的撰稿人沃桑·夏尔的一首非常优美的诗。她的诗《留下来的不可承受之重》很美。https://warsanshire . band camp . com/track/the-unability-weight of-staying-the-end-of-relationship 她的服装也非常酷，似乎提供了许多方面，这对于 Oculus Medium 中的造型来说尤其困难。

碧昂斯造型的困难之处在于它与人类的相似性(人类已经花了数百万年来完善我们的面部识别湿件，因此我们非常非常擅长它)，细节层次的变化，以及她穿着的薄纱般的裙子。

体素建模的直观本质非常简单。你点击按钮，一个球出现在空中，跟在你手的移动后面。你把它设置为擦除，你可以有选择地把你不想要的东西刻掉。本质上就是这么简单。您甚至可以创建自定义画笔，称为“图章”，功能类似于 Photoshop。Photoshop 笔刷是从缩略图中提取的重复像素图案。邮票没有 Photoshop 笔刷复杂的额外功能(还没有！)但它们的工作原理是一样的。你拖动一个球，你会得到一个直径很大的管子。你拖动一个圆盘，你会得到一个平而细的笔画，你可以把它像一层粘土一样放在雕塑上。

体素雕刻的本质可以与谷歌的一个类似的程序形成对比，该程序被称为使用顶点的倾斜画笔。熟练的艺术家可以使用它来制作看起来像空中绘画一样的美丽艺术作品(查看下面我最喜欢的倾斜画笔艺术家伊丽莎白·爱德华的作品)，但它的顶点性质也在某些方面限制了它。这意味着当你想要删除一个笔触时，你必须删除整个笔触，而不能只擦除它的一部分。每个笔划都有自己的顶点组，类似于 Illustrator 中每个矢量笔刷笔划都有自己的子层。你可以在 Illustrator 中选择性地擦除部分矢量，所以我想 Tilt Brush 或 Quill(另一个基于顶点的 3D 艺术程序)最终也会如此，但目前为止，你只能擦除整个笔画，或者完全擦除。即使修复了这一点，顶点也是在 3D 空间中应用了着色器/纹理的 2d 平面形状笔划，没有深度/质量，因此您只能真正制作一个粗略的绘画作品，这在其他应用程序(如游戏)中的使用有限(尽管显然一个聪明的人可能会将它用于他们想要的用途)。

体素有质量，因为它们是 3D 立方体，然后对它们应用平滑算法，给它们一个一致的表面，而不是《我的世界》的块状外观。如果你想将你的作品用于更传统的基于顶点的动画或游戏引擎应用程序，你必须使用导出功能将其转换为 OBJ。这带来了基于体素雕刻的第二个困难。顶点模型不像体素那样占用那么多内存，因为它们只描述组成模型网格表面的点。体素不仅包含表面，还包含每个内部 3D“像素”。如果你有一个巨大的平面空间，在顶点模型中，这个巨大的平面空间基本上可以由 4 个点组成，而同一个平面空间必须由数百个体素组成，就像一个 900px 乘 900px 的光栅图像将比一个 90px 乘 90px 的图像大，即使它们基本上是相同的东西。

在同一个网格中，顶点可以有不同的分辨率级别。大型无差别几何区域可以用较少的点来表示，然后在高细节区域可以有一堆顶点。因此，如果你想在一个大而简单的身体上安装一个非常详细的头部，那么你必须浪费大量额外的内存来保持这个简单的身体与高度详细的面部具有相同的分辨率。所以为了解决碧昂斯造型的问题，我把她的脸和身体分成两部分，并用她的珠宝来掩饰。这些元素中的每一个都在一个单独的层上，并且具有不同级别的分辨率，然后被拼凑在一起。她的脸比她的身体高 6 级分辨率。因此，尽管在 Oculus Medium 中，头部在空间中被表示为一个较小的对象，但它实际上包含了 6 倍多的体素。这有点像在 Photoshop 中让一个高分辨率的智能对象在一个低分辨率的图像中播放，也许这可以给你一个想法。

即使有了这样的分辨率划分，我仍然遇到了许多内存问题。体素通常不被使用是有原因的，即使 6 倍的分辨率有时在面部也会受到限制。更糟糕的是，我对我的比喻作品也很生疏。虽然这只是一个硬件问题，但最终会成为一个小问题，这就是为什么我相信 Oculus 选择体素渲染是正确的。

事实上，像这样在空间的每个点上均匀地定义体素，占用了如此多的内存，这是一个问题，但也是一个很大的好处。由于每个体素都被同等考虑，你可以很容易地挖空物体，或雕刻与主图形无关的物体，而不必创建单独的顶点组等。你可以从碧昂斯的造型和我给她做的发型中看出来。在她的发梢附*，你可以看到独立的头发。这是因为我创建了一个自定义的发刷和羽化头发的方式。类似于 2d 概念艺术家用来快速生成头发、草或树叶的技术，但应用于 3D 空间，我模拟了她头发的一小部分，然后快速重复它的形式来创建她的头发的整体形状和纹理。在最后独立的头发是无意的，但我喜欢这种绘画效果，并保留了下来。一旦你手头有了更多的内存和分辨率(以及像 Photoshop 笔刷一样更多的调整选项)，我可以看到这个系统变得非常非常强大。在具有此功能的 3D 建模中，还有一个完整的维度有待探索。

我提到的另一个挑战是制作薄纱般的服装。最初我是用一枚叶子形状的邮票，在裙子的形状上创造一件破旧的裙子，但这被证明是有挑战性的。仅出口一项，这条裙子就卖了 1.5 英镑，价值超过 100 万英镑。太多了！(典型的视频游戏模型即使没有几百个，也有几千个)。这是一个完全混乱的工作。我试图用 Mesh Lab(我强烈推荐:http://www.meshlab.net/)清理它，但无济于事。我的电脑就是受不了。所以我最后在搅拌机里重塑了这条裙子，并把它设置成透明材质。

这让我想到了雕刻体素的关键方面。你必须把你正在做的东西当作一个固体。这就像扔出一块粗糙的陶器不透明的粘土，做精致的东西可能很困难，因为你不能依靠纹理/材料来给出短暂的外观，并且试图从字面上翻译这种花边外观是非常耗费内存的。

即使是做像脸部这样精致的五官，完全是立体的，也有点挑战。用顶点程序雕刻允许一定量的表面控制(因为本质上你只是在处理表面，没有像体素那样的“内部空间”)。如果你的手柄在 Oculus Medium 中颤抖，你可能会在你不想要的脸颊或嘴唇上留下一大块草皮。我相信有一些 UI 解决方案可以用来解决这个困难(aaaay，给我一行 Oculus！)但这仍然是一个需要考虑的挑战。

总之，我认为 Oculus Medium 是 VR 体素雕刻的一个非常有前途的开始，我向任何 Oculus 或 Vive 用户推荐它(我实际上拥有一台 Vive，只是用 ReVive 运行它没有问题)。我推荐它主要作为一种粗略绘制形状和构图的方法，然后在更传统的顶点程序中清理，如 Blender、Mudbox 等。(或者 Zbrush，虽然从技术上来说，它也是非顶点的，这是另一个完整的故事来解释)。我绝不是一个专业的建模师，我敢肯定，还有大量更高级的功能需要为游戏组件优化(可能是一个完全不同的 VR 盒子建模程序)而设计，但我很高兴继续学*并弄清楚我与该程序的工作流程。

Keras 车型缺什么

原文：https://towardsdatascience.com/what-keras-models-are-missing-89b47cc5a4fa?source=collection_archive---------11-----------------------

TL；Keras 模型缺少“模型信心”我们需要知道一个深度学*模型的“置信度”，才能信任和使用它。模型“信心”比高预测概率更微妙。

首先，背景故事。我认识一个团队，他们建立了一个很棒的分类模型来识别“重要”的文档，然后将它们传递给人类专家。他们使用了所有很酷的 NLP 技巧:自定义单词嵌入、语言模型、注意力机制……他们用贝叶斯优化找到了最佳的模型架构和超参数。该模型的精确度与人类相当，并有可能节省数百万美元。人们可能想知道还缺少什么？

事实证明，问题在于人类专家不可能审阅模型预测为重要的所有文档。我不会透露具体的用例，但人们可以想象一个为疾病诊断筛选患者病历的假设场景。无论哪种方式，我们都受到资源的限制，只想追求模型对什么“有信心”，以控制假阳性率。但是“模特自信”到底是什么意思呢？

让我们把问题简化为二元分类。模型预测只是 0 到 1 之间的概率。我们可能会认为，预测概率越接* 1，意味着“信心”越高。但实际上模型预测只是一个点估计，它代表了“最佳猜测”，但没有量化“模型置信度”“模型置信度”的最佳量化是一个置信区间，或贝叶斯可信区间。

我们可以有两个 0.8 的点估计，但一个置信区间可以是(0.5，0.9)，而另一个置信区间是(0.75，0.85)。第二个估计会比第一个更“有信心”。另一方面，我们可以有两个区间估计:(0.5，0.6)和(0.3，0.9)。尽管区间估计值较低，但区间估计值越窄，提供的信息就越多，因为模型更“可靠”

对我来说，(0.5，0.6)表示“模型知道它不知道”，(0.3，0.9)表示“模型不知道它是否知道。”

怎么会这样？同样的预测概率怎么会有不同的置信区间？让我们看一个玩具二维例子。下面是 500 点，两个维度都遵循标准正态分布。当一个人将真实数据居中并缩放至平均值 0 和标准差 1 时，这是理想的情况。然后使用二次决策边界对这些点进行着色/分类。

Simulated data points to be classified.

由于这些点显然不能线性分离，神经网络将是一个强大的模型选择(如果我没有告诉你真正的模型是二次的)。这里我们建立一个简单的一层神经网络，有 100 个隐藏单元。

Shallow neural network with relatively large hidden layer.

在仅仅训练了几个时期之后，神经网络做得相当好，并且恢复了决策边界。在这一点上，有人可能会说“喀拉斯万岁”，然后就到此为止。当新数据出现时，我们会采用模型预测的高概率，可能高于某个阈值。这可能是机器/深度学*在实践中的大部分时间是如何完成的，没有数据工程和模型调整。

Neural network decision boundary.

然而，到目前为止，我们真的没有“模型信心”为了得到那个，我们可以引导数据 50 次，并获得决策边界的经验分布。下图显示了决策界限可能会有很大变化。特别是，模型在中心附*最“自信”,因为蓝色波段在那里最窄。当我们向两边移动时，模型变得不那么“自信”,正如蓝色曲线的高可变性所暗示的那样。

Empirical distribution of decision boundaries.

考虑两个数据点的模型预测，一个靠*中心，一个向右。如果两个数据点离决策边界的距离相等，则它们的点估计值将相同，但置信区间可能会非常不同。实际上，我们有两个预测分布，它们具有大致相同的均值/中值，但形状截然不同，因此完全没有可比性的“众数置信度”在前面的上下文中，我们会将更多的资源分配给模型更“有信心”的数据点

Predictive distributions at two different data points

“模型可信度”本质上是数据不确定性的产物。凭直觉认为，在数据可预测的情况下，模型应该更“自信”，而在数据不确定的情况下，模型应该更“不自信”。

回到良好的旧回归模型，数据不确定性表现在杠杆方面。从数学上来说，数据不确定性出现在 X 分布的边界附*，这里附*的数据点很少。这种想法在深度学*中尤为重要，原因有二。

首先，深度学*模型倾向于更高维度，尽管有过多的数据，但维数灾难将会杀死我们。第二，当我们对图像和文本等数据使用深度学*时，很难想象边界上有什么，因为图像/文本的空间远比数字的欧几里德空间复杂。

这意味着，深度学*模型仍然可能不“自信”，即使它们在数百万个数据点上进行训练。此外，我们将更难评估深度学*模型的“可信度”。事实上，这是一个重要而令人兴奋的研究领域。最有希望的解决方案是贝叶斯深度学*。最后，我推荐牛津大学的 Yarin Gal 撰写的一篇深入的博客文章，以供进一步阅读。

你的公司有什么样的数据？

原文：https://towardsdatascience.com/what-kind-of-data-does-your-company-have-7341991a73a?source=collection_archive---------8-----------------------

你的企业有一些数据，你想知道从中能学到什么。是数字还是范畴？它是否具有高维度或基数？

维度是什么？

数据无处不在已经不是什么秘密了。但重要的是要认识到，并非所有的数据都是一样的。您可能以前听说过数据清理这个术语。如果你没有，这和定期清洗没什么区别。

当你决定是时候整理你的房子了，你把地板上的衣服收起来，把桌子上的东西放回该放的地方。你让混乱的环境恢复了秩序。

同样的事情也发生在数据上。当机器学*工程师开始查看数据集时，他们会问自己，“这个应该放在哪里？”，‘这应该是什么？’就像把衣服放回壁橱一样，他们开始移动东西，改变一列的值，并使另一列的值正常化。

但是等等。您如何知道如何处理每一份数据？

回到打扫房间的比喻。如果你有一张凌乱的餐桌，你怎么知道每样东西放在哪里？

香料放在食品柜里，因为它们需要保持干燥。牛奶要放回冰箱，因为它必须保持低温。而你还没打开的那堆信封，大概可以进书房了。

现在假设你有一个混乱的数据表。一列有数字，另一列有单词。你想用这些做什么？

一种简便的方法是将这些数据分解成数字和分类数据。

在我们进一步讨论之前，让我们认识一些朋友来帮助解开这两种类型的价值观。

小猪哈罗德喜欢数字。他每天数他的食物。

Klipklop 马观察所有经过场地的汽车，知道每一种类型。

鱼桑迪两样都喜欢。她知道人多力量大，喜欢海底各种不同的海洋生物。

Harold the pig loves numerical data, Klipklop favours categorical data and Sandy the fish loves both.

数据

像哈罗德一样，计算机喜欢数字。

对于任何数据集，目标通常是以某种方式转换它，以便所有的值都处于某种数值状态。通过这种方式，计算机可以通过执行大规模计算来找出数字中的模式。

在 Harold 的例子中，他的数据已经处于数字状态。他记得在过去的三年里他每天吃了多少粒食物。

他知道周六他会得到一点额外的报酬。所以他会留一些到周一供应量较少的时候。

你不一定需要电脑来弄清楚这种模式。但是如果你在处理更复杂的事情呢？

比如根据其他类似公司的价值和最*关于 X 公司的新闻头条预测 X 公司明天的股价？

好，那么你知道 X 公司和其他四家类似公司的股票价格。这些值都是数字。现在你可以用电脑很容易地模拟这些。

但是如果你想加入标题“X 公司打破新记录，创历史新高！”融入其中？

哈罗德很擅长数数。但是他对他一直在吃的不同种类的谷物一无所知。如果谷物的种类影响了他收到的谷物数量呢？就像新闻标题如何影响股票价格一样。

这种不以简单的数字形式出现的数据称为分类数据。

分类数据

分类数据是任何不能立即以数字形式获得的数据。这通常是你会听到维数和基数这两个术语的地方。

这就是克利普克洛普这匹马出现的地方。他每天看着汽车经过，知道每辆车的品牌和型号。

但是假设您想使用这些信息来预测汽车的价格。

你知道品牌和型号对价值有一定的贡献。但是到底是什么呢？

你如何让一台电脑明白一辆宝马和一辆丰田是不同的？

用数字。

这就是特征编码概念的由来。或者换句话说，把一个类别转换成一个数字，这样计算机就能知道每个数字之间的关系。

假设今天很安静，Klipklop 只看到了 3 辆车。

一辆宝马 X5，一辆丰田凯美瑞和一辆丰田卡罗拉。你怎么能把这些汽车变成机器能理解的数字，同时又保持它们固有的差异呢？

有许多技术，但是我们将看两个最流行的——一热编码和顺序编码。

顺序编码

这是汽车和它的制造商被分配一个数字在他们出现的顺序。

假设宝马先经过，接着是凯美瑞，然后是卡罗拉。

Table 1: Example of ordinal encoding different car makes.

但这有意义吗？

按照这个逻辑，一辆宝马+丰田应该等于一辆丰田(1 + 2 = 3)。不完全是。

序号编码可以用于某些情况，如时间间隔，但它可能不是这种情况下的最佳选择。

一次热编码

一键编码将适用于每辆汽车的每个值指定为 1，将不适用的每个值指定为 0。

Table 2: Example of one-hot encoding different car makes and types.

现在，我们的两辆丰田车彼此相似，因为它们都有丰田的 1，但它们的品牌不同。

One-hot-encoding 可以很好地将类别值编码成数字，但是有一个缺点。请注意，用于描述汽车的数值是如何从 2 增加到 5 的。

这就是术语“高维度”的用法。现在有更多的参数来描述每辆车是什么，而不是车的数量。

为了让计算机学*有意义的结果，您希望相反的比率很高。

换句话说，你更希望有 6000 个汽车的例子，并且只有 6 种方式来描述它们，而不是相反。

但是当然，事情并不总是这样。你可能会有 6000 辆汽车和 1000 种不同的描述方式，因为 Klipklop 见过 500 种不同的品牌和型号。

这就是高基数的问题——当你有许多不同的方式来描述一件事，但每种方式都没有很多例子。

对于一个理想的价格预测系统，你需要 1000 辆丰田花冠，1000 辆宝马 X5 和 1000 辆丰田凯美瑞。

好了，车说够了。

我们的股价问题呢？如何将新闻标题整合到模型中？

同样，您可以通过多种方式做到这一点。但是我们将从二进制表示开始。

二进制编码

你出生在 2000 年之前，对还是错？

假设你回答正确。你得了 1 分。2000 年以后出生的人都得 0 分。简而言之，这就是二进制编码。

对于我们的股票价格预测，让我们把新闻标题分成两类——好的和坏的。好标题得 1 分，坏标题得 0 分。

有了这些信息，我们就可以浏览网页，收集新出现的标题，并把它们输入到我们的模型中。最终，有了足够多的例子，它将开始根据标题的价值来感受股票价格的变化。

有了这个模型，你开始注意到一个趋势——每次坏消息出来，股价就会下跌。没有惊喜。

我们在这里使用了一个简单的例子，二进制编码并不能准确地捕捉一个好的或坏的标题的强度。中立呢，很好还是很差？这就是我们之前讨论的顺序编码的用武之地。

-2 代表非常差的标题，-1 代表差，0 代表中性，1 代表好，2 代表非常好。现在很不好+很好=中性是有道理的。

有更复杂的方法将单词引入机器学*模型，但我们将这些留给未来的文章。

需要注意的重要一点是，有许多不同的方法可以将看似非数字的信息转换成计算机可以理解的东西。

你能做什么？

机器学*工程师和数据科学家花了很多时间试图像鱼桑迪一样思考。

桑迪知道她和其他鱼群呆在一起会很安全，但她也知道在探索未知世界的过程中有很多东西要学。

仅仅依靠数字信息来获得洞察力是很容易的。但是有如此多的信息隐藏在不同的方式中。

通过使用数字和分类信息的组合，可以建立更现实和有用的世界模型。

利用价格信息模拟股市是一回事，但当你将新闻标题加入其中时，情况就完全不同了。

如果你希望开始利用机器学*和数据科学等技术来利用数据的力量，有几件事情可以让你充分利用它。

标准化您的数据

如果你在收集数据，它是以什么格式存储的？

格式本身不一定像统一性那么重要。收集它们，但要确保它们都以同样的方式存放。

这适用于数值和分类数据，尤其是分类数据。

越多越好

理想的数据集在基数和维度之间有一个很好的平衡。

换句话说，每个特定样本都有大量的例子。

在学*方面，机器还没有人类好。我们可以看到哈罗德

猪只看一次就能记住它的样子，而计算机需要成千上万张猪的照片才能记住它的样子。

机器学*的一般经验是，更多(高质量)的数据意味着更好的模型。

记录每条信息的相关内容

随着收集的数据越来越多，了解每条信息的相关内容非常重要。

在 Max Kelsen，在运行任何类型的机器学*模型之前，工程师都会花大量时间与熟悉数据集的主题专家联系。

为什么这很重要？

因为机器学*工程师可能能够建立一个 99%准确的模型，但如果它预测错误，那就没用了。或者更糟，99%的数据是错误的。

很好地记录你的数据有助于防止这类失误。

不管你得到的是数字数据、分类数据还是两者的组合，如果你想从中获得更多，Max Kelsen 可以帮你。

这篇文章最早出现在上。

应该上哪门领先的人工智能课程，之后该做什么？

原文：https://towardsdatascience.com/what-leading-artificial-intelligence-course-should-you-take-and-what-should-you-do-after-261a933bb3da?source=collection_archive---------1-----------------------

A photo of me being slightly (very) proud of my recent graduation from Andrew Ng’s deeplearning.ai course.

我于去年年底从 Udacity 的深度学*纳米学位(DLND) 毕业，吴恩达的 deeplearning.ai 专业于 2 月为我收官。

我目前大约 70%通过了 Udacity 的人工智能纳米学位(AIND)，作为我自创 AI 硕士学位的一部分。

这篇文章开始于我对 Quora 上一个问题的回答。

Original question on Quora.

我根据我对这两门课程以及 DLND 的体验回答了这个问题。

简短回答

双管齐下。

如果你想提高你在这个领域的技能，我强烈推荐这两个课程。

去年我编程知识为零，也没听过深度学*这个名词。

由于这些课程的结合，我现在每周都在构建世界级的深度学*模型。

我按以下顺序选修了这些课程。

Udacity 深度学*纳米度
2。 Udacity 人工智能纳米度 Term 1(传统 AI)
3。Coursera deep learning . ai吴恩达的专业化
4。【本期】Udacity 人工智能 Nanodegree Term 2(深度学*聚焦)

如果我能再有一次机会，我会用下面的顺序。

1.吴恩达的 coursera deep learning . ai specialization
2。Udacity 深度学*纳米学位
3。Udacity 人工智能纳米学位术语 1
4。Udacity 人工智能纳米学位术语 2

为什么？

吴恩达的 deeplearning.ai 采用了一种全新的方法来进行深度学*。这是我学*最好的方法。

Udacity 的课程质量非常高，但通常会直接进入高水平的项目。这是一个很好的学*方法，但是如果你没有基础知识，会非常困难。

如果你已经拥有一些深度学*和机器学*的基础知识，或者已经是一名优秀的 Python 程序员，那么 Udacity 的 AI Nanodegree 可能是你开始的理想地方。

为什么两者都做？

交叉知识。

在学*完这两门课程后，我发现它们相辅相成。

当安德鲁的航向下降时，AIND 会上升，反之亦然。

昨天一个真实的例子发生在我身上。我被 AIND NLP capstone 项目中的一个问题卡住了，特别是一个关于单词嵌入的问题。

我在论坛上发帖说我在理解单词嵌入方面有困难。

Thanks for the help Vadim!

在 Vadim 的建议下，我回顾了 deeplearning.ai 专业化中关于单词嵌入的讲座。在做这件事之前，我在网上搜索了几个小时，寻找一个我能理解的解释。

自我提醒: 不要忽略你已经复*过的材料！

最后，它们都是很棒的课程。如果你必须选择一个，我倾向于 deeplearning.ai specialisation。安德鲁的教学风格有些地方真的很合我意。

更长的答案

对于那些对我的课程体验感兴趣的更深入的回答，请继续阅读。

我将把它分成八类。

1.成本和时间——这些课程不是免费的，也不容易。
2。先决条件—开始之前您需要什么。
3。支持选项—遇到困难时该怎么办。
4。课程质量——材料有多好？
5。提交项目——你的工作会有什么变化？
6。课程结构——课程如何进行？
7。未来的选择——课程结束后做什么？
8。其他学*资源—还有哪些其他学*资源？

1。成本和时间

deeplearning.ai 专业化要求每月支付 64 澳元(约 50 美元)的订阅费，才能获得五门课程中的每一门。每门课程都被列为大约一个月。总共五个月意味着大约 250 美元。

如果你够快的话，你可以在一个月内完成。我设法在三分钟内完成它。我本可以在两个月内完成，但是，生活。

DLND 要求预付 750 澳元(约 580 美元)。您需要在开始后的四个月内完成所有与 DLND 相关的项目，否则您将不得不再次付款。如果你按时完成，它算出每月 145 美元。

Udacity 的人工智能 Nanodegree 是三者中最长也是最贵的。包括两个三个月的期限，1000 澳元(约 775 美元)。同样，如果你在六个月的时间框架内完成了要求的项目，它算出每月 258 美元。

根据我的经验，这两个 Udacity 课程每周至少要花 15-20 个小时(有时更多)来保持进度。

另一方面，我能够每天完成价值一周的课程(6-8 小时)的 deeplearning.ai specialisation。这主要是因为我认同吴的教学方法。

2.先决条件

每门课程都将 Python 的中级知识列为先决条件。

需要一些数学知识，但 Python 应该是你的主要重点。

如果你能阅读 GitHub 上的 Python 脚本，并理解至少 60%的内容，你应该可以尝试这些课程。

如果 Python 是你的弱项，我会在开始之前多练*一下。

当我开始学* DLND 时，我已经学*了三周的 Python 知识。在此之前，我从未编程。

最初几个月我很挣扎，但随着我的信心增加，我最终按时完成了。我仍然认为自己是 Python 新手。

至于数学，高中阶段对微积分、线性代数和几何的理解足以完成课程。这是因为大多数数学工作都是在 TensorFlow 和 Keras 等库的幕后进行的。

除了高中，我一门数学课都没上过。如果我的数学没有达到某个特定概念的标准，我会利用可汗学院来提升我的数学技能。

如果你正在考虑进入人工智能或深度学*博士项目，你将需要数学技能。

然而，要用你从这些课程中学到的技能构建应用人工智能，并不需要对幕后的数学有深刻的理解。

如果我有时间再来一次，我会在开始之前三倍地提高我的 Python 技能。

3.支持选项

在每门课程中，我都遇到了许多障碍。我发现支持服务对我扫清道路非常有价值。

DLND 和 AIND 有自己的 Slack 频道和专门的论坛。

在这两个松弛频道中，还有几个频道专门用于不同的主题。

Sometimes the Slack channels can be a little noisy.

两个频道都有成千上万的人，大多数话题至少有几百个用户。导师们也经常主持问我任何问题会议(AMA 的)并浏览频道来回答他们能回答的任何问题。

根据我的经验，Slack 频道非常嘈杂。除了发布自己的问题或者搜索其他有类似问题的人，我不怎么用它。

论坛是一种完全不同的体验。我很少发表问题，因为我遇到的许多问题，其他人已经遇到了。答案并不总是清晰的，但如果是，那就不是学*了。

如果我陷入困境，我会在试图解决自己的问题之前，利用论坛在脑海中勾勒出一幅画面。

deeplearning.ai 专业化的论坛也是类似的体验。主要的区别是用户不允许直接从作业中发布任何代码，但是伪代码是可以的。我发现这里的论坛足以回答我的问题。

当你注册 AIND 时，你会被指派一个导师。我的导师叫阿尤什。她是来自印度的软件工程师。

导师的角色是在必要时提供进一步的支持，同时也是一个可以交谈的人。很多时候当我和阿优士谈论我面临的一个问题时，它似乎已经自己解决了。

永远不要贬低大声说出你的问题的力量。永远不要害怕寻求帮助。

发布问题时的一个技巧是尽可能有效地交流。帮助他人通过彻底解释你所面临的问题来帮助你。这是我正在研究的东西。

4.课程内容

每门课程的内容都是世界级的。我经常在我的视频中说这些是我上过的最好的课程。

DLND 分为六个部分，其中五个部分附有重要项目。

1.简介
2。神经网络——创建你的第一个神经网络。
3。卷积神经网络-建立一个狗品种分类器。
4。递归神经网络——使用神经网络生成电视脚本。
5。生成性对抗网络——建立一个面部生成器。
6。深度强化学*——教四轴飞行器如何飞行。[新]

每个项目都专注于给你某种深度学*技术的实践经验。如果你以前没有做过太多的 Python 编程，它们会很难，但不是不可能完成。

注: 第 6 节是 DLND 的新增内容，我还没有尝试过。

吴恩达的 deeplearning.ai 分为五个部分。

1.神经网络和深度学*
2。改进深度神经网络:超参数调整、正则化和优化
3。构建机器学*项目
4。卷积神经网络
5。序列模型

课程 2 和课程 3 对我来说是突出的。我觉得这种材料在 DLND 中丢失了。

其他课程在结构上与 DLND 提供的课程类似。完成课程 4 和课程 5 后，我对 DLND 中涵盖的内容有了进一步的了解。

AIND 有两个术语。学期 1 侧重于传统的人工智能方法，学期 2 侧重于深度学*。

对于那些从未做过深度学*的人来说，第二学期开始时有一门衔接课程。因为我已经完成了 DLND，所以我可以跳过这一步。

期限 1

1.构建一个游戏代理——使用带有启发式评估的对抗性搜索来构建一个数独解决和隔离游戏代理。
2。实施规划搜索—使用规划图试探法构建航空货运物流系统。
3。设计一个手语识别系统——使用隐马尔可夫模型来识别美国手语中的手势。

如果您尚未完成 DLND，AIND 的条款 2 将包含以下内容之一，并提供购买更多内容的选项。注册时我已经完成了 DLND，所以我可以访问所有三个。*

第一学期的内容对我来说很难理解。由于我已经学*了深度学*和其他机器学*技术，由于我缺乏编程能力，第一学期涵盖的主题很难。

*这可能已经改变，请务必发送电子邮件给 Udacity 支持部门进行澄清。

第二学期

1.计算机视觉集中——利用深度学*和 OpenCV 构建面部关键点检测系统。
2。自然语言处理集中——建立一个机器翻译模型，将英语翻译成法语。【我目前在这里】
3。语音识别系统—构建语音检测系统。

在每一个浓度中，你将经历一系列的小项目和讲座，直到最后的项目。

我目前正在进行第二学期的第二次集中学*。最*，我一直在练*实现自然语言处理流水线的步骤(文本预处理、特征提取和建模)。这一切都是在为机器翻译项目做准备。

5.提交项目

为 DLND 和 AIND 提交项目非常相似。通过 Udacity 教室，您可以提交项目文件或带有代码的 GitHub 链接。

在 24 小时内，Udacity 的评审员会给你回复你的分数(通过或需要更多的工作)。然而，这不是普通的审查。评审者通常会在你的代码中留下一些带有反馈或建议的评论，以便了解更多。

我对评论家的评价再高也不为过。我总是期待听到他们的观点。

对于 deeplearning.ai specialisation，所有项目和迷你测验都会自动评分。这是节省时间的，因为你得到了直接的结果，虽然，你错过了学*更多和改进的建议。

6.课程结构

Udacity 结合了简短的讲座(大部分在 2-8 分钟之间),并贯穿了信息丰富的图表。浏览器中基于 Python 的编程测试通常会遵循一个重要的主题。

在每个主要里程碑结束时，可能会在项目结束前提供一个热身项目作为可选练*。

例如，在 AIND 的 NLP 集中期间，在尝试机器翻译顶点之前提供了情感分析项目。

deeplearning.ai 的专业化结构与吴恩达著名的机器学* MOOC 在 Coursera 上非常相似。5 分钟以下的视频很少，平均在 10 分钟左右。我以 1.5 倍的速度看着他们。

安德鲁使用屏幕上的一系列幻灯片作为他教学的基础。在介绍一个主题时，他经常在幻灯片上写下例子，并讨论每个例子背后的思想。

在每个系列讲座结束时，学生需要完成一个非编程的多项选择测验。每个测验的通过门槛为 80%(允许多次尝试)。

测验涵盖了讲座中涉及的理论知识，少数问题需要一些数学计算。

通过测验后，就可以获得 Jupyter 笔记本形式的编程作业。每个编程作业都需要 80 分或以上才能通过。

如果你在专题或任何课堂材料上遇到问题，论坛是你的朋友。

7.未来选项

完成课程后，有时会不知所措，不知下一步该做什么。至少，这是我在经历了一个重要的里程碑后的感受。

显而易见的答案是运用你所学到的东西。

但是怎么做呢？

博客帖子。

只要你有空，就喜欢写作。写下你所学到的东西将有助于巩固你的记忆。

与他人分享你的写作将有助于他们学*。

公开写作也会让其他人评论你的作品，这是另一个宝贵的学*机会。

制作视频。

也许写作不是你的专长。但是你读这篇文章的设备上可能有摄像头。谈论你学到的东西和写下来一样好。这些视频不必是最好的质量。

在摄像机前讲话将有助于你的公共演讲技巧。

在任何情况下，与他人谈论你所知道的都是有帮助的。

分享你所学到的。

在 HackerRank 或者 Kaggle 上练*。

HackerRank 和 Kaggle 都提供了大量的资源来练*你一直在学*的技能(同时也帮助你学*新的技能)。

Kaggle 非常适合获得真实数据科学、机器学*和深度学*项目的实践经验。你甚至可以建立自己的声誉，成为一名 Kaggle 大师。许多 Kaggle 的顶级竞争对手在进入任何与数据科学相关的角色时都不会有任何问题。

HackerRank 更侧重于提高你的编码技能。它提供了通过不同的编码挑战工作的能力，同时建立了你所做的投资组合。把你的简介作为简历的补充，向未来的雇主展示你的能力。

造东西

有想法吗？运用你所学的技能来实现它。把它运送给其他人，他们可能也会从中发现价值。如果失败了，与他人分享你在这个过程中学到的东西。如果成功了，恭喜你！

所有这些都指向一件事。

当老师。

你花了几个小时学*一些有价值的东西，并遇到了许多障碍。别人如何避免你的错误？他们如何从中获得一些东西？

注: 我还在研究这些！

8。其他学*资源

人工智能在线学*空间正在爆炸式增长。信息那么多，很难知道要注意什么。

就我而言，在我完成 AIND 后，我将前往 fast.ai 。

从那以后，我一直在关注 Coursera 上的数据结构和算法专业，以弥补我编程能力的不足。

对于人工智能，我强烈建议以下资源。*

西拉杰·拉瓦尔的 YouTube 视频
科拉的博客
机器学*大师博客
Francois Chollet 用 Python 进行深度学*

*如果你还有，我很乐意在这里补充。

定论

如果你追求的是硬技能，尽你所能完成所有的课程，并通过教别人或建造一些东西来实现你所学到的东西。

如果你想快速进入人工智能，并了解如何制作每个深度学*模型及其能力，请从 Coursera 上的deep learning . AI specialization 开始。

无论你决定做什么，记住，学东西从定义上来说是很难的。

当它变得困难时，想想你为什么开始。

更新(2018 年 3 月 29 日):在写这篇文章之后，Udacity 彻底检查了他们的人工智能课程。这里的许多具体细节(课程价格/材料)可能不完全适用，但学*的原则和下一步该做什么仍然有效。

与此同时，去看看艾的 Udacity 学校。

观看:YouTube

日常文章:www.mrdbourke.com

连接: LinkedIn

是什么让一个国家繁荣昌盛？

原文：https://towardsdatascience.com/what-makes-a-country-prosperous-7cc213974bac?source=collection_archive---------0-----------------------

今年在立陶宛，有很多关于是否有必要引入累进税以使收入不平等不至于如此严重的讨论(不要问我什么是严重——政治家们又一次没有给出定义)。

但是世界各地都在发生同样的事情——每个人都对收入不平等和税收感到兴奋，并且有很多关于改善每个人而不是少数人生活的讨论正在进行。

虽然收入不平等是一个有点争议的话题(见 1990 年的视频)，但我对一个对每个人都很重要的更实际的问题感兴趣——是什么让一个国家繁荣？实际上，它应该读起来更像“是什么让一个国家的公民生活得更好”，这样我们就清楚了，它是关于生活在那里的人们。

真正酷的是，这些天我们有很多数据和很多方法可以随时用来分析它(谢谢熊猫和 Matplotlib！).在数据的帮助下，有可能做出更明智的决策。

让我们开始吃吧。

数据

所以我做了什么？我收集了这个国家各个方面的所有有用的指数，并对它们之间的关系进行了一些数据分析。

我发现有很多有用的索引:

生活质量:

世界幸福报告 —通过结合多项调查和社会因素来衡量幸福(doh)。
人类发展指数——包括预期寿命、教育和人均收入。
社会进步指数——衡量国家满足其公民社会和环境需求的程度。
Legatum 繁荣指数(lega tum Prosperity Index)——该排名基于多种因素，包括财富、经济增长、教育、健康、个人幸福和生活质量。
教育指数

这些将有助于确定这个国家的生活质量。最终，这些事情对于一个普通的美国公民来说至关重要。

经济:

做生意——结合多项标准来衡量创业的难易程度。
全球竞争力指数 —通过衡量一系列制度、政策和其他因素，评估国家为其公民提供高水平繁荣的能力。
腐败感知指数 —衡量感知的腐败程度，由专家评估和意见调查确定。请注意，较高的值意味着较低的损坏。
基尼系数 —评估收入最高者和收入最低者之间的差距。
影子经济规模——显示实体经济中没有被政府征税或监控的比例。
政府效率 —获取对公共服务质量的看法。更多此处。
研发支出

以上大部分定义了国家的经济环境。创业容易吗？经济有多有效？

此外，还有其他一些或多或少为人所知的指标，例如:

人均国内生产总值
人均国民总收入
税收-GDP 比率——税收占经济的百分比是多少
商业收入税率(商业税率)——这里的解释是但基本上，它是对商业收入的综合税
教育支出(占 GDP 的百分比)——教育支出占 GDP 的比例是多少
按部门划分的 GDP(农业、工业、服务业) —比较不同 GDP 构成的国家之间的数据很有意思
商品和服务税 —基本上是欧洲的增值税和美国的销售税
所得税和资本税
出生率
预期寿命
生活在农村地区的人口比例

我选择忽略像个人税率和公司税率这样的东西，因为它们在法律中被报道，因为它通常是一个累进税率，只报道其最高税率。世界银行报告的收入、商品和服务的实际税收看起来更好地代表了税收水平。

接下来，我将所有国家放入电子表格中，并不断缩减列表，直到剩下 75 个国家拥有上述所有指数的数据。

这引入了某种偏见，只预先过滤了那些能够跟踪他们生活许多不同方面的国家，但它也有助于消除某些离群值，如专制政权、极度不发达的国家等。

我使用的所有数据都可以在 GDrive 上的这个电子表格中找到。

调查的结果

做好准备面对大量的数字。我认为有必要探索数据的各个方面，以更好地了解不同组件如何相互作用。例如，如果经济以创新产品为基础，可以预期它也是有竞争力的，反之亦然。

分析部分将由 5 部分组成:

税收对经济和繁荣的影响
商业环境对繁荣的影响
政府效率及其影响
对收入不平等的影响
繁荣国家的特征

所有的数字都将是散点图(因为它们很容易理解数据之间的关系)，它将包括一个线性回归拟合，以帮助我们更好地衡量这种关系。

例如，在上图中，每个点将代表一个国家的 Legatum 繁荣指数值及其对应的全球竞争力指数值。

有时这些回归拟合线可能会产生误导，因此这些数字会在它们上面包含一个数字，即括号中的皮尔逊相关系数及其 P 值(随机结果的可能性)——这与线拟合一起将更好地表示数据之间的关系。

还有一个关于皮尔逊系数的小提示:

0 和 0.3 表示弱线性关系
0.3 和 0.7 表示中度线性关系
0.7 和 1.0 表示强线性关系

赋税

首先，我们将从所得税和资本税说起。

从上面可以看出，对社会和经济因素(如经商和社会进步指数)的影响很小(或者说影响的证据很少)。有趣的是，与全球竞争力指数之间存在微弱的正相关性，因此增税会损害企业的说法不一定正确。

企业管理费怎么样？

生活质量和商业税率基本没有关系。经济也是如此，尽管这种相关性是负的，而且在《营商环境报告》得分上具有统计学意义。然而，从散点图中我们可以看到，这是非常随机的。

商品及服务税:

如果有什么不同的话，似乎消费税对经济有负面影响(GDP 和 GCI ),但对生活质量没有正面影响。

这变得有点奇怪——它可能开始看起来像我们根本不需要税收就能拥有一个繁荣的国家。但是让我们来看看税收占 GDP 的比例:

最后，我们有所进展。这将强烈地表明，征收足够的税收来支持基础设施和公民的生活质量，对于一个繁荣和运转良好的国家来说是非常重要的。正如我们将在后面看到的腐败一样，事实可能确实如此，因为更有效地收税比提高税率更重要。

老实说，如果我们从世界银行获取税率数据，它不会显示出如此强的相关性，但它似乎缺少一大块税收，如社会保险。此外，对几个国家的快速复查显示，这里的可用数据看起来比世界银行的数据更真实。

让我们把它提高一个档次，反复强调:

没有的证据表明任何更高的上述税率将允许征收更大的预算。显然，不同的机制决定税收收入。

商业环境

让我们来看看全球竞争力指数如何描述该国的生活质量:

这是一幅完全不同的画面。我们可以清楚地看到，拥有一个有竞争力且运转良好的经济将在所有指标上带来高质量的生活:

人均国内生产总值
人类发展指数
幸福指数
Legatum 繁荣指数
社会进步指数

同样的道理也适用于创新:

基于创新的经济比不基于创新的经济有明显的优势。那“做生意”的轻松呢？

它讲述了同样的故事——让经营企业变得更容易，人们将会有更高的生活质量。

我们可以看到研发支出的类似效应:

在研发上投入更多的国家有望变得更加繁荣，但从散点图来看，这种关系似乎在 3%处趋于平缓。

然而，政府在教育上的支出却不是这样。

看到这个我很惊讶。对经济的影响相当轻微。甚至教育指数本身也几乎与支出没有任何关联。

显而易见，政府应该在教育上花费至少 4%的 GDP，但是这个部门似乎效率很低，因为它不能产生更强的关系。

然而，令人欣慰的是，R&D 教和社会进步之间至少存在某种关联:

政府效能

政府官员不会喜欢这个:

多么令人惊讶——一个运转良好、减少官僚主义的政府将为人民和企业带来更美好的生活。

但这还不是全部。让我们来看看腐败如何影响这个国家:

请记住，腐败感知指数的值越高，腐败越少。上面的数字告诉我们，如果这个国家腐败猖獗，这个国家基本上不可能繁荣昌盛，人民也不可能过上好日子。

与影子经济非常相似的故事是:

这一点和腐败将扼杀任何人均 GDP 高的机会和征收足够税收的希望。人们的生活将会变得更糟，企业将很难经营。从上面我们看到的数据来看，这是毫无疑问的。

不平等

既然这是一个热门话题，让我们来看看基尼系数，以及它是如何受到我们之前分析的方面的影响的。

更高的幸福、社会进步和繁荣并不意味着不平等会减少(反之亦然)。令人惊讶的是，更强大的经济与更小的收入不平等相关(人们可能会认为富裕国家的不平等更高)。

税收似乎对收入不平等没有任何影响:

这再次强烈表明(记住我们之前从数据中看到的东西)收入不平等与税率无关。

那么是什么影响了不平等呢？

这是我们的老朋友:腐败、官僚主义和影子经济。

繁荣国家的其他特征

在挖掘数据时，我注意到了一些其他有趣的事情。我们来看看下图:

繁荣的国家不一定勤劳，也不需要任何自然资源。此外，那些仍然停留在农业经济的国家，注定是贫穷的。

现代经济是以服务业为基础的，预计生活在农村地区的人会少得多。

此外，富裕国家的出生率远低于贫穷国家。

最后，具有高容忍度和包容性的国家(作为社会进步指数的子指数)比那些不具有高容忍度和包容性的国家做得好得多:

结论

显然，在我们得出结论之前，使用一些常识性的思维是很重要的。如果预期寿命与《营商环境报告》的排名呈正相关，这并不意味着寿命越长，营商环境就越好，但很可能恰恰相反——良好的营商环境会支持延长寿命的政策，比如更好的医疗保健。

此外，像竞争性的经济环境和生活质量这样的东西是相互加强的——更好的经济可以带来更高的生活质量，从而可以带来更好的经济效率。

考虑到这一点，一个繁荣国家的主要因素似乎是:

基于创新的经济
高效收税
高效政府
社会进步环境
竞争激烈的商业环境

此外，令人惊讶的是，税率似乎对生活的繁荣影响很小，而对 GDP 征收的税收却有明显的关系。这可能意味着税收政策更多的是关于有效的税收征收和支出方式，而不是税率本身。

此外，合理实施的税收与繁荣相关是有道理的，因为它使政府能够为教育和医疗保健等项目提供资金。

因此，每当有人要说我们需要增加(或减少)税收时，让他们知道这听起来像是一个廉价的把戏。相反，重点应该放在以下方面:

让创业变得更加容易
提高税收的效率和透明度
减少官僚作风
将亲信绳之以法

最后，如果你认为有错误(当然有可能)，请提供你的数据和结果。

我感谢:

Tautvydas Misiū nas 和 Andrius Zaveckas 对此进行了审查
马克·亚当·哈罗德与撒切尔的精彩视频

是什么让数据科学家变得有价值？

原文：https://towardsdatascience.com/what-makes-a-data-scientist-valuable-b723e6e814aa?source=collection_archive---------15-----------------------

学*如何增加自己的薪酬。从 2018 年 Kaggle ML & DS 调查中摘录的 124 条注意事项。

有没有想过应该做些什么来增加你的数据科学简历的份量？我们中的许多人已经很好地理解了什么是建立强大的数据科学职业生涯和增加薪酬的重要因素。就我个人而言，我从未见过系统的、基于数据的方法来解决这个问题。这就是建立一个模型来解释数据科学家对市场的价值的动机。有些结果是显而易见的，但其他许多结果可能真的会帮助你增加收入。

点击此处，计算您年收入超过 10 万美元的概率

根据数据估算薪酬

我们只能进行这种研究，因为 Kaggle 发布了来自第二次年度机器学*和数据科学调查的数据。该调查于 2018 年 10 月进行了为期一周的直播，共收到 23859 份回复。结果包括谁在处理数据的原始数据，不同行业的机器学*情况，以及新数据科学家进入该领域的最佳方式。

有了这些数据，我们想了解是什么影响了 Kaggler 的薪酬(我们称 Kaggler 为回答调查的任何人)。我们的想法是让你准确了解什么对市场更有价值，这样你就可以停止在没有良好投资回报(ROI)的事情上花费时间，并加快实现更高的薪酬。根据这些从数据中提取的见解，我希望有一天你会发现自己像 Babineaux 先生一样躺在一堆钱上。

Huel Babineaux, character from Breaking Bad/Better Call Saul. Credits: AMC

点击此处访问完整的研究报告，代码可复制

在进入模型本身之前，我们先做一些基本的探索性数据分析。首先让我们看看每个回答者的收入。

Data: Second Annual Machine Learning and Data Science Survey by Kaggle. Chart: Author

工资在较低的范围内累积(每年高达 1 万美元),在 10 万美元左右出现另一个高峰。有很多学生回答了这个调查，让我们看看他们挣多少钱？

Data: Second Annual Machine Learning and Data Science Survey by Kaggle. Chart: Author

不出所料，学生挣得没那么多，因为他们还没有工作。有了这些信息，我们可以从我们的数据中剔除学生，并定义收入最高的 20%的 Kagglers 挣多少钱。

Data: Second Annual Machine Learning and Data Science Survey by Kaggle. Chart: Author

根据这些数据，我们将建模的目标变量定义如下:

我们将计算卡格勒年收入超过 10 万美元的概率。

数据科学中的性别失衡

在继续讨论模型本身之前，我只想让你知道，收入最高的 20%的人的工资存在性别失衡，但收入最低的 80%的人的工资几乎相同。这意味着担任领导职务的男性比女性的工资高。见下表:

Data: Second Annual Machine Learning and Data Science Survey by Kaggle. Chart: Author

你可以在这里看到完整的 EDA。

预测模型

为了建立这个模型，我们从 50 个问题中的 29 个问题中提取了可以解释高工资的特征。这些问题总共产生了 138 个特征。在一些数据清理之后，我们运行了逻辑回归和随机森林模型。

评估后，逻辑回归表现更好。该模型还具有提取特征系数的优点。这有助于了解每个功能如何影响最终结果(收入最高的前 20%)。我们做了欠采样、交叉验证和网格搜索，所有代码都可供检查在这里。

下面我们展示了模型在测试数据上的表现以及前 20%和后 80%组的分数分布。

### -- ### -- LogisticRegression -- ### -- ###
**MODEL PERFORMANCE ON TEST DATA****Accuracy:**  0.8167438271604939
**AUC: ** 0.8963917030007695**Confusion Matrix: ** 
[[1817  411]
 [  64  300]]**Type 1 error:**  0.18447037701974867
**Type 2 error:**  0.17582417582417584

Model performance: prediction scores for Top 20% most paid and to Bottom 80%. Data: Second Annual Machine Learning and Data Science Survey by Kaggle. Chart: Author

增加收入的方法

在特征选择之后，我们的模型总共有 124 个特征。从它们的系数中，我们可以得出一些想法，可能会帮助你找到你的钱堆。

我们模型的截距是 0。这意味着每个人都从 0 分开始。然后，根据你对每个问题的回答，你可以在你的分数上加减“分”。

正系数:如果系数为正，意味着一个肯定的答案增加了属于前 20%的机会。
负系数:如果系数为负，那么正答案会降低属于前 20%的概率。

要点:要有积极向上的态度。不要做消极的事情。