ai 软件小窍门(ai未响应小窍门)

每个机器学习项目的路线图

对于那些一直在寻找12步程序来摆脱不良数据习惯的人来说,这是一个方便的应用机器学习和人工智能项目路线图。 好吧,它应该正确地是13步,所以我们将开始从零开始计数以使其起作用。

ai

(所有链接将您带到同一作者的文章。)

> In practice you'll need to iterate and backtrack plenty, BUT you should never start a step without

步骤0:真实性检查和设置

检查您是否确实需要ML / AI。 您能否确定许多需要帮助的小决定? 非机器学习/人工智能方法是否已经被证明是毫无价值的? 您有数据可学习吗? 您可以使用硬件吗? 如果没有,请不要通过GO。

专家提示:除了看起来像一群狂暴的业余爱好者外,试图将不属于他们的AI方法推向领导者的领导者通常还会得到解决方案,这些解决方案的成本太高,无法在生产中维护。 相反,找到一个要解决的好问题,可能会赢得最好的解决方案。 如果没有AI就可以做到,那就更好了。 ML / AI适用于其他方法无法使您获得所需性能的情况。 它很有用,可以保留,但并不能满足所有需求。

资源:

· 22项AI现实检查清单,以确保您的项目并非一成不变。

· 寻找ML / AI用例的诀窍。

· 人工智能的第一步可能会让您感到惊讶。

· ML / AI如何与数据科学和决策智能相适应?

步骤1:定义目标

明确表达成功对您的项目意味着什么。 您的ML / AI系统将为您提供很多标签:如何在设置任务的过程中对其性能进行评分? 为了值得生产,它需要多么有前途? 值得推出的最低可接受性能是多少?

专家提示:确保这部分工作是由最了解业务并拥有最敏锐决策能力的人完成的,而不是由最讨厌方程式的人来完成的。 跳过此步骤或不按顺序进行是导致数据科学项目失败的主要原因。 别。 甚至。 认为。 关于。 正在跳过。 它。

资源:

· 详细的第1步指南。

第2步:访问数据

创建用于收集实例ID以及这些ID附带的某些功能的过程和代码。 如果您要进行监督学习或半监督学习,那么您还需要正确的标签-实际上,这些标签通常是由人类反复执行任务而制作的。

专家提示:购买数据或进入现实世界收集自己的衣服之前,请考虑使用模拟数据进行彩排。

资源:

· 无论如何,什么是(是!)数据?

· 唾手可得的超过2000万个数据集。

· 在这个生态系统中谁从事什么工作?

· 行话指南:[1],[2],[3],[4]。

步骤3:分割资料

保留一些数据,以便您有机会检查基于模式的配方在找到它们的数据之外的工作情况。至关重要的是,在重要的位置评估性能:对于未使用的最新相关数据 还有其他

将您的数据分为3个数据集:训练,验证和测试。 (您稍后将训练数据集进一步分为两部分,以进行模型拟合和调试,但现在不必担心。)

专家提示:如果可以,请在基础架构级别实施拆分,并具有严格的访问控制,以确保您的测试数据不会被误用。

资源:

· 了解我们为什么拆分数据。

第4步:浏览数据

现在该进行分析了! 查看一些(不是全部!)数据。 使用您的训练数据集来绘制数据,完成完整性检查并设计新功能。 永远不要忘记现实世界的数据是混乱的,所以不要信任任何人,不要信任任何东西。 取而代之的是,将数据集视为用来教机器学生的教科书。 只有一位愚蠢的老师分配了他们没有看过的教科书。

专家提示:不要忘记将编写的代码应用于清理数据并为验证和测试数据集创建新功能……而无需四处寻找。

资源:

· 有关分析性质的文章:[1],[2],[3],[4]

· 探索可以帮助您克服AI偏见。

步骤5:准备工具

在这里,您可以使用ML / AI工具箱结交朋友,并了解将要尝试运行的所有模式查找算法。 不要期望您的数据采用那些程序包可以接受的格式,您可能需要进行大量设置和代码调整才能使这些算法接受您的数据。

专家提示:在让自己考虑重新发明轮子之前,请始终尝试运行现有软件包。 这与针对研究人员的AI课上的本能相反(他们的工作涉及发明新的轮子),因此,如果您是学术类型的人,请准备好打击自己的习惯。

资源:

· 人工智能研究与应用人工智能之间的重要区别。

· ML / AI算法如何工作?

· 似乎每个人都在谈论TensorFlow,但这是什么?

第6步:使用工具来训练一些模型

在数据中查找和利用模式来制定配方。 拆分训练数据,并通过在步骤4中准备的算法来运行其中的一些数据,以通过查找模式并将这些模式转换为配方来适合某些候选模型。 评估其余训练数据的性能。 随心所欲地修改修补程序,朝着更有希望的算法的方向进行迭代,并回溯以准备他们的堂兄来接收您的数据。

专家提示:通过交叉验证(而不是单个保留集)提高级别。

资源:

(快来了。)

第7步:调试,分析和调整

如果您想知道模型为何会给您带来垃圾效果,请转向对保留(调试)数据集进行高级分析。 这就是您寻找下一步尝试的灵感的方法。 您会收到的信号通常会告诉您回溯以设计不同的功能或准备新的算法包来尝试运行数据。

专家提示:在此步骤中解决超参数调整。 "超参数"代表"算法","温度刻度盘"代表"烤面包机"。 第一次尝试烤面包时,不必为该转盘担心太多,但是一旦确定烤面包机绝对适合您,那就花些时间摆弄该转盘。

资源:

· 满足"假设工具",这是一个漂亮的模型调试和分析工具。

· 解释性/ XAI如何适应图片?

步骤8:验证模型

尽管您可以根据自己的喜好对调试数据进行任何操作,但您都不能在验证数据集中四处摸索,因为这样做会削弱其在应对过度拟合方面的可信度。 只允许您查看效果指标。 可以将验证视为一个安全的空间,以了解模型的残酷期末考试将如何进行……但是如果您需要重新开始,还可以进行兑换。 只有当您确定候选模型是The One时,才可以通过验证步骤。

专业提示:许多ML / AI牛仔认为他们在实际调试时就在进行验证。 这种不良做法激增了测试失败的可能性。 这对学校项目很可爱,因为学校项目什么也没做,但是当您对业务项目无知的鱼雷破坏了您的工作时,这很痛苦。 提防没有经验的工程师,他们不了解使用验证数据进行调试等同于玩俄罗斯轮盘。

资源:

· 验证是引发ML / AI革命的数据科学历史上的突破。

步骤9:测试模型

关键时刻! 在测试中,您可以根据100%的原始数据确定最佳状态是否足够。 由于工程师和模型都没有看到过这些数据,因此他们不可能欺骗评审解决方案,而不会推广到现实世界。 对这些数据的性能进行统计测试是可以获得的最干净,最可信赖的质量信号。 缺点是只能使用一次测试数据。 这就是为什么您首先将验证数据用作脏信号的原因。

如果通过测试,您将投入工程资源来构建实时的,可量产的原型模型。 如果您失败了,那就顺笔了。

专家提示:测试失败意味着您中止了ML / AI项目。 别吵了 不要抱怨 不要乞求 有关正确调试和验证的所有麻烦都可以帮助您解决问题,因此请闭口接受测试结果。 该规则的唯一例外是可特权的情况,即收集更多数据非常便宜。 这样一来,您就可以使用全新的,不受污染的测试数据集继续进行项目。 但是,未通过测试的模型必须消失。 具有杀死它的性格力量。

资源:

· 关于信任ML / AI系统的警告。

· 赶时间的人的统计数据。

第10步:生产系统

专家提示:您的模型可能不会孤立存在,因此,寻找可能会受到您的影响的系统和流程。 请仔细考虑其可靠性和相关性。 (换句话说,如果您要在一家中国商店的中间建造一头非常可靠的公牛,请考虑对中国商店进行一些变更管理。)

资源:

(快来了。)

第11步:运行实时实验以安全启动

使您的模型能够实时运行后,就不要马上将其全部淘汰。 逐步爬升并进行实验,以验证将其放宽对世界是个好主意。 如果实验告诉您将其锁定,那就应该这样做。 (我们都看过那部恐怖电影。)

担心您所有的工作都将要浪费? 你应该。 您已经投入了足够的精力去爱上您的项目,而步骤9和步骤11可以粉碎您的梦想。 好。 现在,您将在前面的步骤中更加小心。

我们不希望您对ML / AI系统无拘无束的父母感情对我们施加一些深爱的有毒垃圾。 这些障碍可确保维持高质量标准。

专家提示:您可能需要先构建基础设施,以运行实时统计实验,否则您将无法安全启动。 其中一部分是编写代码,它使您可以随机分配ML / AI系统处理的情况以及下一个最佳选择(可能是手动的)处理的情况。

资源:

· 实际实验的3个组成部分。

第12步:永远监视和维护…

启动后,您将无法离开而将系统留在自己的设备上。 随着时间的流逝和宇宙的变化,您需要不断努力以确保其安全可靠。 这是不断给予(更多工作)的礼物。

一个好的开始是拥有用于系统监视的分析以及一个维护计划,其中包括一个甚至更高的文档标准和员工总数,以确保该产品在整个生命周期内都可靠。

专家提示:如果您构建了大规模的生产ML / AI系统,请不要误以为新人不会聘请分析师来监视输入的非平稳性和其他意外情况。

资源:

(快来了。)

> The infographic version for those who love 'em. Open in a new tab to zoom.

机器学习和人工智能的功能远不止一堆算法。

摘要

希望您能看到,机器学习比一堆数学算法要多得多,所以不要被只教授算法知识的课程所迷惑。 应用AI解决业务问题的技巧归结为:

步骤0-1提出正确的问题

步骤2–4获取和准备有用的数据

步骤5–7在一次性数据中查找模式

步骤8–9检查模式是否适用于新数据

步骤10构建生产就绪系统

步骤11确保启动是个好主意

步骤12随着时间的推移保持生产ML系统的可靠性

急于深入探讨这些主题吗? 我支持你! 此列表也恰好是深度潜水博客主题的目录,我将在2020年(即所谓的后见之年)写作时优先考虑这些主题。 您与朋友分享我的博客文章的次数越多,我投入更多时间来撰写新文章以尽快为您带来新的篇章。 敬请关注!

(本文翻译自Cassie Kozyrkov的文章《12 Steps to Applied AI》,参考:https://medium.com/swlh/12-steps-to-applied-ai-2fdad7fdcdf3)

ai
【声明】任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。

本文链接:https://www.xiaozhujop.com/a/H63b5faf057665.html