人工智能项目的十条建议--概念篇


人工智能项目的十条建议--概念篇


文章图片


人工智能项目的十条建议--概念篇


数据科学项目可以为公司带来难以置信的价值 , 但它们的设计必须符合核心指导原则 , 以确保获得最大回报 。

介绍随着各行各业的企业通过提高自动化来改善工作流程 , 以及产品和服务的交付 , 对采用更先进的数据科学能力和项目的需求不断增长 。
当然 , 只有在合适的条件下 , 人工智能和机器学习可以带来巨大的投资回报 。 在任何情况下 , 无论是从业务角度还是技术角度 , 数据科学项目都必须以正确的方式构建 。 为了建立这个框架 , 根据以往经验 , 我总结了“十条建议” , 分为两篇:概念篇 , 执行篇 , 下文是概念篇的内容 。

1. 定义问题--理解问题在处理数据科学问题时 , 必须以最完整的术语定义问题 。 在项目开始时需要预留出时间 。 记录要解决的问题是什么 , 哪些数据可供您使用 , 以及需要什么样的解决方案 。 与最终用户重复问题陈述 , 以确保提供正确的解决方案 。
在定义问题时 , 让问题变得具体才是关键 。 以欺诈检测模型为例 。 与其将问题定义为“减少欺诈” , 后者设置了广泛的参数并且没有明确的起点和终点 , 而是更具体地指导您正确有效地解决问题 。 例如 , 将问题描述为“在付款完成之前标记信用卡购买的潜在欺诈交易并提醒客户” , 这提供了有关需要预测什么、需要采取哪些行动以及适当的时间框架的信息 。
2.不要根据你想要的方案来制造问题从第一条开始 。 在不了解数据和问题陈述的情况下说“我想使用神经网络解决这个问题” , 甚至说“我们将使用机器学习来解决这个问题”是很危险的 。 并非所有问题都需要机器学习 , 有些基于规则的方法通常就足够了 , 甚至更胜一筹 。 同样 , 并非所有机器学习问题都适合神经网络 。 有很多算法 , 每种算法都擅长做不同的事情 。 让解决方案来自问题——而不是相反 。
这再次归结为仔细定义 。 不要跳到解决方案 。 例如 , 避免将您的解决方案定义为“我想使用深度学习来解决潜在的欺诈交易” 。 相反 , 请用更简单的术语来构建您的解决方案 , 例如“我想标记潜在的欺诈性交易” 。
3.确保问题能够得到解决【人工智能项目的十条建议--概念篇】明白定义问题和获取数据并不意味着问题可以得到解决 。 想想当前的解决方案 , 你有什么样的数据 , 以及想要的结果 。 在给定无限时间的情况下 , 人类能否使用相同的数据来解决这个问题?如果不是 , 则很可能无法使用机器学习来解决问题 。 如有疑问 , 请咨询同事 。
在金融界 , 账户余额预测是一种经常被要求的解决方案 , 但没有人或电脑能告诉你未来几个月你的财务状况会怎样 。 想想大流行何时来袭;数百万人意外失去了工作 。 当房屋被盗并且需要更换物品时该怎么办?这些是人类和算法都无法预测的事情 。
4.了解你的目标用户任何问题的最终目标都是通过提供适当的解决方案来满足最终用户的需求 。 通过了解目标用户当前拥有什么、缺乏什么以及他们未来需要什么 , 您可以从一开始就瞄准最佳解决方案 。 用户想要聚合预测、分布还是单独的预测?他们希望如何呈现数据?API 可能更适合技术人员 , 但可视化仪表板更适合PM或管理人员的 。 一旦解决方案完成 , 这些思路可以减少繁琐的格式化 , 因此必须提前考虑 。
5. 拥有与问题相关的良好数据垃圾进垃圾出 。 这是数据科学家中非常普遍的格言 。 不管有多少数据 , 如果不好 , 就无法进行数据分析 。 数据必须与问题相关 , 并且有足够量的有效记录 。
如果任务需要数据标签而没有数据标签 , 则分类算法将无法工作 。 如果数据的结构不一致 , 那么未来的pipe将无法工作 。 不要仅仅为了有而建立一个垃圾模型 。
6.有一个业务专家支持如果不了解问题和数据 , 您将不可避免地犯下非常可避免的错误 。
通过聘请业务专家 , 您可以提出有关数据的问题(例如 , “当该字段为空时 , 这意味着什么?”)和问题(例如 , “考虑此功能是否有意义?”) 。 通过与他们一起检查 , 您可以确保您的产品确实是一个可靠的解决方案 。

推荐阅读