想让机器学习与商业结合,最重要的是什么?( 八 )
获取途径:大部门企业数据都很敏感 , 尤其是政府、医疗保健和金融领域的相关数据 。 要共享数据集 , 签署保密协议是常规流程 。
\n \n数据分散:数据在组织内不同部门间散布是很常见的 。 要拿到整体数据 , 需要各部门的同意 。
\n \n专业指导:能获取数据往往还不够 。 由于获取的数据太多 , 需要一位领域专家指导团队从庞大的数据库中挑选出合适的数据集 。 有时专家的缺席也会成为项目瓶颈 , 因为核心企业运营已使他们应接不暇 。
\n \n隐私:模糊处理和匿名操作已经成为两项独立的研究领域 , 在处理敏感数据时这二者尤为重要 。
\n \n标记:通常了解实际情况或标记会很有帮助 , 因为这让团队能够应用很多可监控的学习算法 。 然而 , 有时标记数据成本高昂 , 或由于法律限制团队无法得到标记 。 在这些情况下 , 可以应用数据聚类等不可监控的方案 。
\n \n数据生成器:如无法获得数据或标记 , 可以去模拟它们 。 了解数据结构的相关信息会对使用数据生成器很有帮助 , 除此以外 , 还可以了解数值变数的可能性分布和名义变量的类别分布 。 如果数据结构比较散乱 , 可借助汤不热(Tumblr)平台 , 其上有许多标记图像 。 此外 , 推特(Twitter)可提供大量自由文本 , 卡歌网(Kaggle)则拥有特定领域和行业相关的数据集和解决方案 。
推荐阅读
- Uzi|Knight或像UZI因商业合同被卡俱乐部,LOL官方对此都毫无办法
- 战争机器5|战争机器5,有改变也需要让玩家射击的爽快
- 超级机器人大战30|明日方舟:白嫖材料活动更新,玩家收益减少,鹰角策划又不当人?
- 国服|LOLM:60天内如何从小白打到国服王者?这快捷径方法值得学习
- 催眠学习|《催眠学习》PC版,一款教你如何恋爱的游戏,非绅骑步呦!
- 任天堂|免费“大作”会有吗?任天堂商业报告提到将改善Switch会员服务
- 虎牙|哈利波特手游:同流派该如何击败?虎牙小若沐展示细节,值得学习
- 梦幻西游|梦幻西游:一只须弥画魂的励志蜕变史,这才是值得学习人生态度!
- 超级机器人大战30|不怕被LCK网友喷!Ray发文力挺:希望EDG可以夺冠!祝他们有好运
- 超级机器人大战30|猫神重新跟AG一队训练,瓜主剧透:AG若打不赢狼队,最初首发不保