机器学习工具吐槽大会:回归模型连p值都不输出,文档描述惨不忍
栗子 发自 凹非寺
量子位 报道 | 公众号 QbitAI
同学,你用过的那些机器学习工具/库,有没有什么让你绝望的地方?
不是我要问,是一个叫做@Train_Smart的网友,在Reddit论坛开帖发问了:
提问的同时,少年还举出自己的经历,抛了个砖:
Pandas里的稀疏矩阵 (sparse matrices) ,到scikit-learn里就不支持了。我弄了好几个小时才发现,sklearn会把稀疏矩阵inflate起来 (30Mb>>20Gb) ,还完全没有提示。
很快,直击灵魂的问题引发了强烈的共鸣,楼下的小伙伴们纷纷说起自己的伤痛。16小时便有130条回复,Reddit热度达到200点。
吐槽大会
槽点有不少,最先受到强烈轰炸的就是:
统计学功能太匮乏
名叫@timmaeus的网友说:
我是从统计学转到机器学习来的,常常很吃惊,因为Python库输出的并不是我期待/我需要的那些指标:比如回归模型,就不会输出系数、p值、置信区间这些东西。
楼下有人 (@AuspiciousApple) 提供了一个解释:
这可能和思维方式有关系,就好像statsmodels也不会有切分数据集 (train_test_split) 这种功能一样。确实很烦,我主要用sklearn,还得把statsmodels召唤出来,就为了那些最基本的统计学信息。
众人群起而附议,场面十分壮观:
开心,在sklearn和statsmodels之间跳来跳去的,不是我一个人。(@luhem007)
我从R过来的,也感觉在Python里面搞个回归表格怎么这么难。(@Bardy_Bard)
我也是先学的R,后来常常想问为什么会设计出numpy/pandas这样的产品。(@po-handz)
我也是从R来的,发现自己要先创建一波定制的库,才能高效地用好那些已经有的库。(@leogodin217)
文档太不走心
网友@colonel_farts说:
TensorFlow文档整体都很让人崩溃。
楼下有人 (@jalagl) 帮他扩大了打击面:
所有文档都算上吧。我用的是PyTorch,也有很多不够好的地方 (没用过TensorFlow,不知道哪个更差) 。
很快就有补刀侠 (@geodesic42) 赶到现场:
PyTorch文档比TensorFlow还烂。
既然都说文档烂,具体烂在哪?
大体可以总结出三条,第一是描述不清楚:
有些东西是真的很怪,而且一点也不直观。比如有的函数,名字本身已经很奇怪,描述还是“it does the thing”一句话的这种。(@swegmesterflex)
随之,大家开始不断地补充各种飘逸的描述:
“Applies the function to the input”(@trashacount12345)
“把函数应用在输入上。”
“Can be called.”(@trashacount12345)
“可以被调用。”
另一个缺点是不给示例:
我小时候用TurboPascal 7编程,标准库里面每个函数都有示例,不是只有描述。
为啥PyTorch就不能给每个函数写个示例?(@visarga)
还有第三个缺点,
推荐阅读
- 接棒李思思,李佳明首秀《回声嘹亮》,主持技巧值得学习
- 《我的小尾巴2》热播,兄妹助农时的一个细节,值得父母们学习
- 李铢衔中文课学习中国传统文化,赵文卓李承铉化身中文指导师
- 《扫黑风暴》收官,李成阳的坚持和大江的仗义,值得喜欢和学习
- 肖战工具人白宇烧脑综艺、吴宣仪春晚茅子俊不火、陈宥维闷声发财
- 榜妹热线肖战工具人、白宇烧脑综艺、吴宣仪春晚、茅子俊不火、陈宥维闷声发财
- 故作姿态被嘲情商低,频上综艺消费自己,李健:单依纯要踏实学习
- 日升全新机器番《境界战机》第二季确定 4月正式开播
- 12部高质量宝藏综艺!3部央妈出品,兼具学习与娱乐,温暖又治愈
- 李勒优学习成绩不理想,难以实现法医梦,崔妈自责没尽到母亲责任