卅年春秋,谁主沉浮?从400篇任正非演讲稿分析中,一探华为( 三 )

图3/13

数据集来源于一个最近在GitHub非常火爆的数据集。

这个数据集收录了任正非的各种公开讲话稿,从1994年到2018年,共400余篇。从深圳、中国到东南亚、非洲、欧洲、美洲,从研发、市场、服务到财经、人力资源、战略、内控与公共关系,从交换机、通讯设备、移动终端到人工智能、物联网,从2G、3G到4G、5G,从物理学、化学、数学到心理学、哲学……

这些数据以MD的格式存储在GitHub上,数据来源于《华为人》报、动员大会、内控建设指导意见、以及座谈会等官方资料。

整个分析是使用Python完成的,数据集本身已经被处理的很好,对词频进行统计的过程中省了不少的力气。在统计的过程中,我们删除了“讲话”、“纪要”、“座谈会”、“汇报会”、“座谈”、“我们”等对分析无意义的词汇。

数据集:

https://github.com/benmahr/RenZhengfei

分析代码地址:

https://wqw547243068.github.io/Python-learning/data_mining/huawei

推荐阅读