一图胜千言!这10种可视化技术你必须知道(13)

\n \n

\n

恒温器折扣地图

\n \n

\n

8. 词云

\n \n

其实目前 , 我们所研究的大量数据都是以自由文本的形式出现的 , 并且这种文本也相对简单 。 在对此类数据进行第一遍处理时 , 可能本想更加直观地了解这些词在语料库中出现的频率 。 然而 , 不论是直方图还是饼状图 , 都对于这些文字类的数据显得力不从心 , 而更适合分析数字数据的频率 。 因此在这种情况下 , 可以求助于词云 。

\n \n

在处理自由文本数据时 , 首先应过滤掉所有的停用词 , 比如像“a”、“and”、“but”、“how”等 , 并且将所有的文本统一转为小写 。 如果要进一步整理数据 , 就要进行额外的工作 , 比如移除变音符、提取词干等 。 但需不需要进行这一步 , 则具体视目标而定 。 一旦数据整理好了以后 , 就可以立刻使用词云可视化技术 , 来分析语料库中哪些词出现得最普遍 。

\n \n

以下 , 我们根据Large Movie Reviews Dataset数据库绘制了两个词云 , 一个展示的是好评 , 另一个展示的则是差评 。

推荐阅读