一图胜千言!这10种可视化技术你必须知道(15)

\n \n

例如 , 可以在上文的恒温器折扣地图中添加一个第三维度 。 具体来说 , 就是把地图上的每一个点都延伸为一条竖直线 , 用以表示该地区的平均能耗 。 通过以上步骤 , 获得一幅四维图 , 其中四个维度分别表示经度、纬度、折扣力度和平均能耗 。

\n \n

如果需要分析的数据维度比这还要更高 , 就需要先对数据进行降维处理 。 数据降维的方法主要有两种 , 即主成分分析法和t-SNE算法 。

\n \n

目前应用最为普遍的降维方法是主成分分析法 。 该方法通过找寻新的向量来进行降维 , 并且该向量必须尽可能多地反映数据原来的线性变化信息 。 如果数据间的线性关系足够强大 , 那么主成分分析法的降维效果就会非常明显 , 并且几乎不会发生信息的丢失 。

\n \n

相比之下 , t-SNE算法就是一种非线性的降维方法 。 t-SNE算法在降低数据维度的同时 , 还会对原高维空间内数据点之间的距离进行保留 。

\n \n

来看看下面这幅图 , 图中的数据信息取样自MNIST手写数字数据库3 。 该数据库包含从0到9十个数字的数千种手写体图像 , 研究人员可以使用该数据库对他们的聚类算法和分类算法进行测试 。 数据库中 , 这些手写体图像的分辨率是784像素(28*28) , 然而通过t-SNE算法的应用 , 可以直接将这些784维的数据降至二维 。

推荐阅读