学习大数据开发,一定不可错过的大数据组件图谱——很齐全(12)

Solr基于Apache Lucene , 是一种高度可靠、高度扩展的企业搜索平台 。 知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和Travelocity 。

Shark即Hive on Spark , 本质上是通过Hive的HQL解析 , 把HQL翻译成Spark上的RDD操作 , 然后通过Hive的metadata获取数据库里的表信息 , 实际HDFS上的数据和文件 , 会由Shark获取并放到Spark上运算 。 Shark的特点就是快 , 完全兼容Hive , 且可以在shell模式下使用rdd2sql()这样的API , 把HQL得到的结果集 , 继续在scala环境下运算 , 支持自己编写简单的机器学习或简单分析处理函数 , 对HQL结果进一步分析计算 。

Lucene基于Java的Lucene可以非常迅速地执行全文搜索 。 据官方网站声称 , 它在现代硬件上每小时能够检索超过150GB的数据 , 它拥有强大而高效的搜索算法 。

分析和报告工具

Kettle这是一个ETL工具集 , 它允许你管理来自不同数据库的数据 , 通过提供一个图形化的用户环境来描述你想做什么 , 而不是你想怎么做 。 作为Pentaho的一个重要组成部分 , 现在在国内项目应用上逐渐增多 。

推荐阅读