学习大数据开发,一定不可错过的大数据组件图谱——很齐全(12)
Solr基于Apache Lucene , 是一种高度可靠、高度扩展的企业搜索平台 。 知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和Travelocity 。
Shark即Hive on Spark , 本质上是通过Hive的HQL解析 , 把HQL翻译成Spark上的RDD操作 , 然后通过Hive的metadata获取数据库里的表信息 , 实际HDFS上的数据和文件 , 会由Shark获取并放到Spark上运算 。 Shark的特点就是快 , 完全兼容Hive , 且可以在shell模式下使用rdd2sql()这样的API , 把HQL得到的结果集 , 继续在scala环境下运算 , 支持自己编写简单的机器学习或简单分析处理函数 , 对HQL结果进一步分析计算 。
Lucene基于Java的Lucene可以非常迅速地执行全文搜索 。 据官方网站声称 , 它在现代硬件上每小时能够检索超过150GB的数据 , 它拥有强大而高效的搜索算法 。
分析和报告工具
Kettle这是一个ETL工具集 , 它允许你管理来自不同数据库的数据 , 通过提供一个图形化的用户环境来描述你想做什么 , 而不是你想怎么做 。 作为Pentaho的一个重要组成部分 , 现在在国内项目应用上逐渐增多 。
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 魔兽世界|《轨迹》新作明年发布! 法老控将针对NS平台开发游戏
- 手机游戏|CFHD:神秘组织为什么开发生化手雷呢?关键是为了赚更多钱
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 国服|LOLM:60天内如何从小白打到国服王者?这快捷径方法值得学习
- 大话西游|大话西游2这些召唤兽的天生技能是开发组拿来凑数的吗?实际效果完全没用
- 电子竞技|【欣然轻资讯G】《地平线2西部禁域》新老怪兽即将登场 开发者日志
- 桌游|48小时里,游戏开发能给这群大学生带来什么?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解