作者:create17,座右铭:每一个成功人士的背后,必定曾经做出过勇敢而又孤独的决定。放弃不难,但坚持很酷~
2019-02-27HUE
HUE版本:3.12.0 HDP版本:2.6.4
HUE版本:3.12.0
HDP版本:2.6.4
前言
通过浏览器访问ip:8888登陆HUE界面,首次登陆会提示你创建用户,这里使用账号/密码:hue/hue登陆。
ip:8888
hue/hue
阅读更多
2019-02-25HUE
HUE版本:3.12.0 前言 通过浏览器访问ip:8888登陆HUE界面,首次登陆会提示你创建用户,这里使用账号/密码:hue/hue登陆。
Coordinator能够将每个工作流Job作为一个动作(Action)来运行,相当于工作流定义中的一个执行节点(我们可以理解为工作流的工作流),这样就能够将多个工作流Job组织起来,称为Coordinator Job,并指定触发时间和频率,还可以配置数据集、并发数等。一个Coordinator Job包含了在Job外部设置执行周期和频率的语义,类似于在工作流外部增加了一个协调器来管理这些工作流的工作流Job的运行。
Coordinator Job
2019-02-21HUE
HUE版本:3.12.0 Spark版本:1.6.3 Ambari版本:2.6.1.0 HDP版本:2.6.4
Spark版本:1.6.3
Ambari版本:2.6.1.0
前言 通过浏览器访问ip:8888登陆HUE界面,首次登陆会提示你创建用户,这里使用账号/密码:hue/hue登陆。
2019-02-20HUE
HUE版本:3.12.0 Pig版本:0.16.0
Pig版本:0.16.0
执行pig脚本将name_age_comma.txt文件中的逗号,转为竖线|,并输出到/user/hue/learn_oozie/mazy_pig_1/output路径下。
name_age_comma.txt
,
|
/user/hue/learn_oozie/mazy_pig_1/output
2019-02-18HUE
HUE版本:3.12.0 Hive版本:2.1.0
Hive版本:2.1.0
执行Hive SQL脚本查询mytable表数据前10条,field以”\t”分割,并输出到HDFS指定路径。
2019-02-15Sqoop
基于传统关系型数据库的稳定性,还是有很多企业将数据存储在关系型数据库中;早期由于工具的缺乏,Hadoop与传统数据库之间的数据传输非常困难。基于前两个方面的考虑,需要一个在传统关系型数据库和Hadoop之间进行数据传输的项目,Sqoop应运而生。
2019-02-11
仅以此书献给所有大数据平台从业者
2019-01-28HBase
HBase版本:1.1.2
该文只是对Kerberos应用部分中HBase使用的一个补充,主要介绍了HBase ACL的使用。
HBase ACL 的全称为 HBase Access Control List ,它可以实现对各 User 、 Group 、 Namespace 、 Table 、 Column Family 、 Column Qualifier 层级的数据权限控制。
我们可以使用 grant 命令对上述层级进行授权。
2019-01-24Ambari
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
如果需要将Kylin服务受控于Ambari管控,那就需要集成服务了。
2019-01-23Kylin
Kylin版本:2.5.1
膜拜大神,Kylin作为第一个由国人主导并贡献到Apache基金会的开源项目,堪称大数据分析界的“神兽”。所以我也是抓紧时间来学习Kylin,感受Kylin所带来的魅力。
Kylin
Apache
Kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求,它提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的Hive表。其核心是预计算,计算结果存在HBase中。
TB
Hadoop/Spark
SQL
OLAP
Hive
HBase
作为大数据分析神器,它也需要站在巨人的肩膀上,依赖HDFS、MapReduce/Spark、Hive/Kafka、HBase等服务。
HDFS
MapReduce/Spark
Hive/Kafka