如何在HUE上通过oozie调用Pig工作流
HUE版本:3.12.0
Pig版本:0.16.0
前言
通过浏览器访问
ip:8888
登陆HUE界面,首次登陆会提示你创建用户,这里使用账号/密码:hue/hue
登陆。
一、业务场景
执行pig脚本将name_age_comma.txt
文件中的逗号,
转为竖线|
,并输出到/user/hue/learn_oozie/mazy_pig_1/output
路径下。
二、创造数据
样例数据name_age_comma.txt
,任务运行前放到/user/hue/learn_oozie/mazy_pig_1/input/
目录下。
1 | John,14 |
三、创建Pig脚本
在HDFS路径上创建/user/hue/learn_oozie/mazy_pig_1/mazy_pig_1.pig
脚本,内容如下:
1 | inputData = load '$inputPath' using PigStorage(','); |
注意:使用符号$
来表示Pig脚本内的参数变量。例如:$inputPath
。
四、创建workflow
点击“工作流程>编辑器>Workflow”,跳转到新页面,点击“创建”,如下图所示:
点击Pig模块,拖动至箭头处,也可修改workflow名称,如下图所示:
选择pig脚本在hdfs上的路径,如下图所示:
添加参数,如下图所示:
因为pig脚本内的参数为inputPath
和outputPath
,所以添加参数:
1 | inputPath=/user/hue/learn_oozie/mazy_pig_1/input/name_age_comma.txt |
警告:output文件夹执行workflow时会自动创建,不要自己创建。
五、设置workflow
如下图所示,点击“设置”按钮,可以设置参数和工作区等配置。
默认配置oozie.use.system.libpath为true
,这样会在工作区目录下默认新建lib包,如果需要jar包依赖的话,可以放在lib目录下。
Tip:工作区的目录HUE会默认生成,也可以自定义设置,lib文件会生成在该工作区内。
六、执行workflow
设置完Workflow后,我们点击保存并执行Workflow,如下图所示:
点击执行workflow后,会在工作区生成job.properties
和workflow.xml
文件,这两个文件执行workflow必不可少,不过HUE自动为我们生成了。
七、查看结果
执行Workflow后,会生成一个job作业,等Workflow执行成功后,可以在HDFS路径上查看/user/hue/learn_oozie/mazy_pig_1/output/part-m-00000
文件,如下图所示:
八、总结
在HUE上通过Oozie调用Hive SQL任务流:
需要先创建好Pig脚本,
然后在Oozie Workflow里面选择🐷Pig Script;
选择之前创建好的Pig脚本,设置变量;
设置工作区及依赖的jar包路径
执行Workflow
点关注,不迷路
好了各位,以上就是这篇文章的全部内容了,能看到这里的人呀,都是人才。
白嫖不好,创作不易。各位的支持和认可,就是我创作的最大动力,我们下篇文章见!
如果本篇博客有任何错误,请批评指教,不胜感激 !
原文作者: create17
原文链接: https://841809077.github.io/2019/02/20/HUE/如何在HUE上通过oozie调用Pig工作流.html
版权声明: 转载请注明出处(码字不易,请保留作者署名及链接,谢谢配合!)