福利 | Spark快速大数据分析

谨以此书献给所有大数据相关从业者。

一、Spark概述

Apache Spark是一种快速通用的集群计算系统。它提供使用Python、Java、Scala、SQL(应对交互式查询)的标准API来快速操控大规模数据集。它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于实时数据进行流式计算Spark Streaming,用于机器学习的MLlib和用于图形处理的GraphX等。满足各种不同应用场景下的需求,俨然发展成了一种生态。

阅读更多

如何查找并下载rpm依赖包并使用yum离线安装rpm包

Linux版本:CentOS Linux release 7.3.1611 (Core)

一、需求

最近在工作中需要postgresql + postgis的离线安装。安装有两种方式:

  • 源码编译
  • rpm包安装

源码编译耗费时间长,缺乏编译环境且生成目录位置不详,所以选择使用rpm包安装。但是我们最终目的是rpm包离线安装,目前不知道安装postgresql + postgis所依赖的rpm包有哪些,并且从网上找rpm包容易引起版本冲突啊,怎么办呢?

办法总比问题多,接着往下看。

阅读更多

spring boot通过JPA访问Mysql

本文主要介绍spring boot如何使用JPA来访问Mysql,对单表做简单的增删改查操作。

环境说明:

  • IntelliJ IDEA
  • JDK 1.8
  • spring boot 2.1.0
  • Maven 3.5.0
  • Mysql

阅读更多

HDFS ACL权限设置

HDFS版本:3.1.1

今天主要给大家说一下HDFS文件权限的问题。当一个普通用户去访问HDFS文件时,可能会报Permission denied的错误。那么你会怎么做呢?

像修改linux文件似的,可能的做法有:

  • 修改文件所有者
  • 直接将文件赋予全部的权限,即rwx权限。

上面的做法虽然可以达到目的,但是相对来说对权限的把握不是很精准,不适用于生产环境。

本文主要讲解HDFS的ACL(Access Control List)权限,通过hdfs超级用户,来为普通用户分配权限。

阅读更多

spring boot使用JDBCTemplate访问Mysql

本文主要介绍spring boot如何使用JDBCTemplate来访问Mysql,对单表做简单的增删改查操作。

环境说明:

  • IntelliJ IDEA
  • JDK 1.8
  • spring boot 2.1.0
  • Maven 3.5.0
  • Mysql

阅读更多

转 | Linux大文件(比如ISO)的拆分、合并、校验

原文链接请参考:https://www.cnblogs.com/oyym/p/3261015.html

大文件在实际应用传输过程中往往经历拆分、合并的过程。文件在多次传输后有可能会损坏,在使用前可以进行完整性校验。

1. 文件生成MD5码

使用md5sum命令来生成MD5码:

阅读更多

Kylin集群模式部署(使用同一HBase存储)

HDP版本:3.0

Kylin版本:2.6.0

前言

本文主要讲解如何部署Kylin集群,采取多个Kylin实例共享HBase存储的模式,如果需要事先了解Kylin基本概念的朋友可以点击这里前往。

一、安装启动Kylin

首先安装一个Kylin实例,然后再分析Kylin集群模式部署的注意点。

阅读更多

如何在HUE上执行Java程序

HUE版本:3.12.0

前言

通过浏览器访问ip:8888登陆HUE界面,首次登陆会提示你创建用户,这里使用账号/密码:hue/hue登陆。

一、业务场景

基于HUE系统,使用平台自带的hadoop-mapreduce-examples.jar对一个文本文件执行wordcount操作。

阅读更多

Flume入门 | 基本概念及架构说明

Flume版本:1.5.2

前言

今天,给大家分享一下Flume的基础知识。本篇文章主要是对Flume的基本概念及架构进行一些说明。

一、简介

阅读更多

如何在HUE上使用Spark Notebook

HUE版本:3.12.0

Ambari版本:2.6.1.0

HDP版本:2.6.4

Spark版本:2.2.0

前言

通过浏览器访问ip:8888登陆HUE界面,首次登陆会提示你创建用户,这里使用账号/密码:hue/hue登陆。

本篇文章再给大家讲述一下如何配置并使用Spark Notebook

阅读更多