Sqoop1.4.7实现将Mysql数据与Hadoop3.0数据互相抽取

本文主要讲解 Sqoop 1.4.7 如何实现 Mysql 与 Hadoop 3.0 之间数据互相抽取的。

环境基于 Ambari 2.7 + HDP 3.0 部署。

之前写过一篇 Sqoop 1.4.6 如何实现 Mysql 与 Hadoop 2.x 之间数据互相抽取的,可参考:《sqoop概述及shell操作

一、Sqoop Shell操作

阅读更多

Kafka消费者 之 指定位移消费

由于消费者模块的知识涉及太多,所以决定先按模块来整理知识,最后再进行知识模块汇总。

一、auto.offset.reset值详解

在 Kafka 中,每当消费者组内的消费者查找不到所记录的消费位移或发生位移越界时,就会根据消费者客户端参数 auto.offset.reset 的配置来决定从何处开始进行消费,这个参数的默认值为 “latest” 。

auto.offset.reset 的值可以为 earliest、latest 和 none 。关于 earliest 和 latest 的解释,官方描述的太简单,各含义在真实情况如下所示:

阅读更多

悄悄掌握 Kafka 常用命令(建议收藏)

阅读更多

Kafka消费者 之 如何订阅主题或分区

一、消费者配置

在创建真正消费者实例之前,需要做相应的参数配置,比如设置消费者所属的消费者组名称、broker 链接地址、反序列化的配置等。

阅读更多

Windows安装Scala并在idea上运行Hello World

版本

JDK:1.8.0_131

Scala:2.13.0

IDEA:2019.1.3

一、前言

最近突发奇想想学一下 Scala ,你看,Spark 和 Kafka 都是用 Scala 实现的,所以如果之后想从事大数据开发工作的话,我认为学习 Scala 这门语言还是很有必要的。

没想到在 Windows 上安装 Scala 和在 idea 上运行 Scala 版的 Hello World 就出问题了,所以本篇算是对自己爬坑的一个记录吧,也方便后来人使用。

阅读更多

Kafka消费者 之 如何进行消息消费

前言

由于消费者模块的知识涉及太多,所以决定先按模块来整理知识,最后再进行知识模块汇总。

一、消息消费

1、poll()

Kafka 中的消费是基于拉模式的,即消费者主动向服务端发起请求来拉取消息。Kakfa 中的消息消费是一个不断轮询的过程,消费者所要做的就是重复地调用 poll() 方法,而 poll() 方法返回的是所订阅主题(或分区)上的一组消息。一旦消费者订阅了主题(或分区),轮询就会处理所有细节,包括群组协调、分区再均衡、发送心跳和获取数据。

阅读更多

install-free-teamviewer

一、前言

在工作中,如果要远程支持一个项目实施,或帮助别人解决问题,都会用到远程连接工具,而 Teamviewer 广受大家喜爱。但是 Teamviewer 是收费的,只有一段时间的试用期。

在最近,朋友给了我一个破解版的 Teamviewer ,用起来还不错,决定分享给大家。

阅读更多

Kafka消费者 之 如何提交消息的偏移量

前言

由于消费者模块的知识涉及太多,所以决定先按模块来整理知识,最后再进行知识模块汇总。

一、概述

在新消费者客户端中,消费位移是存储在Kafka内部的主题 __consumer_offsets 中。把消费位移存储起来(持久化)的动作称为 “提交” ,消费者在消费完消息之后需要执行消费位移的提交

阅读更多

Kafka监控系统,我推荐Kafka Eagle

一、前言

​ 对于 Kafka 用户来讲,随着业务的复杂化,Consumer Group 和 Topic 的增加,此时我们使用 Kafka 提供的命令工具,已预感到力不从心,这时候 Kafka 的监控系统此刻便尤为显得重要,我们需要观察消费应用的详情。 监控系统业界有很多杰出的开源监控系统,像 Kafka Manager,用的人很多,不过今天我介绍另外一个 Kafka 监控系统,Kafka Eagle 。该系统由《Kafka并不难学!入门、进阶、商业实战》的作者 smartloli 开发维护,很牛掰的一位大佬。

​ smartloli 是从互联网公司的一些需求出发,从各位 DEVS 的使用经验和反馈出发,结合业界的一些开源的 Kafka 消息监控,用监控的一些思考,设计开发了 Kafka Eagle 。

阅读更多

kafka面试集锦(附答案)

1、为什么需要消费者组

消费者组是 Kafka 系统提供的一种可扩展、高容错的消费者机制。

主要是提升消费者端的吞吐量。如果生产者生产消息的速度远大于消费者消费消息的速度,那么 topic 中的消息将会越来越多,出现堆积现象。

面对消息堆积现象,通常可以增加几个消费者,共同消费这个 topic ,一个消费者消费 1~多 个分区。然后这些消费者就组成了一个消费者组。

阅读更多