分享

Apache NiFi 如何从入门到不放弃?

笔者在之前的文章《物联网遇到流计算》中介绍过 Apache NiFi,虽比不上 StreamSets 华丽的外表,但是功能却很强大,在开源方面,NiFi 的企业级功能是接近完整的。

在本篇文章中,笔者会带大家进入 WiFi,No,是 NiFi 的世界。大家看完后,笔者不相信谁还会有放弃的念头(此处会不会有掌声!)。

本篇文章引用了 Manoj 小哥的部分 Slides,再次说明,表示感谢。
热身

在正式讲解 NiFi 之前,跟着笔者先来做做热身运动。
Data Flow/Data Pipeline/ETL

简单普及几个四是四,十是十的概念,走马观花即可,不必太在意。
1. Data Flow
2020-04-28_160427.jpg
Data Flow,数据流,有始有终才有意义,始于数据的源,终于可供使用和分析的结果数据。一句话,Data Flow 解决的是数据端到端传输的问题。

数据流中的数据可以来自很多种类型,比如 CSV、JSON、HTTP、IoT 和音视频流等等。
2. Data Pipeline
2020-04-28_160500.jpg
Data Pipeline,数据管道,又是什么呢?
大家可能对 ETL 非常熟悉了,其实 Data Pipeline 和 ETL 很相似,个人感觉 Data Pipeline 是包含 ETL 的,更加通用的方式,包含全局的系统之间数据的迁移,以及迁移过程中数据的转换处理。

现在国内外有不少公司在研发 Data Pipeline 产品,提供多渠道数据来源实时摄取、数据清洗、任务流管理、元数据管理、流批一体等功能。


为什么需要实现一个 Data Flow 框架?何为 Apache NiFi?

可下载文档:
链接: https://pan.baidu.com/s/1TO5jOEFTlaknQWllHpo0CQ 提取码: e9vi

原文链接:https://mp.weixin.qq.com/s/BnAjAiqsf9lNHQOQXBm8Pw

本帖被以下淘专辑推荐:

已有(1)人评论

跳转到指定楼层
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条