第一,編程語言
我們需要一定的編程語言基礎。大家可以先學習Java或Pathon。推薦大家學習Java,因為Java已經流行20多年了,并且仍在廣泛使用中。
如果您有Java的基礎,就可以直接步入第二階段學習了。
第二,Linux操作系統
大數據項目最終要部署到集群運行,而集群的部署自然離不開Linux操作系統。學習階段,我們通常會在虛擬機上進行測試,所以我們需要掌握虛擬機的安裝配置。接下來就是Linux常用的操作命令了。
第三,Hadoop
這里面包括了兩塊內容,一個是HDFS,分布式文件系統。我們需要掌握Hadoop集群的搭建,以及HDFS API的使用。另一個就是MapReduce。MapReduce實現大數據的離線計算。我們要掌握MapReduce的編程模式及典型案例。如果我們離線計算采用Spark實現,那么這一階段可以重點掌握HDFS。
第四,Zookeeper
Zookeeper作為一個開源的分布式服務框架,在很多地方都有它的身影。無論是在Hadoop集群的高可用,還是后面的Kafka中,Zookeeper都是比較重要的。
第五,Hive
Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張表,并提供類SQL查詢功能。它由Facebook開源,用于解決海量結構化日志的數據統計。
第六,HBase
Apache HBase是一個開源的NoSQL數據庫,提供對大型數據集的實時讀/寫訪問。
HBase線性擴展使得它能夠處理具有數十億行和數百萬列的大型數據集。
第七,Kafka
Kafka是一種分布式發布-訂閱消息系統,它最初由LinkedIn公司開發,之后成為Apache項目的一部分。它允許用戶進行訂閱并將數據發布到任意數量的系統或實時應用程序中。
第八,Scala
Scala是一種多范式的編程語言,它集成面向對象編程和函數式編程于一身。Scala運行于Java虛擬機上,可以和Java程序無縫混編,互相調用。
第九,Spark
Spark的核心部分有三塊,Spark Core 、Spark SQL、Spark Streaming。Spark Core是最基礎、最核心的部分,這里面有很多的算子(大家可以先理解為方法或函數)。利用這些算子,可以方便快捷地進行離線計算。Spark SQL,可以使用類sql語句處理結構化數據。Spark Streaming則用來處理實時數據。
>>本文地址:http://www.jecan.cn/zhuanye/2019/48186.html
聲明:本站稿件版權均屬中公教育優就業所有,未經許可不得擅自轉載。
1 您的年齡
2 您的學歷
3 您更想做哪個方向的工作?