第九周 深圳市模具廠應(yīng)用 大數(shù)據(jù) hadoop spark
帶著很對(duì)疑問,到了書城18樓,
1、centos 如何開啟 8888|888|88|8080|80|22|21等等端口
2、建立一個(gè)能使用的大數(shù)據(jù)集群最好需要多少臺(tái)服務(wù)器, 而且都是 centos 7.5 的嗎?
3、區(qū)塊鏈 和 我們學(xué)習(xí)的大數(shù)據(jù)中的 BlocK 有無聯(lián)系, 64MB 一個(gè) 塊, 還是128M一個(gè)塊。
復(fù)習(xí)上周
發(fā)送心跳, 告訴 ZooKeeper , 這個(gè)是有問題才動(dòng)手的軟件, 再由ZooKeePer 分配KafKA
producr 生產(chǎn)者產(chǎn)生數(shù)據(jù), 記錄放入 Kafka . Topic 的創(chuàng)建, 寫入多少條, 都由 ZooKeeper 管理。
消費(fèi)者, 也是有
KAFKA作為一個(gè)集群, 宕機(jī)后, 主節(jié)點(diǎn)宕機(jī)后無法消費(fèi), 由ZooKeeper負(fù)責(zé)重新選舉。
zookeeper 安裝 三種模式
/bin 目錄下有很多腳本 ,
Myid 是不一樣的, 每臺(tái)機(jī)都要安裝 ZooKEEPER , 不同的 ID
2888 仲裁通訊
3888 群首選舉
每臺(tái)服務(wù)器上都要啟動(dòng)一下, 每臺(tái)機(jī)都需要啟動(dòng)
再看看 偽集群模式, 如果只有一臺(tái)機(jī)器, 也可以配置 zoo1.cfg ........ 僅僅是端口改為不一樣了 2181 3181 4181
啟動(dòng), 一臺(tái)機(jī)器, 也要啟動(dòng)三次
不同端口模擬不同集群
一個(gè)領(lǐng)導(dǎo)者和多個(gè)跟隨者的。
fluke 和 spark 都差不多, 原理還是結(jié)構(gòu)spark , rdd dij
復(fù)習(xí)完成, 繼續(xù)SPARK 的學(xué)習(xí)。
SPARK核心編程模型
Spark 數(shù)據(jù)運(yùn)算核心機(jī)制:
RDD概述:
RDD: 彈性分布式數(shù)據(jù)集
RDD是 SPARK中重要的數(shù)據(jù)結(jié)構(gòu)。
什么是 RDD ,
顧名思義,從字面理解RDD就是 Resillient Distributed Dataset,即彈性分布式數(shù)據(jù)集。
它是Spark提供的核心抽象。
RDD在抽象上來講是一種抽象的分布式的數(shù)據(jù)集。它是被分區(qū)的,每個(gè)分區(qū)分布在集群中的不同的節(jié)點(diǎn)上。從而可以讓數(shù)據(jù)進(jìn)行并行的計(jì)算
它主要特點(diǎn)就是彈性和容錯(cuò)性。
彈性:RDD的數(shù)據(jù)默認(rèn)情況下存放在內(nèi)存中的,但是在內(nèi)存資源不足時(shí),Spark會(huì)自動(dòng)將RDD數(shù)據(jù)寫入磁盤
容錯(cuò)性:RDD可以自動(dòng)從節(jié)點(diǎn)失敗中恢復(fù)過來。即如果某個(gè)節(jié)點(diǎn)上的RDD partition,因?yàn)楣?jié)點(diǎn)故障,導(dǎo)致數(shù)據(jù)丟了,那么RDD會(huì)自動(dòng)通過自己的數(shù)據(jù)來源重新計(jì)算該partition。
RDD來源:通常是Hadoop的HDFS,Hive 表等等;也可以通過Linux的本地文件;應(yīng)用程序中的數(shù)組;jdbc(mysql 等);也可以是kafka、flume數(shù)據(jù)采集工具、中間件等轉(zhuǎn)化而來的RDD。
總體都在RAM中運(yùn)行的, 現(xiàn)在看看 CACHE ,
不斷的轉(zhuǎn)化, 就是得到 DMG圖, TSK 何在一起就是 TSK site , 最終得到 TSK scuhle
下節(jié)課, 講解 spark 讀取 kafka 數(shù)據(jù)進(jìn)行講解