Scala有兩種類型的變量,一種是使用關(guān)鍵字var聲明的變量,值是可變的;另一種是使用關(guān)鍵字val聲明的變量,也叫常量,值是不可變的。這里需要說明的是,雖然聲明值和變量的方式比較簡單,但是有以下幾個(gè)事項(xiàng)需要注意: 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-17 |傳智教育 |Scala聲明值和變量
MapReduce是一種編程模型,用于處理大規(guī)模數(shù)據(jù)集的并行運(yùn)算。使用MapReduce執(zhí)行計(jì)算任務(wù)的時(shí)候,每個(gè)任務(wù)的執(zhí)行過程都會(huì)被分為兩個(gè)階段,分別是Map和Reduce,其中Map階段用于對(duì)原始數(shù)據(jù)進(jìn)行處理,Reduce階段用于對(duì)Map階段的結(jié)果進(jìn)行匯總,得到最終結(jié)果,這兩個(gè)階段的模型如圖1所示。 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-17 |傳智教育 |MapReduce編程模型,大規(guī)模數(shù)據(jù)集的運(yùn)算
HBase分布式數(shù)據(jù)庫最重要的就是存儲(chǔ)數(shù)據(jù),下面,從四個(gè)方面詳細(xì)介紹HBase的物理存儲(chǔ)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-17 |傳智教育 |數(shù)據(jù)存儲(chǔ),HBase物理存儲(chǔ)機(jī)制
隨著互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的不斷增大,對(duì)文件存儲(chǔ)系統(tǒng)提出了更高的要求,需要更大的容量、更好的性能以及安全性更高的文件存儲(chǔ)系統(tǒng),與傳統(tǒng)分布式文件系統(tǒng)一樣,HDFS分布式文件系統(tǒng)也是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連,但也有傳統(tǒng)分布式文件系統(tǒng)的優(yōu)點(diǎn)和缺點(diǎn)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-16 |傳智教育 |HDFS,HDFS分布式文件系統(tǒng)的優(yōu)點(diǎn)
Spark可以從Hadoop支持的任何存儲(chǔ)源中加載數(shù)據(jù)去創(chuàng)建RDD,包括本地文件系統(tǒng)和HDFS等文件系統(tǒng)。我們通過Spark中的SparkContext對(duì)象調(diào)用textFile()方法加載數(shù)據(jù)創(chuàng)建RDD。這里以Linux本地系統(tǒng)和HDFS分布式文件系統(tǒng)為例,講解如何創(chuàng)建RDD。 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-07 |傳智教育 |創(chuàng)建RDD,RDD
Sqoop是Apache旗下的一款開源工具,該項(xiàng)目開始于2009年,最早是作為Hadoop的一個(gè)第三方模塊存在,后來為了讓使用者能夠快速部署,也為了讓開發(fā)人員能夠更快速的迭代開發(fā),并在2013年,獨(dú)立成為Apache的一個(gè)頂級(jí)開源項(xiàng)目。 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-07 |傳智教育 |Sqoop,什么是sqoop
數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、隨時(shí)間變化的,但信息本身相對(duì)穩(wěn)定的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理,基于數(shù)據(jù)倉庫的定義,數(shù)據(jù)倉庫此處有四個(gè)特點(diǎn): 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-02 |傳智教育 |數(shù)據(jù)倉庫特點(diǎn),數(shù)據(jù)倉庫
Hadoop是由Java語言開發(fā)的,Hadoop集群的使用依賴于Java環(huán)境,因此在安裝Hadoop集群前,需要先安裝并配置好JDK。接下來,就在前面規(guī)劃的Hadoop集群主節(jié)點(diǎn)hadoop01機(jī)器上分步驟演示,如何安裝和配置JDK,具體如下。 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-02 |傳智播客 |JDK的安裝和配置
北京校區(qū)