大數據是什么意思?什么是大數據?如果從字面意思來看,大數據指的是巨量數據。大數據的計量單位已經越過TB級別發(fā)展到PB、EB、ZB、YB甚至BB級別。 查看全文>>
大數據技術文章2021-02-01 |傳智教育 |大數據是什么意思,什么是大數據?
RDD的分區(qū)原則是分區(qū)的個數盡量等于集群中的CPU核心(Core)數目。對于不同的Spark部署模式而言,都可以通過設置spark.default.prallien這個參數值來配置默認的分區(qū)數目。一般而言,各種模式下的默認分區(qū)數目如下。 查看全文>>
大數據技術文章2021-01-29 |傳智教育 |RDD分區(qū)
分層抽樣法也叫類型抽樣法,它是先將總體樣本按照某種特征分為若干次級(層),然后再從每一一層內進行獨立取樣,組成一個樣本的統(tǒng)計學計算方法,接下來,通過Spark-Shell演示分層抽樣方法,具體代碼如下: 查看全文>>
大數據技術文章2021-01-29 |傳智教育 |Spark MLlib分層抽樣,什么是分層抽樣
當MySQL表中的數據發(fā)生了新增或修改變化,需要更新HDFS上對應的數據時,就可以使用Sqoop的增量導入功能。Sqoop目前支持兩種增量導入模式:append模式和lastmodified模式。其中,append模式主要針對INSERT新增數據的增量導入;lastmodified模式主要針對UPDATE修改數據的增量導入。 查看全文>>
大數據技術文章2021-01-26 |傳智教育 |Sqoop增量導入,MySQL導入數據
安裝配置Sqoop,前提是部署Sqoop工具的機器需要具備Java和Hadoop的運行環(huán)境首先將下載好的安裝包上傳至hadoop01主節(jié)點的/export/software目錄中,并解壓至/export/servers路徑下,然后對解壓包進行重命名,具體指令如下。 查看全文>>
大數據技術文章2021-01-26 |傳智教育 |Sqoop,Sqoop的安裝和配置
Reduce大致分為copy、sort、reduce三個階段,重點在前兩個階段。Copy階段,簡單地拉取數據。Reduce進程啟動一些數據copy線程(Fetcher),通過HTTP方式請求maptask 獲取屬于自己的文件。 查看全文>>
大數據技術文章2021-01-26 |傳智教育 |ReduceTask的工作機制
完成Scala環(huán)境和IDEA工具的安裝。接下來,就通過打印“Hello World”的例子來演示如何使用IDEA工具開發(fā)Scala程序,具體步驟如下。 查看全文>>
大數據技術文章2021-01-25 |傳智教育 |開發(fā)Scala程序的步驟