Hive的函數(shù)分為兩大類:內(nèi)置函數(shù)(Built-in Functions)、用戶定義函數(shù)UDF(User-Defined Functions)。Hive的函數(shù)分為兩大類:內(nèi)置函數(shù)(Built-in Functions)、用戶定義函數(shù)UDF(User-Defined Functions): 內(nèi)置函數(shù)可分為:數(shù)值類型函數(shù)、日期類型函數(shù)、字符串類型函數(shù)、集合函數(shù)、條件函數(shù)等... 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2023-01-03 |傳智教育 |內(nèi)置函數(shù)和用戶定義函數(shù)
數(shù)據(jù)倉庫本身并不“生產(chǎn)”任何數(shù)據(jù),其數(shù)據(jù)來源于不同外部系統(tǒng); 同時(shí)數(shù)據(jù)倉庫自身也不需要“消費(fèi)”任何的數(shù)據(jù),其結(jié)果開放給各個(gè)外部應(yīng)用使用。Hadoop數(shù)據(jù)倉庫的主要特征有面向主題性、集成性、非易失性和時(shí)變性,接下來對這四個(gè)特性做詳細(xì)介紹。 查看全文>>
Python+大數(shù)據(jù)學(xué)習(xí)常見問題2023-01-03 |傳智教育 |Hadoop數(shù)倉概述,Hadoop數(shù)據(jù)倉庫特征
MySQL安裝完成后,會自動(dòng)配置為名稱叫做:mysqld的服務(wù),可以被systemctl所管理,我們在進(jìn)行系統(tǒng)的配置時(shí),主要修改root密碼和允許root遠(yuǎn)程登錄。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2023-01-03 |傳智教育 |MySQL8.0版本在CentOS系統(tǒng)的配置教程
MapReduce的思想核心是“先分再合,分而治之”。所謂“分而治之”就是把一個(gè)復(fù)雜的問題,按照一定的“分解”方法分為等價(jià)的規(guī)模較小的若干部分,然后逐個(gè)解決,分別找出各部分的結(jié)果,然后把各部分的結(jié)果組成整個(gè)問題的最終結(jié)果。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-12-29 |傳智教育 |MapReduce思想
Hadoop需要Kerberos來進(jìn)行認(rèn)證,以啟動(dòng)服務(wù)來說,在后面配置 hadoop 的時(shí)候我們會給 對應(yīng)服務(wù)指定一個(gè)Kerberos的賬戶,比如 namenode 運(yùn)行在cdh0機(jī)器上,我們可能將 namenode 指定給了nn/cdh0.itcast.cn@ITCAST.CN 這個(gè)賬戶, 那么 想要啟動(dòng) namenode 就必須認(rèn)證 這個(gè)賬戶才可以。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-12-29 |傳智教育 |HDFS相關(guān)的Kerberos賬戶配置
聚焦網(wǎng)絡(luò)爬蟲面向有特殊需求的人群,它會根據(jù)預(yù)先設(shè)定的主題順著某個(gè)垂直領(lǐng)域進(jìn)行抓取,而不是漫無目的地隨意抓取。與通用網(wǎng)絡(luò)爬蟲相比,聚焦網(wǎng)絡(luò)爬蟲會根據(jù)一定的網(wǎng)頁分析算法對網(wǎng)頁進(jìn)行篩選,保留與主題有關(guān)的網(wǎng)頁鏈接,舍棄與主題無關(guān)的網(wǎng)頁鏈接。其目的性更強(qiáng)。聚焦網(wǎng)絡(luò)爬蟲的工作原理如圖1-2所示。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-12-21 |傳智教育 |python網(wǎng)絡(luò)爬蟲,聚焦爬蟲和通用爬蟲
在弄清楚大數(shù)據(jù)分析師要學(xué)什么之前,我們先來對大數(shù)據(jù)這個(gè)概念稍作下了解。大數(shù)據(jù)也叫作巨量數(shù)據(jù)或者說海量數(shù)據(jù),基于大數(shù)據(jù)結(jié)構(gòu)復(fù)雜和類型復(fù)雜的特點(diǎn),技術(shù)人員從這類數(shù)據(jù)中去獲取有價(jià)值的信息的能力,我們稱為大數(shù)據(jù)技術(shù)。一般來講,大數(shù)據(jù)分析師主要要學(xué)習(xí)以下技術(shù)。 查看全文>>
Python+大數(shù)據(jù)學(xué)習(xí)常見問題2022-12-21 |傳智教育 |大數(shù)據(jù)分析師要學(xué)什么
三級模式是指數(shù)據(jù)庫管理系統(tǒng)從三個(gè)層次來管理數(shù)據(jù),分別是外部層(ExternalLevel)、概念層(Conceptual Level)和內(nèi)部層(Internal Level)。這三個(gè)層次分別對應(yīng)三種不同類型的模式,分別是外模式(External Schema)、概念模式(Conceptual Schema)和內(nèi)模式(Internal Schema)。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-12-20 |傳智教育 |三級模式和二級映像
北京校區(qū)