通常,在接收到source的數(shù)據(jù)后,應(yīng)該立刻生成watermark;但是,也可以在接收source后,應(yīng)用簡(jiǎn)單的map或者filter操作,然后再生成watermark。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-15 |傳智教育 |watermark生成規(guī)則及其功能
關(guān)系型數(shù)據(jù)和Hive都是支持SQL引擎的數(shù)據(jù)庫(kù);Redis和Hbase都是NoSQL 類型的Key/vale數(shù)據(jù)庫(kù),支持簡(jiǎn)單的行列操作,不支持SQL引擎。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-15 |傳智教育 |Redis,傳統(tǒng)數(shù)據(jù)庫(kù),HBase,Hive
嵌入模式下,元數(shù)據(jù)保存在Derby數(shù)據(jù)庫(kù)中,且只允許一個(gè)會(huì)話連接,若嘗試多個(gè)會(huì)話連接時(shí)會(huì)報(bào)錯(cuò)。下面講解Hive安裝之嵌入模式的配置步驟。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-15 |傳智教育 |Hive安裝教程
參數(shù)默認(rèn)false。當(dāng)設(shè)為true,parquet會(huì)聚合所有parquet文件的schema,否則是直接讀取parquet summary文件,或者在沒(méi)有parquet summary文件時(shí)候隨機(jī)選擇一個(gè)文件的schema作為最終的schema。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-14 |傳智教育 |Spark SQL性能調(diào)優(yōu),操作Spark SQLt調(diào)優(yōu)
Kafka是一個(gè)高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它在實(shí)時(shí)計(jì)算系統(tǒng)中有著非常強(qiáng)大的功能。把topic中一個(gè)parition大文件分成多個(gè)小文件段,通過(guò)多個(gè)小文件段,就容易定期清除或刪除已經(jīng)消費(fèi)完文件,減少磁盤(pán)占用。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-12 |傳智教育 |Kafka,Kafka數(shù)據(jù)存儲(chǔ)
Hadoop實(shí)現(xiàn)join有三種方法,第一種是reduce side join,它是一種最簡(jiǎn)單的join方式,其主要思想如下: 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-12 |傳智教育 |實(shí)現(xiàn)join,Hadoop,大數(shù)據(jù)面試題
在Spark中,不同的RDD之間具有依賴的關(guān)系。RDD與它所依賴的RDD的依賴關(guān)系有兩種類型,分別是窄依賴(narrow dependency)和寬依賴(wide dependency)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-05 |傳智教育 |spark RDD,RDD的兩種依賴關(guān)系
Spark Streaming提供了一個(gè)高級(jí)抽象的流,即DStream(離散流)。DStream表示連續(xù)的數(shù)據(jù)流,可以通過(guò)Kafka、Flume和Kinesis等數(shù)據(jù)源創(chuàng)建,也可以通過(guò)現(xiàn)有DStream的高級(jí)操作來(lái)創(chuàng)建。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-05 |傳智教育 |DStream,離散流,DStream是什么
北京校區(qū)