Cloudera Manager是用于管理CDH群集的端到端應用程序。Cloudera Manager通過對CDH集群的每個部分提供細粒度的可視性和控制來設置企業(yè)部署的標準,使運營商能夠提高性能,提高服務質(zhì)量,提高合規(guī)性并降低管理成本... 查看全文>>
Python+大數(shù)據(jù)技術文章2021-12-08 |傳智教育 |ClouderaManager
ReduceTask的工作過程主要經(jīng)歷了5個階段,分別是Copy階段、Merge階段、Sort階段、Reduce階段和Write階段,如下圖所示。 查看全文>>
Python+大數(shù)據(jù)技術文章2021-12-06 |傳智教育 |ReduceTask工作機制
什么是冪等性?用http舉例來說,一次或多次請求,得到地響應是一致的(網(wǎng)絡超時等問題除外)就是冪等性,換句話說,就是執(zhí)行多次操作與執(zhí)行一次操作的影響是一樣的。 查看全文>>
Python+大數(shù)據(jù)技術文章2021-12-06 |傳智教育 |Kafka怎樣實現(xiàn)生產(chǎn)者冪等性
MapReduce是一種編程模型,用于處理大規(guī)模數(shù)據(jù)集的并行運算。使用MapReduce執(zhí)行計算任務的時候,每個任務的執(zhí)行過程都會被分為兩個階段,分別是Map和Reduce,其中Map階段用于對原始數(shù)據(jù)進行處理,Reduce階段用于對Map階段的結(jié)果進行匯總,得到最終結(jié)果,這兩個階段的模型如下圖所示。 查看全文>>
Python+大數(shù)據(jù)技術文章2021-12-06 |傳智教育 |MapReduce編程模型
Flume的核心角色是Agent,通過Agent可以從其他服務中采集數(shù)據(jù),并通過內(nèi)部event流的形式傳輸?shù)絊ink,并根據(jù)需求最終向下一個Agent傳輸或者進行集中式存儲。 查看全文>>
Python+大數(shù)據(jù)技術文章2021-12-01 |傳智教育 |Flume日志采集系統(tǒng)結(jié)構(gòu)圖
爬取網(wǎng)頁其實就是通過URL獲取網(wǎng)頁信息,網(wǎng)頁信息的實質(zhì)是一段添加了JavaScript和CSS的HTML代碼。Python提供了一個抓取網(wǎng)頁信息的第三方模塊requests,requests模塊自稱“HTTP for Humans”,直譯過來的意思是專門為人類而設計的HTTP模塊,該模塊支持發(fā)送請求,也支持獲取響應。 查看全文>>
Python+大數(shù)據(jù)技術文章2021-11-19 |傳智教育 |使用requests模塊抓取網(wǎng)頁
利用json模塊的dumps()函數(shù)和loads()函數(shù)可以實現(xiàn)Python對象和JSON數(shù)據(jù)之間的轉(zhuǎn)換,下面來分別演示兩種函數(shù)的用法 查看全文>>
Python+大數(shù)據(jù)技術文章2021-11-18 |傳智教育 |利用函數(shù)實現(xiàn)Pytho對象和JSON數(shù)據(jù)的相互轉(zhuǎn)換
程序中與數(shù)據(jù)相關的操作分為數(shù)據(jù)的存儲與讀寫。下面將對如何存儲與讀寫不同維度的數(shù)據(jù)進行講解。1.數(shù)據(jù)存儲數(shù)據(jù)通常存儲在文件之中,為了方便后續(xù)的讀寫操作,數(shù)據(jù)通常需要按照約定的組織方式進行存儲。一維數(shù)據(jù)呈線性排列,一般用特殊字符分隔,具體示例如下。 查看全文>>
Python+大數(shù)據(jù)技術文章2021-11-18 |黑馬程序員 |存儲與讀寫不同維度的數(shù)據(jù)