教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

大數據培訓:ETL常見工具介紹

更新時間:2022年07月20日16時21分 來源:傳智教育 瀏覽次數:

好口碑IT培訓

  目前比較流行的ETL工具有Pentaho Kettle、Hawk、Informatica PowerCenter及DataStage,對這些工具的介紹如下。

  1.Pentaho Kettle

  Pentaho Kettle是一款國外免費開源的ETL工具,純Java語言編寫,可以在Windows、Linux、UNIX系統(tǒng)上運行,并且是綠色無需安裝的。

  Kettle的中文名稱叫水壺,該工具的設計理念是希望把來自不同數據庫中的數據放到一個“壺”里,然后以一種指定的格式流出。Kettle擁有兩種腳本文件,分別是Transformation(轉換)和Job(作業(yè)),其中Transformation是用于完成數據的基礎轉換,而Job是完成整個工作流的控制。

  2.Hawk

  Hawk是一種數據采集和清洗工具,依據GPL(GNU通用公共許可證)協(xié)議開源,基于C#語言編寫的,并且其前端界面使用WPF開發(fā),支持插件擴展。

  Hawk的含義為“鷹”,能夠高效、準確地捕殺獵物。也就是說,Hawk能夠靈活、有效地采集來自網頁、數據庫和文件等來源的數據,并通過可視化的拖曳操作快速地進行生成、過濾及轉換等操作。Hawk主要應用于爬蟲和數據清洗等領域。

  3.Informatica PowerCenter

  Informatica PowerCenter是Informatica公司開發(fā)的世界級的企業(yè)數據集成平臺,也是業(yè)界領先的ETL工具。Informatica PowerCenter用于訪問和集成幾乎任何業(yè)務系統(tǒng)、任何格式的數據,它可按任意速度在企業(yè)內交付數據,具有高性能、高可擴展性、高可用性的特點。Informatica PowerCenter提供了多個可選的組件,以擴展Informatica PowerCenter的核心數據集成功能,這些組件包括數據清洗和匹配、數據屏蔽、數據驗證、元數據交換等。

  4.DataStage

  IBM的InfoSphere DataStage簡稱DataStage,它是一個領先的ETL平臺,可跨多個企業(yè)系統(tǒng)集成數據。DataStage利用高性能并行框架,可根據項目需求在云中或者本地部署ETL環(huán)境,它支持HBase、Hive、Amazon以及MongoDB等數據庫的連接,可以靈活、有效地更新和管理數據繼承的基礎架構。

0 分享到:
和我們在線交談!