ETL 工具 -- KETTLE 基本使用 1

分享 ? 123456789987654321 ? 于 2020-10-28 21:18:38 ? 174 閱讀

Kettle

軟件鏈接:https://pan.baidu.com/s/1jF6kMg4t0UmTNicT6TefFw 
提取碼:irjm 

csv轉換為excel

file

2.輸入

file

3.輸出

file

file****

4.啟動

file

執行結果

1.日志

1.顯示錯誤日志
2.刪除日志
3.齒輪:設置日志界別,一般為基本日志

file

2.步驟度量

//程序執行步驟

file

3.Metrics

//轉換時間

file

4.Preview

數據預覽

file

KETTLE核心概念

1.轉換

1.轉換(transaformation)是ETL解決方案中最主要的部分,它處理抽取、轉換、加載各種對數據行的操作。
2.轉換包含一個或多個步驟(step),如讀取文件、過濾數據行、數據清洗或將數據加載到數據庫。
3.轉換里的步驟通過跳(hop)來連接,跳定義一個單向通道,允許數據從一個步驟向另一個步驟流動。
4.在Kettle里,數據的單位是行,數據流就是數據行從一個步驟到另一個步驟的移動。
5.數據流有的時候也被稱之為記錄流。

2.Step步驟

步驟(控件)是轉換里的基本的組成部分。

快速入門的案例中就存在兩個步驟,“CSV文件輸入”和“Excel輸出”。

一個步驟有如下幾個關鍵特性:
① 步驟需要有一個名字,這個名字在轉換范圍內唯一。
② 每個步驟都會讀、寫數據行(唯一例外是“生成記錄”步驟,該步驟只寫數據)。
③ 步驟將數據寫到與之相連的一個或多個輸出跳,再傳送到跳的另一端的步驟。
④ 大多數的步驟都可以有多個輸出跳。一個步驟的數據發送可以被被設置為分發和復制,分發是目標步驟輪流接收記     錄,復制是所有的記錄被同時發送到所有的目標步驟。

3.Hop跳

跳就是步驟之間帶箭頭的連線,跳定義了步驟之間的數據通路。

跳實際上是兩個步驟之間的被稱之為行集的數據行緩存(行集的大小可以在轉換的設置里定義)。

當行集滿了,向行集寫數據的步驟將停止寫入,直到行集里又有了空間。

當行集空了,從行集讀取數據的步驟停止讀取,直到行集里又有可讀的數據行。

file

4.數據行-數據類型

數據以數據行的形式沿著步驟移動。一個數據行是零到多個字段的集合,字段包含下面幾種數據類型。
① String:字符類型數據
② Number:雙精度浮點數。
③ Integer:帶符號長整型(64位)。
④ BigNumber:任意精度數據。
⑤ Date:帶毫秒精度的日期時間值。
⑥ Boolean:取值為true和false的布爾值。
⑦ Binary:二進制字段可以包含圖像、聲音、視頻及其他類型的二進制數據。

file

5.數據行-元數據

每個步驟在輸出數據行時都有對字段的描述,這種描述就是數據行的元數據。
通常包含下面一些信息。
①  名稱:行里的字段名應用是唯一的。
②  數據類型:字段的數據類型。
③  格式:數據顯示的方式,如Integer的#、0.00。
④  長度:字符串的長度或者BigNumber類型的長度。
⑤  精度:BigNumber數據類型的十進制精度。
⑥  貨幣符號:¥
⑦  小數點符號:十進制數據的小數點格式。不同文化背景下小數點符號是不同的,一般是點(.)或逗號(,)。
⑧  分組符號:數值類型數據的分組符號,不同文化背景下數字里的分組符號也是不同的,一般是點(.)或逗號(,)    或單引號(’)

file

6.并行

跳的這種基于行集緩存的規則允許每個步驟都是由一個獨立的線程運行,這樣并發程度最高。這一規則也允許數據以最小消耗內存的數據流的方式來處理。在數據倉庫里,我們經常要處理大量數據,所以這種并發低消耗內存的方式也是ETL工具的核心需求。

對于kettle的轉換,不可能定義一個執行順序,因為所有步驟都以并發方式執行:當轉換啟動后,所有步驟都同時啟動,從它們的輸入跳中讀取數據,并把處理過的數據寫到輸入跳,直到輸入跳里不再有數據,就中止步驟的運行。當所有的步驟都中止了,整個轉換就中止了。 (要與數據流向區分開)

如果你想要一個任務沿著指定的順序執行,那么就要使用后面所講的“作業”!

csv文件輸入

//輸入:就是用來抽取數據或生成數據。
是ETL操作的E。

file

csv文件輸入

CSV文件是一種帶有固定格式的文本文件。

文本文件輸入

1.文本文件

提取日志信息的數據是開發常見的操作,日志信息基本都是文本類型。

file

一定要和文本文件里面的分隔符一樣

file

Excel輸入

1.Excel文件

微軟的Excel目前有兩種后綴名的文件分別為:xls和xlsx。
xls:2007年之前
xlsx:2007年之后

file

多文件合并

具有相同格式的文件可以合并
文件/目錄     通配符 
//文件路徑    文件名.*

file

版權聲明:原創作品,允許轉載,轉載時務必以超鏈接的形式表明出處和作者信息。否則將追究法律責任。來自海牛部落-123456789987654321,http://hainiubl.com/topics/75352
本帖已被設為精華帖!
本帖由 青牛 于 3周前 加精
回復數量: 0
    暫無評論~~
    • 請注意單詞拼寫,以及中英文排版,參考此頁
    • 支持 Markdown 格式, **粗體**、~~刪除線~~、`單行代碼`, 更多語法請見這里 Markdown 語法
    • 支持表情,可用Emoji的自動補全, 在輸入的時候只需要 ":" 就可以自動提示了 :metal: :point_right: 表情列表 :star: :sparkles:
    • 上傳圖片, 支持拖拽和剪切板黏貼上傳, 格式限制 - jpg, png, gif,教程
    • 發布框支持本地存儲功能,會在內容變更時保存,「提交」按鈕點擊時清空
    Ctrl+Enter
    上海麻将垃圾胡技巧 748565644428347838859154116663875821425427846979815262652678011173685010323998458641423340234470430 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();