Talend ETL Tool - Talend Open Studio Para sa Pagpoproseso ng Data



Ang blog na ito sa tool na Talend ETL ay nagsasalita tungkol sa isang bukas na tool na pinagmulan ng ETL - Talend para sa Pagsasama ng Data, na nagbibigay ng GUI na madaling gamitin ng tao upang maisagawa ang proseso ng ETL.

Ang pagharap sa magkakaibang data ay tiyak na isang nakakapagod na gawain, ngunit habang tumataas ang dami ng data, nakakakuha lamang ito ng mas nakakapagod. Dito makakatulong ang mga tool ng ETL sa pagbabago ng data na ito sa isang magkakatulad na data. Ngayon, ang nabagong data na ito ay madaling suriin at kunin ang kinakailangang impormasyon mula rito. Sa blog na ito sa Talend ETL, pag-uusapan ko kung paano gumagana nang labis ang Talend bilang isang ETL Tool upang magamit ang mahahalagang pananaw mula sa Big Data.

Sa blog ng Talend ETL na ito, tatalakayin ko ang mga sumusunod na paksa:





Maaari mo ring daanan ang detalyadong video tutorial na ito kung saan ang aming Ipinapaliwanag ng dalubhasa ang Talend ETL at pagproseso ng data kasama nito sa isang detalyadong pamamaraan na may malulutong na halimbawa.

Talend ETL Tutorial | Pagsasanay sa Talend Online | Edureka

Ano ang Proseso ng ETL?



Ang ETL ay nangangahulugang Extract, Transform at Load. Ito ay tumutukoy sa isang trio ng mga proseso na kinakailangan upang ilipat ang raw data mula sa pinagmulan nito sa isang data warehouse o isang database. Hayaan mong ipaliwanag ko ang bawat isa sa mga prosesong ito nang detalyado:

  1. Humugot

    Ang pagkuha ng data ay ang pinakamahalagang hakbang ng ETL na nagsasangkot sa pag-access ng data mula sa lahat ng mga Storage System. Ang mga sistema ng pag-iimbak ay maaaring ang RDBMS, mga file ng Excel, mga XML file, flat file, ISAM (Indexed Sequential Access Method), hierarchical database (IMS), visual na impormasyon atbp. Dahil ang pinakamahalagang hakbang, kailangan itong idisenyo sa paraang na hindi ito nakakaapekto nang negatibo sa mga mapagkukunan ng mapagkukunan. Tinitiyak din ng proseso ng pagkuha na ang mga parameter ng bawat item ay natukoy nang hindi isinasaalang-alang ang source system nito.

  2. Magbago

    Ang pagbabago ay ang susunod na proseso sa pipeline. Sa hakbang na ito, ang buong data ay sinusuri at iba't ibang mga pag-andar ang inilalapat dito upang ibahin iyon sa kinakailangang format. Pangkalahatan, ang mga proseso na ginamit para sa pagbabago ng data ay ang conversion, pagsala, pag-uuri, pamantayan, pag-clear ng mga duplicate, pagsasalin at pagpapatunay ng pagkakapare-pareho ng iba't ibang mga mapagkukunan ng data.

  3. Mag-load

    Ang loading ay ang pangwakas na yugto ng proseso ng ETL. Sa hakbang na ito, ang naprosesong data, ibig sabihin, ang nakuha at nabago na data, pagkatapos ay nai-load sa isang target na lalagyan ng data na karaniwang mga database. Habang ginagawa ang hakbang na ito, dapat tiyakin na ang pag-andar ng pag-load ay ginanap nang tumpak, ngunit sa pamamagitan ng paggamit ng kaunting mga mapagkukunan. Gayundin, habang ang paglo-load kailangan mong mapanatili ang integridad ng sanggunian upang hindi mo mawala ang pagkakapare-pareho ng data. Kapag na-load na ang data, maaari mong kunin ang anumang tipak ng data at madali itong ihambing sa iba pang mga tipak.

Proseso ng ETL - Talento ETL - Edureka



Ngayon na alam mo ang tungkol sa proseso ng ETL, maaaring nagtataka ka kung paano maisagawa ang lahat ng ito? Sa gayon, ang sagot ay simple gamit ang ETL Tools. Sa susunod na seksyon ng Talend ETL blog na ito, sasabihin ko tungkol sa iba't ibang magagamit na mga tool ng ETL.

Ang code ng serye ng fibonacci sa Java

Iba't ibang Mga Kasangkapan sa ETL

Ngunit bago ko pag-usapan ang tungkol sa mga tool ng ETL, unawain muna natin kung ano ang eksaktong tool ng ETL.

Tulad ng napag-usapan ko na, ang ETL ay tatlong magkakahiwalay na proseso na nagsasagawa ng iba't ibang mga pag-andar. Kapag ang lahat ng mga prosesong ito ay pinagsama sa a solong kasangkapan sa pagprograma na makakatulong sa paghahanda ng data at sa pamamahala ng iba't ibang mga database.Ang mga tool na ito ay may mga grapikong interface na ginagamit kung aling mga resulta sa pagpapabilis ng buong proseso ng pagmamapa ng mga talahanayan at haligi sa pagitan ng iba't ibang mga mapagkukunan at target na database.

Ang ilan sa mga pangunahing pakinabang ng ETL Tools ay:

  • Ito ay napaka madaling gamitin dahil tinanggal nito ang pangangailangan para sa pagsusulat ng mga pamamaraan at code.
  • Dahil ang ETL Tools ay batay sa GUI nagbibigay sila ng a visual flow ng lohika ng system.
  • Ang mga tool ng ETL ay may built-in na pag-andar sa paghawak ng error dahil kung saan mayroon sila katatagan sa pagpapatakbo .
  • Kapag nakikipag-usap sa malaki at kumplikadong data, nagbibigay ang mga tool ng ETL ng a mas mahusay na pamamahala ng data sa pamamagitan ng pagpapadali ng mga gawain at pagtulong sa iyo sa iba't ibang mga pag-andar.
  • Ang mga tool ng ETL ay nagbibigay ng isang advanced na hanay ng mga pagpapaandar sa paglilinis kumpara sa tradisyunal na mga sistema.
  • Ang mga tool ng ETL ay mayroong pinahusay na katalinuhan sa negosyo na direktang nakakaapekto sa mga desisyon sa istratehiya at pagpapatakbo.
  • Dahil sa paggamit ng mga tool ng ETL, ang binabawasan ang gastos sa pamamagitan ng maraming at ang mga negosyo ay maaaring makabuo ng mas mataas na kita.
  • Pagganap ng mga tool ng ETL ay mas mahusay dahil ang istraktura ng platform nito ay pinapasimple ang pagtatayo ng isang de-kalidad na system ng warehousing ng data.

Mayroong iba't ibang mga tool na ETL na magagamit sa merkado, na medyo popular na ginagamit. Ang ilan sa kanila ay:

Kabilang sa lahat ng mga tool na ito, sa blog na Talend ETL na ito, sasabihin ko tungkol sa kung paano ang Talend bilang isang ETL Tool.

Talend ETL Tool

Ang talentong bukas na talento para sa pagsasama ng data ay isa sa pinakamakapangyarihang tool sa pagsasama ng data na ETL na magagamit sa merkado. Hinahayaan ka ng TOS na madaling mapamahalaan ang lahat ng mga hakbang na kasangkot sa proseso ng ETL, simula sa paunang disenyo ng ETL hanggang sa pagpapatupad ng pag-load ng data ng ETL. Ang tool na ito ay binuo sa Eclipse grapikong kapaligiran sa pag-unlad. Nagbibigay sa iyo ang talento ng bukas na studio ng grapiko na kapaligiran gamit ang kung saan maaari mong madaling mapa ang data sa pagitan ng pinagmulan sa patutunguhang sistema. Ang kailangan mo lang gawin ay i-drag at i-drop ang mga kinakailangang sangkap mula sa palette sa workspace, i-configure ang mga ito at sa wakas ay ikonekta silang magkasama. Nagbibigay din ito sa iyo ng isang metadata repository mula sa kung saan madali mong magagamit muli at muling layunin ang iyong trabaho. Tiyak na makakatulong ito sa iyo na taasan ang iyong kahusayan at pagiging produktibo sa paglipas ng panahon.

Sa pamamagitan nito, maaari mong tapusin na ang Talend bukas na studio para sa DI ay nagbibigay ng isang improvised na pagsasama ng data kasama ang malakas na pagkakakonekta, madaling kakayahang umangkop at isang maayos na daloy ng proseso ng pagkuha at pagbabago.

Sa susunod na seksyon ng Talend ETL blog na ito, tingnan natin kung paano mo maisasagawa ang proseso ng ETL sa Talend.

Talend Open Studio: Pagpapatakbo ng Isang Trabaho sa ETL

Upang maipakita ang proseso ng ETL, kukuha ako ng data mula sa isang excel file, ibahin ito sa pamamagitan ng paglalapat ng isang filtersaang data at pagkatapos ay naglo-load ng bagong data sa isang database. Ang sumusunod ay ang format ng aking excel dataset:

Mula sa hanay ng data na ito, susuriin ko ang mga hilera ng data batay sa uri ng customer at iimbak ang bawat isa sa kanila sa isang iba't ibang talahanayan ng database. Upang maisagawa ito sundin ang mga hakbang sa ibaba:

HAKBANG 1: Lumikha ng isang bagong trabaho at mula sa palette, i-drag at i-drop ang mga sumusunod na sangkap:
  1. tMysqlConnection
  2. tFileExcelInput
  3. tReplicate
  4. ( tFilterRow ) X4
  5. ( tMysqlOutput ) X4

HAKBANG 2: Ikonekta ang mga sangkap nang magkasama tulad ng ipinakita sa ibaba:

HAKBANG 3: Pumunta sa bahagi ng tab ng tMysqlConnection at mula sa 'Uri ng Ari-arian' piliin kung aling uri ng koneksyon ang iyong ginagamit na Built-in o Repository. Kung gumagamit ka ng isang built-in na koneksyon pagkatapos ay kailangan mong tukuyin ang mga sumusunod na detalye:
  1. Host
  2. Port
  3. Database
  4. Username
  5. Password

Ngunit kung gumagamit ka ng isang koneksyon sa Repository pagkatapos ay kukunin nito ang mga detalye bilang default mula sa Repository.

HAKBANG 4: Mag-double click sa tFileInputExcel at sa tab na bahagi nito tukuyin ang landas ng iyong pinagmulang file, bilang ng mga hilera na ginamit para sa header sa patlang na 'Header' at bilang ng haligi mula sa kung saan dapat magsimulang basahin ng Talend ang iyong data sa 'Unang Haligi 'patlang. Sa disenyo ng 'I-edit ang schema' ang iskema ayon sa iyong file ng data.

HAKBANG 5 :Sa tab na bahagi ng tReplicate, mag-click sa 'Mga haligi ng pag-sync'.

HAKBANG 6: Pumunta sa bahagi ng tab ng unang tFilterRow at suriin ang iskema. Ayon sa iyong kundisyon, maaari mong piliin ang (mga) haligi at tukuyin ang pagpapaandar, operator at ang halaga kung aling ang data ay dapat na-filter.

HAKBANG 7: Ulitin ang pareho para sa lahat ng mga bahagi ng tFilterRow.

HAKBANG 8: Panghuli, sa tab na sangkap ng tMysqlOutput, suriin ang marka sa 'Gumamit ng isang mayroon nang koneksyon'. Pagkatapos ay tukuyin ang pangalan ng talahanayan sa patlang na 'Talaan' at piliin ang 'Pagkilos sa talahanayan' at 'Pagkilos sa data' ayon sa kinakailangan.

HAKBANG 9: Ulitin ang pareho para sa lahat ng mga bahagi ng tMysqlOutput.

HAKBANG 10: Kapag tapos na, pumunta sa tab na 'Run' at ipatupad ang trabaho.

Dinadala tayo nito sa pagtatapos ng blog na ito sa Talend ETL. Tatapusin ko ang blog na ito sa isang simpleng pag-iisip na dapat mong sundin:

'Ang kinabukasan ay pag-aari ng mga makakontrol sa kanilang data'

Kung nakita mo ang Talend ETL na ito blog, nauugnay, tingnan ang ni Edureka, isang pinagkakatiwalaang kumpanya sa pag-aaral sa online na may isang network na higit sa 250,000 nasiyahan na mga nag-aaral na kumalat sa buong mundo. Ang kurso sa Edureka Talend para sa DI at Big Data Certification Training ay tumutulong sa iyo na makabisado ang Talend at Big Data Integration Platform at madaling maisama ang lahat ng iyong data sa iyong Data Warehouse at Mga Aplikasyon, o maiugnay ang data sa pagitan ng mga system. May tanong ba sa amin? Mangyaring banggitin ito sa seksyon ng mga komento at babalikan ka namin.