Informatica ETL: Isang Gabay ng Baguhan Upang Maunawaan ang ETL Gamit ang Informatica PowerCenter



Pag-unawa sa mga konsepto ng Informatica ETL at sa iba't ibang mga yugto ng proseso ng ETL at pagsasanay ng isang kaso ng paggamit na kinasasangkutan ng database ng empleyado.

Ang layunin ng Informatica ETL ay upang maibigay ang mga gumagamit, hindi lamang isang proseso ng pagkuha ng data mula sa mga source system at dalhin ito sa warehouse ng data, ngunit magbigay din sa mga gumagamit ng isang karaniwang platform upang isama ang kanilang data mula sa iba't ibang mga platform at application.Ito ay humantong sa isang pagtaas sa demand para sa .Bago namin pag-usapan ang tungkol sa Informatica ETL, ipaalam muna sa atin kung bakit kailangan natin ng ETL.

Bakit Kailangan Namin ang ETL?

Ang bawat kumpanyamga araw na ito ay kailangang iproseso ang malalaking hanay ng data mula sa iba`t ibang mga mapagkukunan. Kailangang maproseso ang data na ito upang makapagbigay ng kaalaman sa kaalaman sa paggawa ng mga desisyon sa negosyo. Ngunit, madalas na ang gayong data ay may mga sumusunod na hamon:





  • Ang mga malalaking kumpanya ay bumubuo ng maraming data at ang nasabing malaking tipak ng data ay maaaring nasa anumang format. Magiging magagamit ang mga ito sa maraming mga database at maraming hindi istrakturang mga file.
  • Ang data na ito ay dapat na kolektahin, pagsamahin, ihambing, at gawin upang gumana bilang isang seamless kabuuan. Ngunit ang iba't ibang mga database ay hindi nakikipag-usap nang maayos!
  • Maraming mga samahan ang nagpatupad ng mga interface sa pagitan ng mga database na ito, ngunit naharap nila ang mga sumusunod na hamon:
    • Ang bawat pares ng mga database ay nangangailangan ng isang natatanging interface.
    • Kung binago mo ang isang database, maraming mga interface ang maaaring na-upgrade.

Makikita mo sa ibaba ang iba't ibang mga database ng isang organisasyon at kanilang mga pakikipag-ugnayan:

Iba

Iba't ibang Mga Database na ginamit ng iba't ibang mga kagawaran ng isang samahan



Iba't ibang Pakikipag-ugnayan ng Mga Databases sa isang Organisasyon

Tulad ng nakikita sa itaas, ang isang organisasyon ay maaaring may iba't ibang mga database sa iba't ibang mga kagawaran at ang pakikipag-ugnayan sa pagitan ng mga ito ay nagiging mahirap ipatupad dahil ang iba't ibang mga interface ng pakikipag-ugnayan ay dapat na likhain para sa kanila. Upang mapagtagumpayan ang mga hamon na ito, ang pinakamahusay na posibleng solusyon ay sa pamamagitan ng paggamit ng mga konsepto ng Pagsasama ng Data na magpapahintulot sa data mula sa iba't ibang mga database at format na makipag-usap sa bawat isa. Tinutulungan kami ng figure sa ibaba na maunawaan, kung paano ang tool ng Pagsasama ng Data ay nagiging isang karaniwang interface para sa komunikasyon sa pagitan ng iba't ibang mga database.

Iba't ibang Mga Databases na konektado sa pamamagitan ng Pagsasama ng Data



Ngunit may iba't ibang mga proseso na magagamit upang maisagawa ang Pagsasama ng Data. Kabilang sa mga prosesong ito, ang ETL ay ang pinakamainam, mahusay at maaasahang proseso. Sa pamamagitan ng ETL, ang gumagamit ay hindi lamang maaaring magdala ng data mula sa iba't ibang mga mapagkukunan, ngunit maaari nilang maisagawa ang iba't ibang mga operasyon sa data bago itago ang data na ito hanggang sa huling target.

Kabilang sa iba't ibang magagamit na mga tool ng ETL na magagamit sa merkado, ang Informatica PowerCenter ang nangungunang platform ng pagsasama ng data ng merkado. Ang pagkakaroon ng pagsubok sa halos 500,000 mga kumbinasyon ng mga platform at application, ang Informatica PowerCenter inter ay nagpapatakbo sa pinakamalawak na posibleng saklaw ng magkakaibang mga pamantayan, system, at application. Ipaunawa sa amin ngayon ang mga hakbang na kasangkot sa proseso ng Informatica ETL.

Informatics ETL | Informatica Architecture | Informatica PowerCenter Tutorial | Edureka

Ang Edureka Informatica tutorial na ito ay tumutulong sa iyo na maunawaan ang mga pangunahing kaalaman ng ETL gamit ang Informatica Powercenter nang detalyado.

Mga Hakbang sa Proseso ng Informatica ETL:

Bago kami lumipat sa iba't ibang mga hakbang na kasangkot sa Informatica ETL, Magkaroon kami ng isang pangkalahatang ideya ng ETL. Sa ETL, ang Extraction ay kung saan ang data ay nakuha mula sa magkakatulad o magkakaiba mga mapagkukunan ng data, Pagbabago kung saan ang data ay binago para sa pagtatago sa tamang format o istraktura para sa mga layunin ng pag-query at pag-aaral at Paglo-load kung saan ang data ay na-load sa huling target na database, pagpapatakbo ng data store, data mart, o data warehouse. Tutulungan ka ng imahe sa ibaba na maunawaan kung paano nagaganap ang proseso ng Informatica ETL.

Pangkalahatang-ideya ng Proseso ng ETL

Tulad ng nakikita sa itaas, ang Informatica PowerCenter ay maaaring mag-load ng data mula sa iba't ibang mga mapagkukunan at iimbak ang mga ito sa isang solong bodega ng data. Ngayon, tingnan natin ang mga hakbang na kasangkot sa proseso ng Informatica ETL.

Pangunahin ang 4 na mga hakbang sa proseso ng Informatica ETL, ipaalam sa amin ngayon na maunawaan ang mga ito:

  1. I-extract o Kunan
  2. Scrub o Malinis
  3. Magbago
  4. Load at Index

1. I-extract o Kunan: Tulad ng nakikita sa imahe sa ibaba, ang Capture o Extract ay ang unang hakbang ng proseso ng Informatica ETL.Ito ang proseso ng pagkuha ng isang snapshot ng napiling subset ng data mula sa pinagmulan, na dapat mai-load sa warehouse ng data. Ang snapshot ay isang read-only static na pagtingin sa data sa database. Ang proseso ng Exact ay maaaring may dalawang uri:

  • Buong katas: Ganap na nakuha ang data mula sa pinagmulang system at hindi na kailangang subaybayan ang mga pagbabago sa pinagmulan ng data mula noong huling matagumpay na pagkuha.
  • Karagdagang katas: Makakakuha lamang ito ng mga pagbabagong naganap mula noong huling buong katas.

Phase 1: Extract o Capture

2. Scrub o Malinis: Ito ang proseso ng paglilinis ng data na nagmumula sa pinagmulan sa pamamagitan ng paggamit ng iba't ibang pagkilala sa pattern at mga diskarte sa AI upang mai-upgrade ang kalidad ng data na isulong. Karaniwan, ang mga error tulad ng maling pagbaybay, maling mga petsa, maling paggamit ng patlang, hindi tumutugma na mga address, nawawalang data, duplicate na data, hindi pagkakapare-parehonaka-highlight at pagkatapos ay naitama o tinanggalsa hakbang na ito Gayundin, ang mga pagpapatakbo tulad ng pag-decode, pag-format muli, pag-stamping ng oras, pag-convert, pangunahing henerasyon, pagsasama, pagtuklas ng error / pag-log, paghanap ng nawawalang data ay tapos na sa hakbang na ito. Tulad ng nakikita sa imahe sa ibaba, ito ang pangalawang hakbang ng proseso ng Informatica ETL.

Phase 2: Pag-scrub o Paglilinis ng data

3. Pagbabago: Tulad ng nakikita sa imahe sa ibaba, ito ang pangatlo at pinakamahalagang hakbang ng proseso ng Informatica ETL. Ang Transformations ay ang pagpapatakbo ng pag-convert ng data mula sa format ng source system sa balangkas ng Data Warehouse. Ang isang Pagbabago ay karaniwang ginagamit upang kumatawan sa isang hanay ng mga patakaran, na tumutukoy sa daloy ng data at kung paano ang data ay na-load sa mga target. Upang malaman ang tungkol sa Pagbabago, suriin Mga Pagbabagong-anyo sa Informatica Blog.

Phase 3: Pagbabago

4. Load at Index: Ito ang huling hakbang ng proseso ng Informatica ETL tulad ng nakikita sa imahe sa ibaba. Sa yugtong ito, inilalagay namin ang nabago na data sa warehouse at lumikha ng mga index para sa data. Mayroong dalawang pangunahing mga uri ng pag-load ng data na magagamit batay sa proseso ng pag-load .:

  • Buong Load o Bulk na Pag-load :Ang proseso ng paglo-load ng data kapag ginagawa namin ito sa pinakaunang pagkakataon. Ang trabaho ay kumukuha ng buong dami ng data mula sa isang pinagmulan ng talahanayan at naglo-load sa target na warehouse ng data pagkatapos mailapat ang kinakailangang mga pagbabago. Ito ay magiging isang beses na pinatakbo ng trabaho pagkatapos mag-iisa ang mga pagbabago ay makukuha bilang bahagi ng isang dagdag na katas.
  • Karagdagang pag-load o pag-refresh ng pag-load : Ang nabagong data lamang ay maa-update sa target na sinusundan ng buong pagkarga. Ang mga pagbabago ay makukuha sa pamamagitan ng paghahambing ng nilikha o nabagong petsa laban sa huling petsa ng pagpapatakbo ng trabaho.Ang binagong data lamang na nakuha mula sa pinagmulan at maa-update sa target nang hindi nakakaapekto sa umiiral na data.

Phase 4: Load at Index

Kung naintindihan mo ang proseso ng Informatica ETL, nasa mas mahusay na posisyon kami ngayon upang pahalagahan kung bakit ang Informatica ang pinakamahusay na solusyon sa mga ganitong kaso.

Mga tampok ng Informatica ETL:

Para sa lahat ng pagsasama ng Data at pagpapatakbo ng ETL, binigyan kami ng Informatica Informatica PowerCenter . Tingnan natin ngayon ang ilang mga pangunahing tampok ng Informatica ETL:

  • Nagbibigay ng pasilidad upang tukuyin ang isang malaking bilang ng mga patakaran sa pagbabago na may isang GUI.
  • Bumuo ng mga programa upang ibahin ang data.
  • Pangasiwaan ang maramihang mga mapagkukunan ng data.
  • Sinusuportahan ang pagkuha ng data, paglilinis, pagsasama-sama, muling pagsasaayos, pagbabago, at pagpapatakbo ng pag-load.
  • Awtomatikong bumubuo ng mga programa para sa pagkuha ng data.
  • Mabilis na pag-load ng mga target na warehouse ng data.

Nasa ibaba ang ilan sa mga tipikal na sitwasyon kung saan ginagamit ang Informatica PowerCenter:

  1. Paglipat ng Data:

Ang isang kumpanya ay bumili ng isang bagong Application na Bayad na Mga Account para sa departamento ng mga account. Maaaring ilipat ng PowerCenter ang mayroon nang data ng account sa bagong application. Tutulungan ka ng figure sa ibaba na maunawaan kung paano mo magagamit ang Informatica PowerCenter para sa Paglipat ng data. Madaling mapangalagaan ng Informatica PowerCenter ang linya ng data para sa buwis, accounting, at iba pang mga layuning ligal na inatasan sa panahon ng proseso ng paglipat ng data.

Paglipat ng Data mula sa isang application ng Mas Matandang Accounting sa isang bagong Application

  1. Pagsasama ng Application:

Sabihin nating binili ng Kumpanya-A ang Kumpanya-B. Kaya, upang makamit ang mga benepisyo ng pagsasama-sama, ang sistema ng pagsingil ng Company-B ay dapat na isama sa sistema ng pagsingil ng Company-A na maaaring madaling gawin gamit ang Informatica PowerCenter. Ang figure sa ibaba ay makakatulong sa iyo na maunawaan kung paano mo magagamit ang Informatica PowerCenter para sa pagsasama ng mga aplikasyon sa pagitan ng mga kumpanya.

Pagsasama ng Application sa pagitan ng Mga Kumpanya

  1. Pagbebenta ng data

Karaniwang mga pagkilos na kinakailangan sa mga warehouse ng data ay:

  • Pagsasama-sama ng impormasyon mula sa maraming mga mapagkukunan nang magkasama para sa pagtatasa.
  • Paglipat ng data mula sa maraming mga database sa bodega ng Data.

Ang lahat ng mga karaniwang kaso sa itaas ay madaling maisagawa gamit ang Informatica PowerCenter. Sa ibaba, makikita mo ang Informatica PowerCenter na ginagamit upang pagsamahin ang data mula sa iba't ibang mga uri ng mga database tulad ng Oracle, SalesForce, atbp at dalhin ito sa isang karaniwang warehouse ng data na nilikha ng Informatica PowerCenter.

Data Mula sa iba't ibang mga database na isinama sa isang karaniwang Data warehouse

  1. Middleware

Sabihin nating isang organisasyon sa tingi ang gumagamit ng SAP R3 para sa mga aplikasyon sa Retail at SAP BW bilang bodega ng data nito. Ang isang direktang komunikasyon sa pagitan ng dalawang application na ito ay hindi posible dahil sa kakulangan ng isang interface ng komunikasyon. Gayunpaman, ang Informatica PowerCenter ay maaaring magamit bilang isang Middleware sa pagitan ng dalawang application na ito. Sa imahe sa ibaba makikita mo ang arkitektura kung paano ginagamit ang Informatica PowerCenter bilang middleware sa pagitan ng SAP R / 3 at SAP BW. Ang mga Aplikasyon mula sa SAP R / 3 ay inililipat ang kanilang data sa balangkas ng ABAP na pagkatapos ay ilipat ito saAng SAP Point of Sale (POS) at SAPMga Sining ng Mga Serbisyo (BOS). Tinutulungan ng Informatica PowerCenter ang paglipat ng data mula sa mga serbisyong ito sa SAP Business Warehouse (BW).

Ang Informatica PowerCenter bilang Middleware sa SAP Retail Architecture

Habang nakakita ka ng ilang mga pangunahing tampok at tipikal na mga sitwasyon ng Informatica ETL, inaasahan kong maunawaan mo kung bakit ang Informatica PowerCenter ang pinakamahusay na tool para sa proseso ng ETL. Tingnan natin ngayon ang isang kaso ng paggamit ng Informatica ETL.

Gumamit ng Kaso: Pagsali sa Dalawang talahanayan upang makakuha ng isang solong detalyadong Talahanayan

Sabihin nating nais mong magbigay ng matalinong transportasyon sa kagawaran sa iyong mga empleyado dahil ang mga kagawaran ay matatagpuan sa iba't ibang mga lokasyon. Upang gawin ito, unang kailangan mong malaman kung aling Kagawaran ang bawat empleyado ay kabilang at lokasyon ng departamento. Gayunpaman, ang mga detalye ng mga empleyado ay nakaimbak sa iba't ibang mga talahanayan at kailangan mong sumali sa mga detalye ng Kagawaran sa isang mayroon nang database na may mga detalye ng lahat ng mga empleyado. Upang magawa ito, unang mai-load namin ang parehong mga talahanayan sa Informatica PowerCenter, na ginaganap ang Transformation ng Source Qualifier sa data at sa wakas ay nilo-load ang mga detalye sa Target Database.Tayo na't magsimula:

Hakbang 1 : Buksan ang PowerCenter Designer.

Nasa ibaba ang Home page ng Informatica PowerCenter Designer.

Ikonekta natin ngayon sa lalagyan. Kung sakaling hindi mo na-configure ang iyong mga repository o nahaharap ka sa anumang mga isyu maaari mong suriin ang aming Blog.

sertipikadong tagapangasiwa ng cloudera para sa apache hadoop

Hakbang 2: Mag-right click sa iyong repository at piliin ang opsyong kumonekta.

Sa pag-click sa pagpipiliang kumonekta, sasabihan ka ng screen sa ibaba, na humihiling para sa iyong imbakan na username at password.

Sa sandaling nakakonekta ka sa iyong imbakan, kailangan mong buksan ang iyong gumaganang folder tulad ng nakikita sa ibaba:

Sasabihan ka ng pagtatanong ng pangalan ng iyong pagmamapa. Tukuyin ang pangalan ng iyong pagmamapa at mag-click sa OK (Pinangalanan ko ito bilang m-EMPLOYEE ).

Hakbang 3: I-load natin ngayon ang Mga Talahanayan mula sa Database, Magsimula sa pamamagitan ng pagkonekta sa Database. Upang magawa ito, piliin ang tab na Mga mapagkukunan at Mag-import mula sa pagpipilian sa Database tulad ng nakikita sa ibaba:

Sa pag-click sa I-import mula sa Database, sasabihan ka ng screen tulad ng sa ibaba na nagtatanong ng mga detalye ng iyong Database at ang Username at Password nito para sa koneksyon (Gumagamit ako ng oracle database at HR user).

Mag-click sa Connect upang kumonekta sa iyong database.

Hakbang 4: Tulad ng nais kong sumali sa EMPLOYEES at Kagawaran mga talahanayan, pipiliin ko ang mga ito at mag-click sa OK.
Makikita ang mga mapagkukunan sa iyong workspace ng taga-disenyo ng pagmamapa tulad ng nakikita sa ibaba.

Hakbang 5: Katulad nito I-load ang Target na Talahanayan sa Pagma-map.

Hakbang 6: Ipa-link sa amin ngayon ang kwalipikado ng Source at ang target na talahanayan. Mag-right click sa anumang blangko na lugar ng workspace at piliin ang Autolink tulad ng nakikita sa ibaba:

Nasa ibaba ang pagmamapa na naka-link ng Autolink.

paraan ng overloading at overriding sa java

Hakbang 7: Tulad ng kailangan naming i-link ang parehong mga talahanayan sa Source Qualifier, piliin ang mga haligi ng talahanayan ng Kagawaran at i-drop ito sa Source Qualifier tulad ng nakikita sa ibaba:

I-drop ang mga haligi ng haligi sa Source Qualifier SQ_EMPLOYEES .

Nasa ibaba ang na-update na Source Qualifier.

Hakbang 8: Mag-double click sa Source Qualifier upang mai-edit ang pagbabago.

Makakakuha ka ng pag-edit sa Pag-edit ng Pagbabago tulad ng nakikita sa ibaba. Mag-click sa tab na Mga Katangian.

Hakbang 9: Sa ilalim ng tab na Mga Katangian, Mag-click sa Halaga ng patlang ng UserDefined Sumali sa hilera.

Makukuha mo ang sumusunod na SQL Editor:

Hakbang 10: Pasok EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID bilang kundisyon upang sumali sa parehong mga talahanayan sa patlang ng SQL at mag-click sa OK.

Hakbang 11: Ngayon mag-click sa hilera ng SQL Query upang makabuo ng SQL para sa pagsali tulad ng nakikita sa ibaba:

Makukuha mo ang sumusunod na SQL Editor, Mag-click sa Bumuo ng SQL na pagpipilian.

Ang sumusunod na SQL ay mabubuo para sa kundisyong tinukoy namin sa nakaraang hakbang. Mag-click sa OK.

Hakbang 12: Mag-click sa Ilapat at OK.

Nasa ibaba ang nakumpletong pagmamapa.

Nakumpleto namin ang pagdidisenyo ng kung paano dapat ilipat ang data mula sa mapagkukunan patungo sa target. Gayunpaman, ang aktwal na paglipat ng data ay hindi pa rin mangyayari at para doon kailangan naming gamitin ang PowerCenter Workflow Design. Ang pagpapatupad ng daloy ng trabaho ay hahantong sa paglipat ng data mula sa mapagkukunan patungo sa target. Upang malaman ang higit pa tungkol sa daloy ng trabaho, suriin ang aming Informatica Tutorial: Workflow Blog

Hakbang 13: Linilunsad namin ngayon ang Workflow Manager sa pamamagitan ng pag-click sa icon na W tulad ng nakikita sa ibaba:

Nasa ibaba ang home page ng taga-disenyo ng daloy ng trabaho.

Hakbang 14: Lumikha tayo ngayon ng isang bagong Workflow para sa aming pagmamapa. Mag-click sa tab na Workflow at piliin ang Lumikha ng Pagpipilian.

Makukuha mo ang pop-up sa ibaba. Tukuyin ang pangalan ng iyong daloy ng trabaho at mag-click sa OK.

Hakbang 15 : Kapag nilikha ang isang daloy ng trabaho, nakukuha namin ang Start Icon sa workspace ng Workflow Manager.

Magdagdag tayo ngayon ng isang bagong Session sa workspace tulad ng nakikita sa ibaba sa pamamagitan ng pag-click sa icon ng session at pag-click sa workspace:

Mag-click sa workspace upang ilagay ang icon ng Session.

Hakbang 16: Habang idinaragdag ang session kailangan mong piliin ang Pagma-map na iyong nilikha at na-save sa mga hakbang sa itaas. (Nai-save ko ito bilang m-EMPLOYEE).

Nasa ibaba ang workspace pagkatapos idagdag ang icon ng session.

Hakbang 17 : Ngayon na nakalikha ka ng isang bagong Session, kailangan naming i-link ito sa panimulang gawain. Maaari nating gawin ito sa pamamagitan ng pag-click sa icon ng Link Task tulad ng nakikita sa ibaba:

Mag-click sa icon ng Simula muna at pagkatapos ay sa icon ng Session upang magtatag ng isang link.

petsa datatype sa halimbawa ng sql

Nasa ibaba ang isang konektadong daloy ng trabaho.

Hakbang 18: Ngayong nakumpleto na namin ang disenyo, simulan natin ang daloy ng trabaho. Mag-click sa tab na Workflow at piliin ang opsyong Start Startflow.

Ang manager ng Workflow ay nagsisimula sa Monitor ng Workflow.

Hakbang 19 : Kapag nasimulan na namin ang daloy ng trabaho, awtomatikong ilulunsad ang Workflow ManageratPinapayagan kang subaybayan ang pagpapatupad ng iyong daloy ng trabaho. Sa ibaba makikita mo ang Workflow Monitor na nagpapakita ng katayuan ng iyong daloy ng trabaho.

Hakbang 20: Upang suriin ang katayuan ng daloy ng trabaho, mag-right click sa daloy ng trabaho at piliin ang Get Run Properties tulad ng nakikita sa ibaba:

Piliin ang tab na Mga Pinagmulan / Target na Istatistika.

Sa ibaba makikita mo ang bilang ng mga hilera na nailipat sa pagitan ng mapagkukunan at target pagkatapos ng pagbabago.

Maaari mo ring i-verify ang iyong resulta sa pagsuri sa iyong target na talahanayan tulad ng nakikita sa ibaba.

Inaasahan kong ang Informatica ETL blog na ito ay kapaki-pakinabang upang maitaguyod ang iyong pag-unawa sa mga konsepto ng ETL gamit ang Informatica at lumikha ng sapat na interes para sa iyo upang matuto nang higit pa tungkol sa Informatica.

Kung nakita mong kapaki-pakinabang ang blog na ito, maaari mo ring suriin ang aming serye sa blog ng Informatica Tutorial , Tutorial sa Informatica: Pag-unawa sa Informatica na 'Inside Out' at Mga Pagbabago ng Informatica: Ang Puso at Kaluluwa ng Informatica PowerCenter . Kung sakaling naghahanap ka ng mga detalye sa Certatica Certification, maaari mong suriin ang aming blog Certatica Certification: Lahat ng dapat malaman .

Kung napagpasyahan mong kunin ang Informatica bilang isang karera, inirerekumenda ko sa iyo na tingnan ang aming pahina ng kurso. Ang pagsasanay sa Certatica Certification sa Edureka ay gagawin kang dalubhasa sa Informatica sa pamamagitan ng mga session na pinamumunuan ng live na instruktor at pagsasanay na hands-on gamit ang mga kaso ng paggamit ng totoong buhay.