Programing ng Baboy: Lumikha ng Iyong Unang Apache Pig Script



Basahin ang post sa blog na ito upang likhain ang iyong unang script ng Apache Pig. Ginagamit ang mga script ng Apache Pig upang magpatupad ng isang hanay ng mga utos ng Apache Pig nang sama-sama.

Programing ng Baboy: Lumikha ng Iyong Unang Apache Pig Script

Sa aming , matututunan natin ngayon kung paano lumikha ng isang script ng Apache Pig. Ginagamit ang mga script ng Apache Pig upang magpatupad ng isang hanay ng mga utos ng Apache Pig nang sama-sama. Nakakatulong ito sa pagbawas ng oras at pagsisikap na namuhunan sa pagsulat at manu-manong pagpapatupad ng bawat utos habang ginagawa ito sa Pig program.Ito rin ay isang mahalagang bahagi ng .Ang blog na ito ay sunud-sunod na gabay upang matulungan kang lumikha ng iyong unang script ng Apache Pig.

Mga Mode ng Pagpapatupad ng Apache Pig script

Lokal na Mode : Sa 'lokal na mode', maaari mong maisagawa ang script ng baboy sa lokal na file system. Sa kasong ito, hindi mo kailangang itago ang data sa Hadoop HDFS file system, sa halip ay maaari kang gumana sa data na nakaimbak sa mismong lokal na file system.





MapReduce Mode : Sa 'MapReduce mode', ang data ay kailangang maiimbak sa HDFS file system at maaari mong maproseso ang data sa tulong ng script ng baboy.

Apache Pig Script sa MapReduce Mode

Sabihin nating ang aming gawain ay basahin ang data mula sa isang data file at upang ipakita ang kinakailangang mga nilalaman sa terminal bilang output.



Naglalaman ang sample na file ng data ng sumusunod na data:

File ng txt ng impormasyon - Apache Pig Script - Edureka

I-save ang file ng teksto na may pangalang 'information.txt'



Ang sample na file ng data ay naglalaman ng limang mga haligi Pangalan , Huling pangalan , MobileNo , Lungsod , at Propesyon pinaghiwalay ni key ng tab . Ang aming gawain ay basahin ang nilalaman ng file na ito mula sa HDFS at ipakita ang lahat ng mga haligi ng mga talaang ito.

Upang maproseso ang data na ito gamit ang Pig, ang file na ito ay dapat na naroroon sa Apache Hadoop HDFS.

Utos : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

Hakbang 1: Pagsulat ng isang script ng Baboy

Lumikha at magbukas ng isang Apache Pig script file sa isang editor (hal. Gedit).

Utos : sudo gedit /home/edureka/output.pig

Ang utos na ito ay lilikha ng isang 'output.pig' na file sa loob ng direktoryo ng bahay ng gumagamit ng edureka.

Sumulat tayo ng ilang mga utos ng PIG sa output.pig file.

A = LOAD '/edureka/information.txt' gamit ang PigStorage (') bilang (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Propesyon: chararray) B = FOREACH Isang bumubuo ng FName, MobileNo, Profession DUMP B

I-save at isara ang file.

  • Ang unang utos ay naglo-load ng file na 'information.txt' sa variable A na may hindi direktang iskema (FName, LName, MobileNo, City, Propesyon).
  • Naglo-load ang pangalawang utos ng kinakailangang data mula sa variable A hanggang variable B.
  • Ipinapakita ng pangatlong linya ang nilalaman ng variable B sa terminal / console.

Hakbang 2: Ipatupad ang Apache Pig Script

Upang maisagawa ang script ng baboy sa HDFS mode, patakbuhin ang sumusunod na utos:

Utos : baboy / home / edureka/output.pig

Matapos matapos ang pagpapatupad, suriin ang resulta. Ipinapakita ng mga imaheng nasa ibaba ang mga resulta at ang kanilang intermediate na mapa at binabawasan ang mga pagpapaandar.

Ipinapakita ng imahe sa ibaba na matagumpay na naisakatuparan ang Script.

Ipinapakita ng larawan sa ibaba ang resulta ng aming script.

Binabati kita sa pagpapatupad ng iyong unang Apache Pig script na matagumpay!

paggamit ng scanner sa java

Ngayon alam mo na, kung paano lumikha at magpatupad ng Apache Pig script. Samakatuwid, ang aming susunod na blog sa sasaklawin kung paano lumikha ng UDF (User Defined Function) sa Apache Pig at isagawa ito sa MapReduce / HDFS mode.

Ngayon na nilikha mo at naisakatuparan ang Apache Pig Script, tingnan ang ni Edureka, isang pinagkakatiwalaang kumpanya sa pag-aaral sa online na may isang network na higit sa 250,000 nasiyahan na mga nag-aaral na kumalat sa buong mundo. Ang kurso sa Edureka Big Data Hadoop Certification Training ay tumutulong sa mga nag-aaral na maging dalubhasa sa HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume at Sqoop na gumagamit ng mga kaso ng paggamit ng real-time sa Retail, Social Media, Aviation, Turismo, Pananalapi domain.

May tanong ba sa amin? Mangyaring banggitin ito sa seksyon ng mga komento at babalikan ka namin.