Sa artikulong ito sa Paano Gumawa Cluster Sa Amazon EMR makikita namin kung paano madaling Patakbuhin at Kaliskis ang mga aplikasyon ng Hadoop at Big Data. Saklaw ang artikulong ito sa artikulong ito,
Nagpapatuloy sa ito Paano Gumawa ng Hadoop Cluster Sa Amazon EMR?
Paano Lumikha ng Hadoop Cluster Sa Amazon EMR?
Kapag naghahanap kami para sa isang bagay sa Google o Yahoo, nakakakuha kami ng tugon sa isang maliit na segundo. Paano posible na ibalik ng Google, Yahoo at iba pang mga search engine ang mga resulta nang napakabilis mula sa lumalaking web? Ang mga search engine ay gumagapang sa pamamagitan ng internet, i-download ang mga webpage at lumikha ng isang index tulad ng ipinakita sa ibaba. Para sa anumang query mula sa amin, ginagamit nila ang index upang malaman kung ano ang lahat ng mga web page na naglalaman ng teksto na aming hinahanap. Sa pamamagitan ng pagtingin sa index sa ibaba sa kanang bahagi, malinaw na malalaman natin na ang Hadoop ay mayroong web page 1, 2 at 3.
Pagkatapos, ang Algorithm ng PageRanking ay ginagamit na kung saan ay batay sa kung paano nakakonekta ang mga pahina upang malaman kung aling pahina ang ipapakita sa tuktok at alin sa ibaba. Sa senaryong nasa ibaba ang W1 ay ang 'pinakatanyag' sapagkat ang lahat ay nagli-link dito at ang W4 ang 'hindi gaanong popular' dahil walang nag-uugnay dito. Kaya, ang W1 ay ipinapakita sa itaas at W4 sa ibaba sa mga resulta ng paghahanap.
Sa pagsabog ng mga web page ang mga search engine na ito ay nakakahanap ng mga hamon upang lumikha ng index at gawin ang mga kalkulasyon ng PageRanking. Dito naganap ang pagsilang ng Hadoop sa Yahoo at kalaunan ay naging FOSS (Libre at Open Source Software) sa ilalim ng ASF (Apache Software Foundation). Kapag nasa ilalim ng ASF maraming mga kumpanya ang nagsimulang magkaroon ng interes sa Hadoop at nagsimulang mag-ambag upang mapabuti ito. Ang Hadoop ang nagsimula sa rebolusyon ng Big Data, ngunit maraming iba pang mga software tulad ng Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume ay nagsimulang umunlad upang matugunan ang mga limitasyon at puwang sa Hadoop.
Ang mga search engine sa web ay ang mga unang gumamit ng Hadoop, ngunit kalaunan maraming mga case ng paggamit ang nagsimulang umunlad habang maraming data ang nabuo. Gawin nating halimbawa ang isang application ng eCommerce na ginamit para sa pagrerekomenda ng mga libro sa gumagamit. Tulad ng nasa diagram sa ibaba, bumili ang user1 ng book1, book2 at book3, bumili ang user2 ng ilang mga libro at iba pa. Sa pagtingin nang mabuti, maaari nating obserbahan na ang user1 at user2 ay may katulad na lasa sa kanilang pagbili ng book1 at book2. Kaya, maaaring irekomenda ang book3 sa user2 at maaaring irekomenda ang book4 sa user1. Tinatawag itong Collaborative Filtering, isang uri ng algorithm ng Pag-aaral ng Machine. Maaari nating i-flip ang diagram sa ibaba at makakuha ng mga katulad na libro.
Sa kaso sa itaas ay lumikha kami ng index, PageRanked at inirekumenda sa gumagamit, ang laki ng data ay maliit at sa gayon ay nai-visualize namin ang data at hinuha ang ilang mga resulta mula rito. Habang ang laki ng data ay nakakakuha ng mas malaking pang-araw-araw at wala sa kontrol, dito nagkakaroon ng larawan ang mga tool ng Big Data tulad ng Hadoop.
Malulutas ng Hadoop ang maraming mga problema, ngunit ang pag-install ng Hadoop at iba pang software ng Big Data ay hindi kailanman naging isang madaling gawain. Mayroong maraming mga parameter ng pagsasaayos upang mag-tweak, tulad ng mga isyu sa pagsasama, pag-install at pagsasaayos upang gumana. Dito nagsisilbi ang mga kumpanya tulad ng Cloudera, at tulong ang Databricks. Ginagawa nilang mas madali ang pag-install ng Big Data software at nagbibigay ng suporta sa komersyo, halimbawa sabihin nating may nangyari sa paggawa. Ginagawa ng Amazon EMR (Elastic MapReduce) ang kadalian sa paggamit ng Hadoop atbp mas madali. Ang pangalang Elastic MapReduce ay isang maliit na maling pagsasalita dahil sinusuportahan din ng EMR ang iba pang mga ipinamamahaging mga modelo ng computing tulad ng Resilient Distraced Datasets at hindi lamang MapReduce.
Sa tutorial na ito, susuriin namin kung paano mag-set up ng isang kumpol ng EMR sa AWS Cloud at sa paparating na tutorial, tuklasin namin kung paano patakbuhin ang Spark, Hive at iba pang mga programa sa tuktok nito.
Nagpapatuloy sa ito Paano Gumawa ng Hadoop Cluster Sa Amazon EMR?
Demo: Lumilikha ng isang EMR Cluster sa AWS
Hakbang 1: Pumunta sa EMR Management Console at mag-click sa 'Lumikha ng kumpol'. Sa console, ang metadata para sa winakasan ang kumpol ay nai-save din para sa dalawang buwan nang libre. Pinapayagan nitong ma-clone at malikha muli ang natapos na cluster.
Hakbang 2 : Mula sa mabilis na pagpipilian ng mga pagpipilian, mag-click sa 'Pumunta sa mga advanced na pagpipilian' upang tukuyin ang mas maraming mga detalye tungkol sa kumpol.
Hakbang 3: Sa tab na Mga Advanced na Pagpipilian, maaari kaming pumili ng iba't ibang software na mai-install sa EMR cluster. Para sa isang interface ng SQL, maaaring mapili ang Hive. Para sa isang interface ng wika ng daloy ng data, maaaring mapili ang Baboy. Para sa ipinamamahagi ng koordinasyon ng application na ZooKeeper ay maaaring mapili at iba pa. Pinapayagan ka rin ng tab na ito na magdagdag ng mga hakbang, na isang opsyonal na gawain. Ang mga hakbang ay ang mga trabaho sa pagpoproseso ng Big Data gamit ang MapReduce, Pig, Hive atbp. Maaari silang maidagdag sa tab na ito o sa paglaon sa sandaling nalikha ang kumpol. Mag-click sa 'Susunod' upang mapili ang kinakailangang Hardware para sa kumpol ng EMR.
Hakbang 4: Sinusundan ng Hadoop ang arkitekturang master-worker kung saan ginagawa ng master ang lahat ng koordinasyon tulad ng pag-iskedyul at pagtatalaga ng trabaho at pag-check sa kanilang pag-unlad, habang ginagawa ng mga manggagawa ang aktwal na gawain ng pagproseso at pag-iimbak ng data. Ang isang solong master ay isang Single-Point-Of-Failure (SPOF). Sinusuportahan ng Amazon EMR ang multi-master para sa Mataas na Pagiging Magagamit (HA). Pinapayagan ng nakaraang hakbang na mag-set up ng isang multi-master cluster sa EMR.
Pinapayagan ng EMR ang dalawang uri ng mga node, Core at Gawain. Ginagamit ang core node para sa parehong pagproseso at pag-iimbak ng data, ginagamit ang node ng gawain para sa pagproseso lamang ng data. Para sa tutorial na ito, maaari lamang kaming pumili ng isang Core at walang mga Task node dahil nagsasangkot ito ng mas kaunting gastos para sa amin. Gayundin, pumili Mga pagkakataon ng spot tapos na On-Demand dahil ang mga pagkakataon ng Spot ay mas mura. Ang catch sa mga pagkakataon ng Spot ay maaari silang wakasan ng AWS awtomatikong may a dalawang minutong paunawa . Mabuti ito para sa kapakanan ng pagsasanay at sa ilang mga aktwal na sitwasyon din. Awtomatikong winakasan ang mga pagkakataon ng spot dahil mababa ang kanilang prayoridad kaysa sa ibang mga uri ng halimbawa. Mag-click sa 'Susunod'.
Hakbang 5: Tukuyin ang pangalan ng Cluster. at mag-click sa 'Susunod'. Pansinin na ang 'Proteksyon sa pagwawakas' ay na-on bilang default, tinitiyak nito na ang EMR cluster ay hindi na-aksidenteng natanggal sa pamamagitan ng pagpapakilala ng ilang mga hakbang habang tinatapos ang kumpol.
Hakbang 6: Sa tab, ang iba't ibang mga pagpipilian sa seguridad para sa kumpol ng EMR ay tinukoy. Kailangang mapili ang KeyPair para sa pag-log in sa halimbawa ng EC2. Awtomatikong lilikha ang EMR ng mga naaangkop na tungkulin at Mga Pangkat ng Seguridad at ilakip ang mga ito sa master at manggagawa EC2 node. Mag-click sa 'Lumikha ng kumpol'.
Ang paglikha ng kumpol ay tumatagal ng ilang minuto dahil ang mga pagkakataon ng EC2 ay dapat na mabili at ang iba't ibang mga Big Data softwares ay dapat na mai-install at mai-configure. Sa una ang katayuan ng kumpol ay nasa estado na 'Nagsisimula' at magpatuloy sa estado na 'Naghihintay'. Sa estado na 'Naghihintay' ang kumpol ng EMR ay naghihintay lamang sa amin upang magsumite ng iba't ibang mga trabaho sa pagpoproseso ng Big Data tulad ng MR, Spark, Hive atbp.
Gayundin, abiso mula sa EC2 Management Console at tandaan na ang master at manggagawa EC2 na mga pagkakataon ay dapat na nasa isang tumatakbo na estado. Ito ang mga pagkakataon ng Spot na nilikha bilang bahagi ng paglikha ng cluster ng EMR. Ang parehong EC2 ay maaaring sundin mula sa tab na Hardware sa EMR Management Console din. Tandaan na sa tab na Hardware ang presyo para sa mga pagkakataong Spot EC2 ay nabanggit bilang 0.032 $ / oras. Ang presyo ng mga pagkakataong Spot ay patuloy na nagbabago sa oras at mas mababa kaysa sa pagpepresyo ng On-Demand EC2.
Hakbang 7: Ngayon na ang EMR cluster ay matagumpay na naidagdag, ang mga Hakbang o Mga trabaho sa pagpoproseso ng Big Data ay maaaring idagdag. Pumunta sa tab na Mga Hakbang at mag-click sa 'Magdagdag ng Hakbang' at piliin ang uri ng Hakbang (MR, Hive, Spark atbp). Susuriin namin ang pareho sa paparating na tutorial. Sa ngayon, mag-click sa Kanselahin.
Hakbang 8: Ngayon na nakita namin kung paano simulan ang EMR, hayaan mong makita kung paano itigil ang pareho.
Hakbang 8.1: Mag-click sa Wakasan.
Hakbang 8.2: Tulad ng nabanggit sa mga nakaraang hakbang, ang 'Proteksyon sa pagwawakas' ay Bukas para sa kumpol ng EMR at ang pindutan ng Pagwawakas ay hindi pinagana. Mag-click sa Baguhin.
Hakbang 8.3: Piliin ang radio button na 'Off' at mag-click sa marka ng tick. Ngayon dapat na paganahin ang pindutan na Tapusin. Ito ang karagdagang hakbang na ipinakilala ng EMR, upang matiyak lamang na hindi namin sinasadyang matanggal ang kumpol ng EMR.
kung paano magdagdag ng java sa landas
Pansinin na ang kumpol ng EMR ay nasa katapusang Katapusan at ang mga EC2 ay tatapusin. Sa wakas, ang kumpol ng EMR ay ililipat sa Katapusan na katayuan, mula dito ang aming pagsingil na may paghinto ng AWS. Tiyaking wakasan ang kumpol, upang hindi makagawa ng karagdagang mga gastos sa AWS.
Konklusyon
Sa tutorial na ito nakita namin kung paano simulan ang kumpol ng EMR sa loob ng ilang minuto mula sa web console (browser), maaaring i-automate ang pareho gamit ang , AWS SDK o sa pamamagitan ng paggamit AWS CloudFormation . Tulad ng napansin na pag-set up ng isang EMR cluster ay maaaring magawa ay isang minuto lamang at ang pagproseso ng Big Data ay maaaring simulan kaagad, sa sandaling tapos na ang pagproseso ang output ay maaaring maiimbak sa S3 o DynamoDB at sa gayon ang pagsasara ng cluster upang ihinto ang pagsingil. Dahil sa modelo ng pagpepresyo na ito at kadalian ng paggamit, ang EMR ay isang malaking hit sa mga gumagawa ng pagproseso ng Big Data. Hindi kailangang bumili ng server sa maraming numero, kumuha ng mga lisensya para sa software ng Big Data at panatilihin ang mga ito. '
Kaya ito ang mga tao, dinadala tayo nito sa pagtatapos ng artikulong ito sa Paano Gumawa ng Hadoop Cluster Sa Amazon EMR?Kung sakali kung nais mong makakuha ng kadalubhasaan sa paksang ito, ang Edureka ay nakagawa ng isang kurikulum na saklaw ang saklaw, kung ano ang kakailanganin mong i-crack ang Solution Architect Exam! Maaari kang tumingin sa mga detalye ng kurso para sa pagsasanay.
Sa kaso ng anumang mga query na nauugnay sa blog na ito, mangyaring huwag mag-atubiling magtanong sa seksyon ng mga komento sa ibaba at magiging masaya kami na sagutin ka namin ng pinaka-maaga.