Cloudera Hadoop: Pagsisimula sa Pamamahagi ng CDH



Ang Edureka blog na ito sa Cloudera Hadoop Tutorial ay magbibigay sa iyo ng isang kumpletong pananaw ng iba't ibang mga bahagi ng Cloudera tulad ng Cloudera Manager, Parcels, Hue atbp

Sa pagtaas ng pangangailangan para sa Big Data, at Apache Hadoop aysaang puso ng rebolusyon, binago nito ang paraan ng aming pag-aayos at pagkalkula ng data. Ang pangangailangan para sa mga samahan na ihanay ang Hadoop sa kanilang mga pangangailangan sa negosyo ay nagtulak sa paglitaw ng mga pamamahaging komersyal. Ang Mga Pamamahagi ng Komersyal na Hadoop ay karaniwang nakabalot sa mga tampok, na idinisenyo upang i-streamline ang pag-deploy ng Hadoop. Ang Pamamahagi ng Cloudera Hadoop ay nagbibigay ng isang nasusukat, nababaluktot, pinagsamang platform na ginagawang madali upang pamahalaan ang mabilis na pagtaas ng dami at mga pagkakaiba-iba ng data sa iyong negosyo.

Sa blog na ito sa Pamamahagi ng Cloudera Hadoop, sasakupin namin ang mga sumusunod na paksa:





Cloudera Hadoop: Panimula sa Hadoop

Ang Hadoop ay isang Apache open-source framework na nag-iimbak at nagpoproseso ng Big Data sa isang ipinamigay na kapaligiransa kabila ngkumpol gamit ang mga simpleng modelo ng programa. Nagbibigay ang Hadoop ng parallel na pagkalkula sa tuktok ng ibinahagi na imbakan.Upang matuto nang higit pa tungkol sa Hadoop nang detalyado mula sa maaari kang sumangguni dito

Matapos ang maikling pagpapakilala sa Hadoop, hayaan mo akong ipaliwanag ngayon ang iba't ibang mga uri ng Pamamahagi ng Hadoop.



Cloudera Hadoop: Mga Pamamahagi ng Hadoop

Dahil ang Apache Hadoop ay bukas na mapagkukunan, maraming mga kumpanya ang nakabuo ng mga pamamahagi na lampas sa orihinal na open source code. Ito ay halos kapareho sa mga pamamahagi ng Linux tulad ng RedHat, Fedora, at Ubuntu. Sinusuportahan ng bawat isa sa mga pamamahagi ng Linux ang sarili nitong mga pag-andar at tampok tulad ng user-friendly GUI sa Ubuntu. Katulad din pulang sumbrero ay tanyag sa loob ng mga negosyo dahil nag-aalok ito ng suporta at nagbibigay din ng ideolohiya upang makagawa ng mga pagbabago sa anumang bahagi ng system na nais. Pinapawi ka ng Red Hat mula sa mga problema sa pagiging tugma ng software. Karaniwan itong isang malaking isyu para sa mga gumagamitna lumilipat mula sa Windows.

Gayundin, mayroong 3 pangunahing uri ng mga pamamahagi ng Hadoop na mayroong sariling hanay ng mga pagpapaandar at tampok at itinayo sa ilalim ng batayang HDFS.

Cloudera vs MapR vs Hortonworks

Fig: MapR vs Hortonworks vs Cloudera

Fig: MapR vs Hortonworks vs Cloudera



Pamamahagi ng Cloudera Hadoop

Ang Cloudera ay ang takbo sa merkado sa puwang ng Hadoop at siya ang unang naglabas ng pamamahagi ng komersyal na Hadoop. Nag-aalok ito ng mga serbisyo sa pagkonsulta upang maitaguyod ang agwat sa pagitan ng - 'ano ang ibinibigay ng Apache Hadoop' at 'kung ano ang kailangan ng mga samahan'.

Ang Pamamahagi ng Cloudera ay:

  • Mabilis para sa negosyo : Mula sa analytics hanggang sa agham ng data at lahat sa pagitan, naghahatid si Cloudera ng pagganap na kailangan mo upang ma-unlock ang potensyal ng walang limitasyong data.
  • Ginagawang madali upang pamahalaan ang Hadoop : Sa Cloudera Manager, hinahayaan ka ng mga awtomatikong wizard na mabilis mong i-deploy ang iyong kumpol, anuman ang sukat o kapaligiran ng paglawak.
  • Secure nang walang kompromiso: Nakakatugon sa mahigpit na seguridad ng data at mga pangangailangan sa pagsunod nang hindi isinakripisyo ang liksi ng negosyo. Nagbibigay ang Cloudera ng isang pinagsamang diskarte sa seguridad ng data at pamamahala.

Horton-Works Pamamahagi

Ang Horton-Works Data Platform (HDP) ay isang ganap na isang open source platform na idinisenyo upang mapaglalangan ang data mula sa maraming mga mapagkukunan at format. Kasama sa platform ang iba't ibang mga tool ng Hadoop tulad ng Hadoop Distraced File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive, at mga karagdagang sangkap.

Sinusuportahan din nito ang mga tampok tulad ng:

  • Ginagawa ng HDP ang Hive mas mabilis sa pamamagitan ng bagong proyekto ng Stinger.
  • HDP iniiwasan ang lock-in ng vendor sa pamamagitan ng pangako sa isang forked na bersyon ng Hadoop.
  • Nakatuon ang HDP sa pagpapahusay ng kakayahang magamit ng platform ng Hadoop.

Pamamahagi ng MapR

Ang MapR ay isang nagbibigay ng solusyon sa Hadoop na nakatuon sa platform, tulad ng HortonWorks at Cloudera. Isinasama ng MapR ang sarili nitong sistema ng database, na kilala bilang MapR-DB habang nag-aalok ng mga serbisyo sa pamamahagi ng Hadoop. Ang MapR-DB ay inaangkin na apat hanggang pitong beses na mas mabilis kaysa sa stock Hadoop database, ibig sabihin, HBase, na naisasagawa sa iba pang mga pamamahagi.

Mayroon itong mga nakakaintriga na tampok tulad ng:

  • Ito lamang ang pamamahagi ng Hadoop na may kasamang Pig, Hive, at Sqoop nang walang anumang mga dependency ng Java - dahil umaasa ito sa MapR-File System.
  • Ang MapR ay ang pinaka handa na produksyon na pamamahagi ng Hadoop na may maraming mga pagpapahusay na ginagawang mas madaling gamitin, mas mabilis at maaasahan ng user.

Pag-usapan natin ngayon ang Pagbabahagi ng Cloudera Hadoop nang malalim.

Mag-subscribe sa aming YouTube channel upang makakuha ng mga bagong update ...

Cloudera Hadoop: Pamamahagi ng Cloudera

Si Cloudera ay ang kilalang manlalaro sa puwang ng Hadoop upang palabasin ang unang pamamahagi ng komersyal na Hadoop.

Fig: Cloudera Hadoop Pamamahagi

Sinusuportahan ng Pamamahagi ng Cloudera Hadoop ang sumusunod na hanay ng mga tampok:

  1. Ang CDH ni Cloudera ay binubuo ng lahat ng mga bukas na sangkap ng mapagkukunan, tina-target ang mga pag-deploy ng klase sa enterprise, at isa sa pinakatanyag na pamamahagi ng Hadoop sa komersyo.
  2. Kilala sa mga makabago nito, si Cloudera ang unang nag-alok SQL-for-Hadoop kasama ang mga Impala query engine.
  3. Ang console ng pamamahala - Cloudera Manager , madaling gamitin at ipatupad sa mayamang interface ng gumagamit na ipinapakita ang lahat ng impormasyon ng kumpol sa isang organisado at malinis na paraan.
  4. Sa CDH maaari kang magdagdag ng mga serbisyo sa pataas at pagpapatakbo ng kumpol nang walang anumang pagkagambala.
  5. Ang iba pang mga pagdaragdag ng Cloudera ay may kasamang seguridad, interface ng gumagamit, at mga interface para sa pagsasama sa mga application ng third-party.
  6. Nagbibigay ang CDH Mga Template ng Node ibig sabihin pinapayagan ang paglikha ng isang pangkat ng mga node sa isang Hadoop cluster na may iba't ibang pagsasaayos. Tinatanggal nito ang paggamit ng parehong pagsasaayos sa buong Hadoop cluster.
  7. Sinusuportahan din nito:
    • Pagiging maaasahan
      Agad na kumilos ang mga vendor ng Hadoop bilang tugon tuwing may napansin na bug. Sa hangaring gawing mas matatag ang mga solusyon sa komersyo, agad na na-deploy ang mga patch at pag-aayos.
    • Suporta
      Ang mga vendor ng Cloudera Hadoop ay nagbibigay ng panteknikal na patnubay at tulong na ginagawang madali para sa mga customer na gamitin ang Hadoop para sa mga gawain sa antas ng enterprise at mga application na kritikal sa misyon.

    • Pagiging kumpleto
      Nag-asawa ang mga vendor ng Hadoop ng kanilang mga pamamahagi sa iba't ibang mga tool na add-on na makakatulong sa mga customer na ipasadya ang Hadoop application upang matugunan ang kanilang mga partikular na gawain.

Ang mga pamamahagi ng Cloudera ay may 2 magkakaibang uri ng mga edisyon.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Ngayon tingnan natin ang mga pagkakaiba sa pagitan nila.

Mga Tampok Cloudera-Express Cloudera-Enterprise
Pamamahala ng Cluster
1. Pamamahala ng Multi-ClusterOoOo
2. Pangangasiwa ng MapagkukunanOoOo
Pag-deploy
1. Suporta para sa CDH 4 at 5OoOo
2. Rolling upgrade ng CDHHindiOo
Pamamahala sa Serbisyo at Pag-configure
1. Pamahalaan ang mga serbisyo ng HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark, at AccumuloOoOo
2. Rolling restart ng mga serbisyoHindiOo
Seguridad
1. Pagpapatotoo ng LDAPHindiOo
2. Pagpapatotoo ng SAMLHindiOo
Pagsubaybay at Diagnostics
1. Kasaysayan sa KalusuganOoOo
Pamamahala ng Alerto
1. Alerto sa pamamagitan ng emailOoOo
2. Alerto sa pamamagitan ng SNMPHindiOo
Mga Tampok ng advanced na Pamamahala
1. Awtomatikong pag-backup at pag-recoverHindiOo
2. Pag-browse sa file at paghahanapHindiOo
3. Mga ulat sa paggamit ng MapReduce, Impala, HBase, YarnHindiOo

Cloudera Hadoop: Cloudera Manager

Ayon kay Cloudera, ang Cloudera Manager ay ang pinakamahusay na paraan upang i-install , i-configure , pamahalaan , at monitor ang Hadoop stack.

ano ang gamit ng nagios

Nagbibigay ito ng:

  1. Awtomatikong paglalagay at pagsasaayos
  2. Napapasadyang pagsubaybay at pag-uulat
  3. Walang kahirap-hirap na mahusay na pag-troubleshoot
  4. Zero - Pagpapanatili ng Downtime

Kumuha ng malalim na Kaalaman tungkol sa Cloudera Hadoop at ang iba`t ibang mga tool

Pagpapakita ng Cloudera Manager

Galugarin natin ang Cloudera Manager.

1. Sa ibaba ng figure ay ipinapakita ang bilang ng mga serbisyo na kasalukuyang tumatakbo sa Cloudera Manager. Maaari mo ring tingnan ang mga tsart tungkol sa paggamit ng cluster CPU, paggamit ng Disk IO, atbp.

Fig: Homepage ng Cloudera Manager

2. Sa ibaba ng imahe ay nagpapakita ng HBase cluster. Binibigyan ka nito ng mga tsart at graph tungkol sa mga kondisyon sa kalusugan ng kasalukuyang tumatakbo na server ng HBase REST.

Fig: Mga Kundisyon sa Kalusugan ng server ng HBase

3. Ngayon, tingnan natin ang tab na Mga instance ng HBase cluster kung saan maaari mong suriin ang katayuan at ang pagsasaayos ng IP.

Fig: Katayuan at IP address ng Host Server ng HBase cluster

4. Susunod, mayroon kang tab na Pag-configure. Makikita mo rito ang lahat ng mga parameter ng pagsasaayos at mabago ang kanilang mga halaga.

Fig: Pag-configure ng kumpol ng HBase

Ngayon, unawain natin kung ano ang Mga Parsela sa Cloudera.

Cloudera Hadoop: Mga Parsela

Ang isang parsela ay isang binary na format ng pamamahagi na naglalaman ng mga file ng programa, kasama ang karagdagang metadata na ginamit ng Cloudera Manager.

Ang mga parsel ay nakapag-iisa at naka-install sa isang na-bersyon na direktoryo, na nangangahulugang ang maraming mga bersyon ng isang naibigay na serbisyo ay maaaring mai-install nang magkatabi.

Nasa ibaba ang mga pakinabang ng paggamit ng Parcel:

  • Nagbibigay ito ng pamamahagi ng CDH bilang isang solong object ibig sabihin sa halip na magkaroon ng isang hiwalay na pakete para sa bawat bahagi ng CDH, ang mga parcels ay mayroon lamang isang solong bagay na mai-install.

  • Nag-aalok ito ng panloob na pagkakapare-pareho (habang ang kumpletong CDH ay ipinamamahagi bilang isang solong parsela, lahat ng mga bahagi ng CDH ay naitugma at walang peligro ng iba't ibang mga bahagi na nagmumula sa iba't ibang mga bersyon ng CDH).

  • Maaari kang mag-install, mag-upgrade, mag-downgrade, ipamahagi, at buhayin ang mga parsela sa CDH gamit ang ilang mga pag-click.

Ngayon, tingnan natin kung paano i-install at buhayin ang serbisyo ng Kafka sa CDH gamit ang Mga Parcels.

ano ang ginagawa ng isang linux administrator
  1. Pumunta sa homepage ng manager ng Cloudera >> Mga Host >> Mga Parsela tulad ng ipinakita sa ibaba

    Fig: Ang pagpili ng mga parsela mula sa mga host

2. Kung hindi mo nakikita ang Kafka sa listahan ng mga parsela, maaari mong idagdag ang parsela sa listahan.

  1. Hanapin ang parsela ng bersyon ng Kafka na nais mong gamitin. Kung hindi mo ito nakikita, maaari mong idagdag ang parcel repository sa listahan.
  2. Hanapin ang parsela para sa bersyon ng Kafka na nais mong i-install - Pamamahagi ng Cloudera ng Mga Bersyon ng Apache Kafka .
    Ang figure sa ibaba ay nagpapakita ng pareho.

Fig: Path ng Repository para sa parcel.

3. Kopyahin ang link tulad ng ipinakita sa itaas na pigura at idagdag ito sa Remote Parcel Repository tulad ng ipinakita sa ibaba.

Fig: Dagdag ng landas ng Kafka mula sa imbakan

Apat.Matapos idagdag ang landas, magiging handa na para sa pag-download ang Kafka. Maaari mo lamang i-click ang pindutan ng pag-download at i-download ang Kafka.

Fig: Pag-download ng Kafka

5. Kapag na-download na ang Kafka, ang kailangan mo lang gawin ay upang ipamahagi at buhayin ito.

Fig: Inaaktibo ang Kafka

Kapag naaktibo ito, maaari kang magpatuloy at tingnan ang Kafka sa tab na mga serbisyo sa tagapamahala ng Cloudera.

Fig: Serbisyong Kafka

Cloudera Hadoop: Lumilikha ng isang Oozie Workflow

Ang paglikha ng isang daloy ng trabaho sa pamamagitan ng manu-manong pagsulat ng XML code at pagkatapos ay isagawa ito, ay kumplikado. Maaari kang mag-refer dito Pag-iskedyul ng trabaho sa Oozie blog, upang malaman ang tungkol sa tradisyunal na diskarte.

Maaari mong makita ang imahe sa ibaba, kung saan nagsulat kami ng isang XML file upang lumikha ng isang simpleng daloy ng trabaho ng Oozie. Fig: Lumilikha ng isang daloy ng trabaho ng Oozie gamit ang isang Tradisyunal na diskarte

Tulad ng nakikita mo kahit na upang lumikha ng isang simpleng tagapag-iskedyul ng Oozie kailangan naming magsulat ng malaking XML code na kung saan ay gugugol ng oras, at ang pag-debug sa bawat solong linya ay nagiging masalimuot. Upang mapagtagumpayan ito, ipinakilala ng Cloudera Manager ang isang bagong tampok na tinawag Kulay na nagbibigay ng isang GUI at isang simpleng i-drag at i-drop ang mga tampok upang lumikha at magpatupad ng mga daloy ng trabaho ng Oozie.

Tingnan natin ngayon kung paano gumaganap ang Hue ng parehong gawain sa isang pinasimple na paraan.

Bago lumikha ng isang daloy ng trabaho, gumawa muna tayo ng mga file ng pag-input, ibig sabihin, clickstream.txt at user.txt.
Sa file ng user.txt, mayroon kaming User Id, Pangalan, Edad, Bansa, Kasarian tulad ng ipinakita sa ibaba. Kailangan namin ang file ng gumagamit na ito upang malaman ang bilang ng gumagamit at pag-click sa URL (nabanggit sa clickstream file) batay sa User Id.

Fig: Lumilikha ng isang text file

Upang malaman ang bilang ng mga pag-click ng gumagamit sa bawat URL, mayroon kaming isang clickstream na naglalaman ng User Id at URL.

Fig: Clickstream file

hanapin ang max na numero sa array java

Isulat natin ang mga query sa file ng script.

Fig: Script file

Matapos likhain ang file ng gumagamit, clickstream file, at script file na susunod, maaari kaming magpatuloy at likhain ang daloy ng trabaho ng Oozie.

1. Maaari mo lamang i-drag at i-drop ang daloy ng trabaho ng Oozie tulad ng ipinakita sa imahe.

Fig: I-drag at i-drop ang tampok na ito ng paglikha ng daloy ng trabaho ng Oozie

2. Sa madaling panahon pagkatapos na ihulog ang iyong aksyon kailangan mong tukuyin ang mga landas sa script file at idagdag ang mga parameter na nabanggit sa script file. Dito kailangan mong magdagdag ng mga parameter ng OUTPUT, CLICKSTREAM, at USER at tukuyin ang landas sa bawat isa sa mga parameter.

Fig: Pagdaragdag ng isang file ng script at mga kinakailangang Parameter upang maisagawa ang pagkilos

3. Kapag natukoy mo ang mga landas at naidagdag ang mga parameter, i-save lamang at isumite ang daloy ng trabaho tulad ng ipinakita sa imaheng nasa ibaba.

Fig: Sine-save at isinumite ang pagkilos na Oozie

4. Kapag naisumite mo ang gawain, nakumpleto ang iyong trabaho. Ang pagpapatupad at iba pang mga hakbang ay inaalagaan ni Hue.

Fig: Katayuan sa pagpapatupad ng trabaho ng Oozie

5.Ngayon na naisakatuparan na natin ang trabaho sa Oozie, tingnan natin ang tab na pagkilos. Naglalaman ito ng user ID at ang katayuan ng daloy ng trabaho. Ipinapakita rin nito ang mga error code kung mayroon man sila, ang oras ng pagsisimula at pagtatapos ng item ng pagkilos.

Fig: Mga elemento na naroroon sa tab na aksyon ng Oozie workflow

6. Sa tabi ng tab na aksyon ay ang tab na mga detalye. Sa ito, makikita natin ang oras ng pagsisimula at ang huling binagong oras ng trabaho.

Fig: Mga detalye ng daloy ng trabaho ng Oozie.

7. Sa tabi ng tab na Mga Detalye, mayroon kaming tab na Pag-configure ng daloy ng trabaho.

Fig: Mga setting ng pagsasaayos ng daloy ng trabaho ng Oozie

7. Habang ipinapatupad ang item ng pagkilos, kung mayroong anumang mga error, ito ay nakalista sa tab na Log. Maaari kang mag-refer sa mga pahayag ng error at i-debug ito nang naaayon.

Fig: Mag-log file na naglalaman ng mga error code at error statement

8. Narito ang XML code ng daloy ng trabaho na awtomatikong nabuo ng Hue.

Fig: XML code ng daloy ng trabaho ng Oozie

9.1. Tulad ng natukoy mo na ang landas para sa direktoryo ng output sa hakbang 2, narito ang direktoryo ng output sa HDFS Browser tulad ng ipinakita sa ibaba.

Fig: Direktoryo ng output ng HDFS Browser

9.2 Kapag nag-click ka sa direktoryo ng output, mahahanap mo ang isang file ng teksto na pinangalanan bilang output.txt at ang file na teksto ay naglalaman ng aktwal na output tulad ng ipinakita sa figure sa ibaba.

Fig: Huling teksto ng output

Ito ay kung paano ginagawang simple ng Hue ang aming trabaho sa pamamagitan ng pagbibigay ng mga pagpipilian sa pag-drag at drop upang lumikha ng isang daloy ng trabaho ng Oozie.

Inaasahan kong ang blog na ito ay kapaki-pakinabang para maunawaan ang Pamamahagi ng Cloudera at ang iba't ibang Mga Bahagi ng Cloudera.

Nais na makilahok sa rebolusyon ng Big Data?

Ngayon na naintindihan mo na ang Pamamahagi ng Cloudera Hadoop suriin ang ni Edureka, isang pinagkakatiwalaang kumpanya sa pag-aaral sa online na may isang network na higit sa 250,000 nasiyahan na mga nag-aaral na kumalat sa buong mundo. Ang kurso sa Edureka Big Data Hadoop Certification Training ay tumutulong sa mga nag-aaral na maging dalubhasa sa HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume at Sqoop na gumagamit ng mga kaso ng paggamit ng real-time sa Retail, Social Media, Aviation, Turismo, Pananalapi domain.

May tanong ba sa amin? Mangyaring banggitin ito sa seksyon ng mga komento at babalikan ka namin.