Hadoop YARN Tutorial - Alamin ang Mga Batayan ng YARN Arkitektura



Ang blog na ito ay nakatuon sa Apache Hadoop YARN na ipinakilala sa Hadoop bersyon 2.0 para sa pamamahala ng mapagkukunan at Pag-iiskedyul ng Job. Ipinapaliwanag nito ang arkitekturang YARN kasama ang mga bahagi nito at mga tungkulin na ginampanan ng bawat isa sa kanila. Inilalarawan nito ang pagsusumite ng application at daloy ng trabaho sa Apache Hadoop YARN.

Ang Hadoop YARN ay nagbubuklod sa yunit ng imbakan ng Hadoop ibig sabihin, HDFS (Hadoop Distraced File System) na may iba't ibang mga tool sa pagproseso. Para sa iyo na ganap na bago sa paksang ito, ang YARN ay nangangahulugang ' Y at SA nother R esource N egotiator ”. Iminumungkahi ko rin na dumaan ka sa aming at bago ka magpatuloy sa pag-aaral ng Apache Hadoop YARN. Ipapaliwanag ko ang mga sumusunod na paksa dito upang matiyak na sa pagtatapos ng blog na ito ang iyong pag-unawa sa Hadoop YARN ay malinaw.

Bakit NANGYARI

Sa Hadoop bersyon 1.0 na tinukoy din bilang MRV1 (MapReduce Bersyon 1), ginanap ng MapReduce ang parehong pag-andar sa pamamahala at mapagkukunan ng mapagkukunan. Ito ay binubuo ng isang Job Tracker na siyang solong master. Ang Job Tracker ay naglaan ng mga mapagkukunan, nagsagawa ng pag-iskedyul at sinusubaybayan ang mga trabaho sa pagpoproseso. Nagtalaga ito ng mapa at binawasan ang mga gawain sa isang bilang ng mga subordinate na proseso na tinawag na Mga Tracker ng Gawain. Pansamantalang iniulat ng Mga Tagasubaybay sa Gawain ang kanilang pag-usad sa Job Tracker.





Bersyon ng MapReduce 1.0 - Hadoop YARN - Edureka

Ang disenyo na ito ay nagresulta sa scalability bottleneck dahil sa isang solong Job Tracker.Nabanggit ng IBM sa artikulong ito na ayon sa Yahoo !, ang mga praktikal na limitasyon ng naturang disenyo ay naabot na may isang kumpol ng 5000 mga node at 40,000 mga gawain na tumatakbo kasabay.Bukod sa limitasyong ito, ang paggamit ng mga mapagkukunan ng computational ay hindi mabisa sa MRV1. Gayundin, ang balangkas ng Hadoop ay naging limitado lamang sa MapReduce processing paradigm.



Upang mapagtagumpayan ang lahat ng isyung ito, ang YARN ay ipinakilala sa Hadoop bersyon 2.0 sa taong 2012 ng Yahoo at Hortonworks. Ang pangunahing ideya sa likod ng YARN ay upang mapawi ang MapReduce sa pamamagitan ng pagkuha ng responsibilidad ng Resource Management at Pag-iskedyul ng Trabaho. Sinimulan ng YARN na bigyan ang Hadoop ng kakayahang magpatakbo ng mga trabaho na hindi MapReduce sa loob ng balangkas ng Hadoop.

Maaari mo ring panoorin ang video sa ibaba kung saan ang aming tinatalakay ng dalubhasa ang mga konsepto ng YARN & detalyado ang arkitektura nito.

Hadoop Yarn Tutorial | Arkitektura ng Hadoop Yarn | Edureka

Sa pagpapakilala ng YARN, ang ay ganap na naibalik sa batas. Ito ay naging mas nababaluktot, mahusay at nasusukat. Nang ang Yahoo ay naging live na kasama ang YARN sa unang isang-kapat ng 2013, tinulungan nito ang kumpanya na pag-urongin ang laki ng Hadoop cluster nito mula sa 40,000 node hanggang 32,000 node. Ngunit ang bilang ng mga trabaho ay dumoble sa 26 milyon bawat buwan.



Panimula sa Hadoop YARN

Ngayong naliwanagan ako sa iyo ng pangangailangan para sa YARN, hayaan mo akong ipakilala sa pangunahing bahagi ng Hadoop v2.0, YARN . Pinapayagan ng YARN ang iba't ibang mga pamamaraan sa pagpoproseso ng data tulad ng pagpoproseso ng grap, interactive na pagpoproseso, pagproseso ng stream pati na rin ang pagproseso ng batch upang patakbuhin at iproseso ang data na nakaimbak sa HDFS. Samakatuwid binubuksan ng YARN ang Hadoop sa iba pang mga uri ng mga ipinamahaging aplikasyon na lampas sa MapReduce.

Pinagana ng YARN ang mga gumagamit upang magsagawa ng mga operasyon ayon sa kinakailangan sa pamamagitan ng paggamit ng iba't ibang mga tool tulad ng para sa pagproseso ng real-time, Pugad para sa SQL, HBase para sa NoSQL at iba pa.

kung paano gamitin ang stringbuffer sa java

Bukod sa Resource Management, gumaganap din ang YARN ng Pag-iiskedyul ng Trabaho. Ginaganap ng YARN ang lahat ng iyong mga aktibidad sa pagproseso sa pamamagitan ng paglalaan ng mga mapagkukunan at pag-iiskedyul ng mga gawain. Ang Apache Hadoop YARN Architecture ay binubuo ng mga sumusunod na pangunahing bahagi:

  1. Resource Manager : Tumatakbo sa isang master daemon at namamahala sa paglalaan ng mapagkukunan sa kumpol.
  2. Node Manager: Tumakbo sila sa mga daemon ng alipin at responsable para sa pagpapatupad ng isang gawain sa bawat solong Data Node.
  3. Application Master: Pinamamahalaan ang lifecycle ng trabaho ng gumagamit at mga kinakailangan sa mapagkukunan ng indibidwal na mga application. Gumagana ito kasama ang Node Manager at sinusubaybayan ang pagpapatupad ng mga gawain.
  4. Lalagyan: Pakete ng mga mapagkukunan kabilang ang RAM, CPU, Network, HDD atbp sa isang solong node.

Mga bahagi ng YARN

Maaari mong isaalang-alang ang YARN bilang utak ng iyong Hadoop Ecosystem. Ang imahe sa ibaba ay kumakatawan sa YARN Architecture.

Ang unang sangkap ng YARN Arkitektura ay,

Resource Manager

  • Ito ang pangwakas na awtoridad sa paglalaan ng mapagkukunan .
  • Sa pagtanggap ng mga kahilingan sa pagpoproseso, ipinapasa nito ang mga bahagi ng mga kahilingan sa mga kaukulang node manager nang naaayon, kung saan nagaganap ang tunay na pagproseso.
  • Ito ang tagahatol ng mga mapagkukunan ng kumpol at nagpapasya sa paglalaan ng mga magagamit na mapagkukunan para sa mga nakikipagkumpitensya na mga application.
  • Ina-optimize ang paggamit ng cluster tulad ng pagpapanatili ng paggamit ng lahat ng mga mapagkukunan sa lahat ng oras laban sa iba't ibang mga hadlang tulad ng mga garantiya sa kapasidad, pagiging patas, at mga SLA.
  • Mayroon itong dalawang pangunahing sangkap:a) Tagapag-iskedyulb)Application Manager

a) Tagapag-iskedyul

  • Mananagot ang tagapag-iskedyul para sa paglalaan ng mga mapagkukunan sa iba't ibang mga tumatakbo na application na napapailalim sa mga hadlang ng mga kakayahan, pila atbp.
  • Tinawag itong isang purong tagapag-iskedyul sa ResourceManager, na nangangahulugang hindi ito nagsasagawa ng anumang pagsubaybay o pagsubaybay sa katayuan para sa mga application.
  • Kung mayroong isang pagkabigo sa aplikasyon o pagkabigo sa hardware, hindi nagagarantiyahan ng scheduler na muling simulan ang mga nabigong gawain.
  • Nagsasagawa ng pag-iiskedyul batay sa mga kinakailangan sa mapagkukunan ng mga application.
  • Mayroon itong plug-in na maaaring i-plug na patakaran, na responsable para sa paghati sa mga mapagkukunan ng kumpol sa iba't ibang mga application. Mayroong dalawang tulad na mga plug-in: Tagapag-iskedyul ng Kapasidad at Makatarungang Tagapag-iskedyul , na kasalukuyang ginagamit bilang Mga Iskedyul sa ResourceManager.

b) Application Manager

  • Responsable ito para sa pagtanggap ng mga pagsumite ng trabaho.
  • Nakikipag-ayos sa unang lalagyan mula sa Resource Manager para sa pagpapatupad ng tukoy na application Master ng application.
  • Namamahala sa pagpapatakbo ng mga Application Masters sa isang kumpol at nagbibigay ng serbisyo para sa pag-restart ng lalagyan ng Application Master sa pagkabigo.

Pagdating sa pangalawang sangkap alin ang:

Tagapamahala ng Node

  • Pinangangalagaan nito ang mga indibidwal na node sa isang Hadoop cluster atnamamahala ng mga trabaho ng gumagamit at daloy ng trabaho sa ibinigay na node.
  • Nagrerehistro ito sa Resource Manager at nagpapadala ng mga tibok ng puso na may katayuan sa kalusugan ng node.
  • Ang pangunahing layunin nito ay upang pamahalaan ang mga lalagyan ng application na itinalaga dito ng resource manager.
  • Napapanatiling napapanahon nito sa Resource Manager.
  • Hinihiling ng Application Master ang itinalagang lalagyan mula sa Node Manager sa pamamagitan ng pagpapadala nito sa isang Container Launch Context (CLC) na kasama ang lahat ng kailangan ng application upang tumakbo. Lumilikha ang Node Manager ng hiniling na proseso ng lalagyan at sisimulan ito.
  • Sinusubaybayan ang paggamit ng mapagkukunan (memorya, CPU) ng mga indibidwal na lalagyan.
  • Nagsasagawa ng pamamahala sa Log.
  • Pinapatay din nito ang lalagyan ayon sa direksyon ng Resource Manager.

Ang pangatlong sangkap ng Apache Hadoop YARN ay,

Application Master
  • Ang isang aplikasyon ay isang solong trabaho na isinumite sa balangkas. Ang bawat naturang application ay may natatanging Application Master na nauugnay dito na isang framework na tiyak na nilalang.
  • Ito ang proseso na nagsasaayos ng pagpapatupad ng isang application sa kumpol at namamahala din ng mga pagkakamali.
  • Ang gawain nito ay upang makipag-ayos ng mga mapagkukunan mula sa Resource Manager at makipagtulungan sa Node Manager upang maipatupad at subaybayan ang mga gawain sa sangkap.
  • Ito ay responsable para sa negosasyon ng naaangkop na mga lalagyan ng mapagkukunan mula sa ResourceManager, pagsubaybay sa kanilang katayuan at pagsubaybay sa pag-unlad.
  • Kapag nagsimula na, pana-panahong nagpapadala ito ng mga tibok ng puso sa Resource Manager upang kumpirmahin ang kalusugan nito at i-update ang tala ng mga hinihingi nitong mapagkukunan.

Ang pang-apat na sangkap ay:

Lalagyan
  • Ito ay isang koleksyon ng mga pisikal na mapagkukunan tulad ng RAM, mga core ng CPU, at mga disk sa isang solong node.
  • Ang mga lalagyan na YARN ay pinamamahalaan ng isang konteksto ng paglulunsad ng lalagyan na kung saan ay container life-cycle (CLC). Naglalaman ang record na ito ng isang mapa ng mga variable ng kapaligiran, mga dependency na nakaimbak sa isang malayuang ma-access na imbakan, mga token sa seguridad, payload para sa mga serbisyo ng Node Manager at kinakailangang utos upang likhain ang proseso.
  • Nagbibigay ito ng mga karapatan sa isang application upang magamit ang isang tukoy na halaga ng mga mapagkukunan (memorya, CPU atbp.) Sa isang tukoy na host.

Pagsumite ng Application sa YARN

Sumangguni sa imahe at tingnan ang mga hakbang na kasangkot sa pagsumite ng application ng Hadoop YARN:

1) Isumite ang trabaho

2)Kumuha ng Application ID

3) Konteksto sa Pagsumite ng Application

4 a) Simulan ang LalagyanIlunsad

b) Ilunsad ang Application Master

5) Maglaan ng Mga Mapagkukunan

6 a) Lalagyan

b) Ilunsad

7) Isagawa

Application Workflow sa Hadoop YARN

Sumangguni sa ibinigay na imahe at tingnan ang mga sumusunod na hakbang na kasangkot sa Application workflow ng Apache Hadoop YARN:

  1. Nagsusumite ng aplikasyon ang kliyente
  2. Ang Resource Manager ay naglalaan ng isang lalagyan upang simulan ang Application Manager
  3. Nagrehistro ang Application Manager sa Resource Manager
  4. Humihiling ang Application Manager ng mga lalagyan mula sa Resource Manager
  5. Inaabisuhan ng Application Manager ang Node Manager na maglunsad ng mga lalagyan
  6. Ang application code ay naisakatuparan sa lalagyan
  7. Mga contact ng client ang Resource Manager / Application Manager upang subaybayan ang katayuan ng application
  8. Nagrehistro ang Application Manager sa Resource Manager

Ngayong alam mo na ang Apache Hadoop YARN, tingnan ang ni Edureka, isang pinagkakatiwalaang kumpanya sa pag-aaral sa online na may isang network na higit sa 250,000 nasiyahan na mga nag-aaral na kumalat sa buong mundo. Ang kurso sa Edureka Big Data Hadoop Certification Training ay tumutulong sa mga nag-aaral na maging dalubhasa sa HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume at Sqoop na gumagamit ng mga kaso ng paggamit ng real-time sa Retail, Social Media, Aviation, Turismo, Pananalapi domain.

May tanong ba sa amin? Mangyaring banggitin ito sa seksyon ng mga komento at babalikan ka namin.