HDFS Tutorial: Panimula sa HDFS at mga Tampok nito



Tutulungan ka ng blog ng HDFS Tutorial na maunawaan ang HDFS o Hadoop Distraced File System at mga tampok nito. Tuklasin mo rin ang mga pangunahing bahagi nito nang maikling.

HDFS Tutorial

Bago magpatuloy sa HDFS tutorial blog na ito, hayaan mo akong dalhin ka sa ilan sa mga nakababaliw na istatistika na nauugnay sa HDFS:

  • Sa 2010, Facebook inaangkin na mayroong isa sa pinakamalaking pag-iimbak ng cluster ng HDFS 21 Petabytes ng data
  • Noong 2012, Facebook idineklara na mayroon silang pinakamalaking solong kumpol ng HDFS na may higit sa 100 PB ng data .
  • At Yahoo ! ay may higit sa 100,000 CPU sa loob 40,000 mga server tumatakbo ang Hadoop, kasama ang pinakamalaking Hadoop cluster na tumatakbo 4,500 node . Sinabi ng lahat, Yahoo! mga tindahan 455 petabytes ng data sa HDFS.
  • Sa katunayan, sa pamamagitan ng 2013, ang karamihan sa mga malalaking pangalan sa Fortune 50 ay nagsimulang gumamit ng Hadoop.

Masyadong mahirap matunaw? Tama Tulad ng tinalakay sa , Ang Hadoop ay may dalawang pangunahing mga yunit - S magwala at Pinoproseso . Kapag sinabi kong bahagi ng imbakan ng Hadoop, tinutukoy ko HDFS na nangangahulugang Ipinamahagi ang Hadoop File System . Kaya, sa blog na ito, ipakikilala kita sa HDFS .





c ++ paraan ng pag-uuri

Dito, pag-uusapan ko:

  • Ano ang HDFS?
  • Mga kalamangan ng HDFS
  • Mga tampok ng HDFS

Bago pag-usapan ang tungkol sa HDFS, hayaan mong sabihin ko sa iyo, ano ang isang ipinamamahagi na File System?



DFS o Ipinamahaging File System:

Ipinamahagi ang pinag-uusapan ng File System namamahala data , ibig sabihin mga file o folder sa maraming mga computer o server. Sa madaling salita, ang DFS ay isang file system na nagpapahintulot sa amin na mag-imbak ng data sa maraming mga node o machine sa isang kumpol at pinapayagan ang maraming mga gumagamit na mag-access ng data. Kaya karaniwang, nagsisilbi ito ng parehong layunin tulad ng file system na magagamit sa iyong machine, tulad ng para sa windows mayroon kang NTFS (New Technology File System) o para sa Mac mayroon kang HFS (Hierarchical File System). Ang pagkakaiba lamang ay, sa kaso ng Ipinamahagi na File System, nag-iimbak ka ng data sa maraming mga machine kaysa sa solong machine. Kahit na ang mga file ay naka-imbak sa buong network, nag-oayos ang DFS, at nagpapakita ng data sa paraang ang isang gumagamit na nakaupo sa isang makina ay mararamdaman na ang lahat ng data ay nakaimbak sa mismong mismong iyon.

Ano ang HDFS?

Ang Hadoop Ipamahagi na file system o HDFS ay isang nakabatay sa Java na nakabahaging file system na nagbibigay-daan sa iyo upang mag-imbak ng maraming data sa maraming mga node sa isang Hadoop cluster. Kaya, kung na-install mo ang Hadoop, nakakakuha ka ng HDFS bilang isang napapailalim na sistema ng pag-iimbak para sa pagtatago ng data sa ibinahaging kapaligiran.

Kumuha tayo ng isang halimbawa upang maunawaan ito. Isipin na mayroon kang sampung machine o sampung computer na may isang hard drive na 1 TB sa bawat machine. Ngayon, sinabi ng HDFS na kung i-install mo ang Hadoop bilang isang platform sa tuktok ng sampung machine na ito, makakakuha ka ng HDFS bilang isang serbisyo sa pag-iimbak. Ang Hadoop Distribution File System ay ipinamamahagi sa isang paraan na ang bawat machine ay nag-aambag ng kanilang indibidwal na imbakan para sa pagtatago ng anumang uri ng data.



HDFS Tutorial: Mga Kalamangan Ng HDFS

1. Ipinamahagi Imbakan:

Ipinamahagi na Imbakan - HDFS Tutorial - Edureka

Kapag na-access mo ang Hadoop Ipamahagi na file system mula sa alinman sa sampung machine sa Hadoop cluster, mararamdaman mong parang naka-log in ka sa isang solong malaking machine na may kapasidad ng imbakan na 10 TB (kabuuang imbakan sa sampung machine). Ano ang ibig sabihin nito Nangangahulugan ito na maaari kang mag-imbak ng isang solong malaking file na 10 TB na ibabahagi sa sampung machine (1 TB bawat isa).Kaya, ito ay hindi limitado sa mga pisikal na hangganan ng bawat indibidwal na makina.

2. Ipinamahagi at Parallel na Pagkalkula:

Dahil ang data ay nahahati sa mga machine, pinapayagan kaming samantalahin Ipinamahagi at Parehong Pagkalkula . Unawain natin ang konseptong ito sa pamamagitan ng halimbawa sa itaas. Ipagpalagay, tumatagal ng 43 minuto upang maproseso ang 1 TB file sa isang solong makina. Kaya, ngayon sabihin mo sa akin, gaano karaming oras ang aabutin upang maproseso ang parehong 1 TB file kapag mayroon kang 10 machine sa isang Hadoop cluster na may katulad na pagsasaayos - 43 minuto o 4.3 minuto? 4.3 minuto, Tama! Anong nangyari dito? Ang bawat isa sa mga node ay gumagana sa isang bahagi ng 1 TB file na kahanay. Samakatuwid, ang gawaing tumatagal ng 43 minuto bago, natapos sa loob lamang ng 4.3 minuto ngayon habang ang gawain ay nahahati sa sampung machine.

3. Pahalang na Kakayahan:

Ang panghuli ngunit hindi ang huli, pag-usapan natin ang pahalang na pag-scale o paglabas sa Hadoop. Mayroong dalawang uri ng pag-scale: patayo at pahalang . Sa patayong pag-scale (scale up), pinapataas mo ang kapasidad ng hardware ng iyong system. Sa madaling salita, nakakakuha ka ng mas maraming RAM o CPU at idagdag ito sa iyong umiiral na system upang gawin itong mas matatag at malakas. Ngunit may mga hamon na nauugnay sa patayong pag-scale o pag-scale up:

  • Mayroong palaging isang limitasyon kung saan maaari mong taasan ang iyong kapasidad sa hardware. Kaya, hindi mo maaaring panatilihin ang pagtaas ng RAM o CPU ng makina.
  • Sa patayong pag-scale, ititigil mo muna ang iyong makina. Pagkatapos ay taasan mo ang RAM o CPU upang gawin itong isang mas matatag na stack ng hardware. Matapos mong madagdagan ang iyong kapasidad sa hardware, i-restart mo ang makina. Ang down time na ito kapag hinihinto mo ang iyong system ay nagiging isang hamon.

Kung sakali pahalang na pag-scale (sukatan) , nagdagdag ka ng higit pang mga node sa mayroon nang cluster sa halip na dagdagan ang kapasidad ng hardware ng mga indibidwal na machine. At ang pinakamahalaga, maaari mo magdagdag ng higit pang mga machine on the go ibig sabihin nang hindi hinihinto ang system . Samakatuwid, habang tinatanggal wala kaming down time o berdeng zone, wala sa ganoong uri. Sa pagtatapos ng araw, magkakaroon ka ng mas maraming mga machine na nagtatrabaho nang kahanay upang matugunan ang iyong mga kinakailangan.

Video ng Tutorial sa HDFS:

Maaari mong suriin ang video na ibinigay sa ibaba kung saan ang lahat ng mga konsepto na nauugnay sa HDFS ay tinalakay nang detalyado:

data blending sa tableau 10

HDFS Tutorial: Mga tampok ng HDFS

Malalaman natin nang detalyado ang mga tampok na ito kung susuriin namin ang HDFS Architecture sa aming susunod na blog ng tutorial na HDFS. Ngunit, sa ngayon, magkakaroon tayo ng isang pangkalahatang ideya sa mga tampok ng HDFS:

  • Gastos: Ang HDFS, sa pangkalahatan, ay naka-deploy sa isang kalakal hardware tulad ng iyong desktop / laptop na ginagamit mo araw-araw. Kaya, ito ay napaka-matipid sa mga tuntunin ng gastos ng pagmamay-ari ng proyekto. Dahil, gumagamit kami ng hardware na nagbebenta ng murang gastos, hindi mo kailangang gumastos ng malaking halaga ng pera para sa pag-scale ng iyong Hadoop cluster. Sa madaling salita, ang pagdaragdag ng higit pang mga node sa iyong HDFS ay epektibo sa gastos.
  • Pagkakaiba-iba at Dami ng Data: Kapag pinag-uusapan natin ang tungkol sa HDFS pagkatapos ay pinag-uusapan natin ang tungkol sa pag-iimbak ng napakalaking data ibig sabihin, Terabytes at petabytes ng data at iba't ibang mga uri ng data. Kaya, maaari kang mag-imbak ng anumang uri ng data sa HDFS, maging nakabalangkas, hindi istraktura o semi nakabalangkas.
  • Pagiging maaasahan at Fault Tolerance: Kapag nag-iimbak ka ng data sa HDFS, sa loob nito hinahati ang ibinigay na data sa mga bloke ng data at iniimbak ito sa isang ipinamahaging paraan sa iyong Hadoop cluster. Ang impormasyon tungkol sa kung aling data block ang matatagpuan kung alin sa mga data node ang naitala sa metadata. NameNode namamahala sa data ng meta at ang Mga DataNode responsable para sa pagtatago ng data.
    Ang node ng pangalan ay kinokopya din ang data ibig sabihin ay nagpapanatili ng maraming mga kopya ng data. Ang pagtitiklop na ito ng data ay ginagawang napaka maaasahan at mapagparaya sa HDFS. Kaya, kahit na ang alinman sa mga node ay nabigo, maaari naming makuha ang data mula sa mga replika na nakatira sa iba pang mga data node. Bilang default, ang kadahilanan ng pagtitiklop ay 3. Samakatuwid, kung nag-iimbak ka ng 1 GB ng file sa HDFS, sa wakas ay sakupin nito ang 3 GB na espasyo. Ang node ng pangalan ay pana-panahong ina-update ang metadata at pinapanatili ang pare-pareho na kadahilanan ng pagtitiklop.
  • Integridad ng datos: Pinag-uusapan ang Integridad ng Data tungkol sa kung ang data na nakaimbak sa aking HDFS ay tama o hindi. Patuloy na sinusuri ng HDFS ang integridad ng data na nakaimbak laban sa checkum nito. Kung nakakita ito ng anumang pagkakamali, nag-uulat ito sa pangalan node tungkol dito. Pagkatapos, ang name node ay lumilikha ng mga karagdagang bagong replica at samakatuwid ay tinatanggal ang mga nasirang kopya.
  • Mataas na Paglabas: Ang throughput ay ang dami ng gawaing nagawa sa isang oras ng yunit. Pinag-uusapan nito kung gaano kabilis mong ma-access ang data mula sa file system. Talaga, nagbibigay ito sa iyo ng isang pananaw tungkol sa pagganap ng system. Tulad ng nakita mo sa halimbawa sa itaas kung saan ginamit namin ang sampung machine nang sama-sama upang mapahusay ang pagkalkula. Doon nagawa naming bawasan ang oras ng pagproseso mula 43 minuto sa isang lamang 4.3 minuto tulad ng lahat ng mga machine ay gumagana sa parallel. Samakatuwid, sa pamamagitan ng pagproseso ng data nang kahanay, nabawasan namin ang oras ng pagpoproseso nang labis at sa gayon, nakamit ang mataas na throughput.
  • Lokalidad ng Data: Pinag-uusapan ng lokalidad ng data ang tungkol sa paglipat ng yunit ng pagproseso sa data kaysa sa data sa pagpoproseso ng yunit. Sa aming tradisyunal na sistema, dala namin ang data sa layer ng application at pagkatapos ay iproseso ito. Ngunit ngayon, dahil sa arkitektura at malaking dami ng data, gagawin ang pagdadala ng data sa layer ng applicationbawasan ang pagganap ng network sa isang kapansin-pansin na lawak.Kaya, sa HDFS, dinala namin ang bahagi ng pagkalkula sa mga node ng data kung saan nakatira ang data. Samakatuwid, hindi mo inililipat ang data, nagdadala ka ng programa o prosesoing bahagi sa data.

Kaya ngayon, mayroon kang isang maikling ideya tungkol sa HDFS at mga tampok nito. Ngunit tiwala sa akin mga tao, ito ay lamang ang dulo ng malaking bato ng yelo. Sa aking susunod , Sisisid ako ng malalim sa Arkitektura ng HDFS at ilalabas ko ang mga lihim sa likod ng tagumpay ng HDFS. Sama-sama naming sasagutin ang lahat ng mga katanungang iyon na binubulay-bulay sa iyong ulo tulad ng:

  • Ano ang nangyayari sa likod ng mga eksena kapag nabasa o nakasulat ka ng data sa Hadoop Distraced File System?
  • Ano ang mga algorithm tulad ng kamalayan sa rak na ginagawang mapagparaya sa HDFS?
  • Paano namamahala at lumilikha ng kopya ang Hadoop Distribution File System?
  • Ano ang mga operasyon ng block?

Ngayon na naintindihan mo ang HDFS at ang mga tampok nito, tingnan ang ni Edureka, isang pinagkakatiwalaang kumpanya sa pag-aaral sa online na may isang network na higit sa 250,000 nasiyahan na mga nag-aaral na kumalat sa buong mundo. Ang kurso sa Edureka Big Data Hadoop Certification Training ay tumutulong sa mga nag-aaral na maging dalubhasa sa HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume at Sqoop na gumagamit ng mga kaso ng paggamit ng real-time sa Retail, Social Media, Aviation, Turismo, Pananalapi domain.

May tanong ba sa amin? Mangyaring banggitin ito sa seksyon ng mga komento at babalikan ka namin.