I-install ang Hadoop: Pagse-set up ng isang Single Node Hadoop Cluster



Ang tutorial na ito ay isang sunud-sunod na gabay upang mai-install ang Hadoop cluster at i-configure ito sa isang solong node. Ang lahat ng mga hakbang sa pag-install ng Hadoop ay para sa CentOS machine.

I-install ang Hadoop: Pagse-set up ng isang Single Node Hadoop Cluster

Mula sa aming mga nakaraang blog sa , dapat ay nakuha mo ang isang teoretikal na ideya tungkol sa Hadoop, HDFS at ang arkitektura nito.Ngunit upang makuha kailangan mo ng mabuting kaalaman sa kamay.Inaasahan kong nagustuhan mo ang aming nakaraang blog sa , ngayon ay dadalhin kita sa praktikal na kaalaman tungkol sa Hadoop at HDFS. Ang unang hakbang pasulong ay i-install ang Hadoop.

Mayroong dalawang paraan upang mai-install ang Hadoop, ibig sabihin Single node at Multi node .





Single cluster ng node nangangahulugan lamang ng isang pagpapatakbo ng DataNode at pag-set up ng lahat ng NameNode, DataNode, ResourceManager at NodeManager sa isang solong machine. Ginagamit ito para sa mga hangarin sa pag-aaral at pagsubok. Halimbawa, isaalang-alang natin ang isang halimbawang data na itinakda sa loob ng isang industriya ng pangangalagang pangkalusugan. Kaya, para sa pagsubok kung nakaiskedyul ang mga trabaho sa Oozie ng lahat ng mga proseso tulad ng pagkolekta, pagsasama-sama, pag-iimbak at pagproseso ng data sa isang tamang pagkakasunud-sunod, gumagamit kami ng solong node cluster. Madali at mahusay nitong masusubukan ang sunud-sunod na daloy ng trabaho sa isang mas maliit na kapaligiran kumpara sa malalaking kapaligiran na naglalaman ng mga terabyte ng data na ipinamamahagi sa daan-daang mga machine.

Habang nasa a Multi node cluster , mayroong higit sa isang DataNode na tumatakbo at ang bawat DataNode ay tumatakbo sa iba't ibang mga machine. Ang multi node cluster ay praktikal na ginagamit sa mga organisasyon para sa pag-aaral ng Big Data. Isinasaalang-alang ang halimbawa sa itaas, sa real time kapag nakikipag-usap kami sa mga petabyte ng data, kailangan itong ipamahagi sa daan-daang mga machine na ipoproseso. Kaya, dito gumagamit kami ng multi node cluster.



Sa blog na ito, ipapakita ko sa iyo kung paano i-install ang Hadoop sa isang solong node cluster.

Mga Pangangailangan

  • VIRTUAL BOX : ginagamit ito para sa pag-install ng operating system dito.
  • OPERATING SYSTEM : Maaari mong mai-install ang Hadoop sa mga operating system na batay sa Linux. Ang Ubuntu at CentOS ay karaniwang ginagamit. Sa tutorial na ito, gumagamit kami ng CentOS.
  • JAVA : Kailangan mong i-install ang Java 8 na pakete sa iyong system.
  • HADOOP : Kailangan mo ng Hadoop 2.7.3 na package.

I-install ang Hadoop

Hakbang 1: Pindutin dito upang i-download ang Java 8 Package. I-save ang file na ito sa iyong direktoryo sa bahay.

Hakbang 2: I-extract ang Java Tar File.

Utos : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - I-install ang Hadoop - Edureka



Fig: Pag-install ng Hadoop - Pagkuha ng Mga Java File

Hakbang 3: I-download ang Hadoop 2.7.3 Package.

Utos : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

ang aking mga tutorial sa sql para sa mga nagsisimula

Fig: Pag-install ng Hadoop - Pag-download ng Hadoop

Hakbang 4: I-extract ang Hadoop tar File.

Utos : tar -xvf hadoop-2.7.3.tar.gz

Fig: Pag-install ng Hadoop - Pagkuha ng mga Hadoop File

Hakbang 5: Idagdag ang mga landas ng Hadoop at Java sa bash file (.bashrc).

Buksan . bashrc file Ngayon, idagdag ang Hadoop at Java Path tulad ng ipinakita sa ibaba.

Utos : vi .bashrc

Fig: Pag-install ng Hadoop - Pag-set ng Variable ng Kapaligiran

Pagkatapos, i-save ang bash file at isara ito.

Para sa paglalapat ng lahat ng mga pagbabagong ito sa kasalukuyang Terminal, ipatupad ang source command.

Utos : pinagmulan .bashrc

Fig: Pag-install ng Hadoop - Nagre-refresh ang mga variable ng kapaligiran

Upang matiyak na ang Java at Hadoop ay na-install nang maayos sa iyong system at maaaring ma-access sa pamamagitan ng Terminal, emagpatupad ng mga utos na bersyon ng java -version at hadoop na bersyon.

Utos : java-pagbagong loob

Fig: Pag-install ng Hadoop - Sinusuri ang Bersyon ng Java

Utos : hadoopbersyon

Fig: Pag-install ng Hadoop - Sinusuri ang Bersyon ng Hadoop

Hakbang 6 : I-edit ang .

Utos: cd hadoop-2.7.3 / etc / hadoop /

Utos: ls

Ang lahat ng mga file ng pagsasaayos ng Hadoop ay matatagpuan sa hadoop-2.7.3 / etc / hadoop direktoryo tulad ng nakikita mo sa snapshot sa ibaba:

Fig: Pag-install ng Hadoop - Mga File sa Pag-configure ng Hadoop

Hakbang 7 : Buksan core-site.xml at i-edit ang pag-aari na nabanggit sa ibaba sa loob ng tag ng pagsasaayos:

core-site.xml Ipinapaalam sa Hadoop daemon kung saan tumatakbo ang NameNode sa kumpol. Naglalaman ito ng mga setting ng pagsasaayos ng Hadoop core tulad ng mga setting ng I / O na karaniwan sa HDFS & MapReduce.

Utos : vi core-site.xml

halimbawa ng cucumber java selenium webdriver

Fig: Pag-install ng Hadoop - Pag-configure ng core-site.xml

fs.default.name hdfs: // localhost: 9000

Hakbang 8: I-edit hdfs-site.xml at i-edit ang pag-aari na nabanggit sa ibaba sa loob ng tag ng pagsasaayos:

hdfs-site.xml naglalaman ng mga setting ng pagsasaayos ng mga HDFS daemon (ibig sabihin, NameNode, DataNode, Secondary NameNode). Kasama rin dito ang kadahilanan ng pagtitiklop at laki ng pag-block ng HDFS.

Utos : vi hdfs-site.xml

Fig: Pag-install ng Hadoop - Pag-configure ng hdfs-site.xml

dfs.replication 1 dfs.permit false

Hakbang 9 : I-edit ang mapred-site.xml file at i-edit ang pag-aaring nabanggit sa ibaba sa loob ng tag ng pagsasaayos:

mapred-site.xml naglalaman ng mga setting ng pagsasaayos ng application ng MapReduce tulad ng bilang ng JVM na maaaring tumakbo nang kahanay, ang laki ng mapper at proseso ng reducer, magagamit ang mga CPU core para sa isang proseso, atbp.

Sa ilang mga kaso, hindi magagamit ang mapred-site.xml file. Kaya, kailangan nating lumikha ng mapred-site.xml filegamit ang template ng mapred-site.xml.

Utos : cp mapred-site.xml.template mapred-site.xml

Utos : kami naman mapred-lugar.xml.

Fig: Pag-install ng Hadoop - Pag-configure ng mapred-site.xml

mapreduce.framework.name yarn

Hakbang 10: I-edit yarn-site.xml at i-edit ang pag-aari na nabanggit sa ibaba sa loob ng tag ng pagsasaayos:

yarn-site.xml naglalaman ng mga setting ng pagsasaayos ng ResourceManager at NodeManager tulad ng laki ng pamamahala ng memorya ng application, ang operasyon na kinakailangan sa programa at algorithm, atbp.

Utos : vi yarn-site.xml

Fig: Pag-install ng Hadoop - Pag-configure ng yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Hakbang 11: I-edit hadoop-env.sh at idagdag ang Path ng Java tulad ng nabanggit sa ibaba:

hadoop-env.sh naglalaman ng mga variable ng kapaligiran na ginagamit sa script upang patakbuhin ang Hadoop tulad ng landas sa bahay ng Java, atbp.

Utos : kami naman hadoop-env.sh

Fig: Pag-install ng Hadoop - Pag-configure ng hadoop-env.sh

Hakbang 12: Pumunta sa direktoryo sa Hadoop sa bahay at i-format ang NameNode.

Utos : CD

Utos : cd hadoop-2.7.3

Utos : layunin ng bin / hadoop -format

Fig: Pag-install ng Hadoop - Pag-format ng NameNode

Ini-format nito ang HDFS sa pamamagitan ng NameNode. Ang utos na ito ay naisasagawa lamang sa unang pagkakataon. Ang pag-format ng file system ay nangangahulugang pagsisimula ng direktoryo na tinukoy ng variable ng dfs.name.dir.

Huwag kailanman format, pataas at pagpapatakbo ng Hadoop filesystem. Mawawala sa iyo ang lahat ng iyong data na nakaimbak sa HDFS.

Hakbang 13: Kapag na-format ang NameNode, pumunta sa direktoryo ng hadoop-2.7.3 / sbin at simulan ang lahat ng mga daemon.

Utos: cd hadoop-2.7.3 / sbin

Alinman maaari mong simulan ang lahat ng mga daemon sa isang solong utos o gawin ito nang paisa-isa.

Utos: ./ simulan- lahat.sh

Ang utos sa itaas ay isang kumbinasyon ng start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

O maaari mong patakbuhin ang lahat ng mga serbisyo nang paisa-isa tulad ng sa ibaba:

Simula ng NameNode:

Ang NameNode ay ang sentro ng isang HDFS file system. Pinapanatili nito ang puno ng direktoryo ng lahat ng mga file na nakaimbak sa HDFS at sinusubaybayan ang lahat ng file na nakaimbak sa buong kumpol.

Utos: ./hadoop-daemon.sh simulan ang layunin

Fig: Pag-install ng Hadoop - Simula ng NameNode

kung kundisyon sa sql query

Simulan ang DataNode:

Sa pagsisimula, ang isang DataNode ay kumokonekta sa Namenode at tumutugon ito sa mga kahilingan mula sa Namenode para sa iba't ibang mga operasyon.

Utos: ./hadoop-daemon.sh simulan ang datanode

Fig: Pag-install ng Hadoop - Simula ng DataNode

Simulan ang ResourceManager:

Ang ResourceManager ay ang master na gumagabay sa lahat ng magagamit na mapagkukunan ng cluster at sa gayon ay makakatulong sa pamamahala ng mga ipinamamahaging aplikasyon na tumatakbo sa YARN system. Ang gawain nito ay upang pamahalaan ang bawat NodeManagers at ang bawat application na ApplicationMaster.

Utos: ./yarn-daemon.sh simulan ang resourcecemanager

Fig: Pag-install ng Hadoop - Simula sa ResourceManager

Simulan ang NodeManager:

Ang NodeManager sa bawat balangkas ng makina ay ang ahente na responsable para sa pamamahala ng mga lalagyan, pagsubaybay sa kanilang paggamit ng mapagkukunan at pag-uulat ng pareho sa ResourceManager.

Utos: ./yarn-daemon.sh simulan ang nodemanager

Fig: Pag-install ng Hadoop - Simula sa NodeManager

Simulan ang JobHistoryServer:

Ang JobHistoryServer ay responsable para sa paglilingkod sa lahat ng mga kahilingan na nauugnay sa kasaysayan ng trabaho mula sa client.

Utos : ./mr-jobhistory-daemon.sh simulan ang historyserver

Hakbang 14: Upang suriin na ang lahat ng mga serbisyo ng Hadoop ay nakabukas na, patakbuhin ang utos sa ibaba.

Utos: jps

Fig: Pag-install ng Hadoop - Sinusuri ang Mga Daemon

Hakbang 15: Ngayon buksan ang browser ng Mozilla at pumunta sa localhost : 50070 / dfshealth.html upang suriin ang interface ng NameNode.

Fig: Pag-install ng Hadoop - Simula sa WebUI

Binabati kita, matagumpay mong na-install ang isang solong node Hadoop cluster nang sabay-sabay.Sa susunod nating blog ng , sasaklawin namin kung paano i-install ang Hadoop sa isang multi node cluster din.

Ngayon na naintindihan mo kung paano i-install ang Hadoop, tingnan ang ni Edureka, isang pinagkakatiwalaang kumpanya sa pag-aaral sa online na may isang network na higit sa 250,000 nasiyahan na mga nag-aaral na kumalat sa buong mundo. Ang kurso sa Edureka Big Data Hadoop Certification Training ay tumutulong sa mga nag-aaral na maging dalubhasa sa HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume at Sqoop na gumagamit ng mga kaso ng paggamit ng real-time sa Retail, Social Media, Aviation, Turismo, Pananalapi domain.

May tanong ba sa amin? Mangyaring banggitin ito sa seksyon ng mga komento at babalikan ka namin.