Hadoop 2.0 - Mga Madalas Itanong



Ang interes sa Hadoop ay tumaas sa maraming mga tiklop sa huling ilang taon. Sinasagot ng post na ito ang iyong mga query at nililinaw ang maraming pag-aalinlangan tungkol sa Hadoop 2.0 at paggamit nito.

Ito ay isang follow up na post na may sagot sa karaniwang tinanong sa panahon ng pampublikong webinar ng edureka! sa .

Mga Madalas Itanong tungkol sa Hadoop

Deepak:





Ano ang Hadoop?
Ang Apache Hadoop ay isang framework ng Open Source software para sa pag-iimbak at malakihang pagproseso ng mga data-set sa isang kumpol ng hardware ng kalakal. Ito ay isang framework ng Open source Data Management software na may scale-out na imbakan at ipinamamahagi na pagproseso. Binubuo at ginagamit ito ng isang pandaigdigang pamayanan ng mga nag-aambag at gumagamit.

Magbasa nang higit pa sa aming Hadoop blog post at .



Maghanap:

Ano ang malaking data na gumagamit ng mga kaso sa industriya ng paglalakbay, transportasyon at mga airline?

Maaraw:



Maaari mo ba kaming ituro sa ilang sample ng totoong buhay ng Pagpapatupad ng Hadoop na maaari naming pag-aralan?
Livi kamingsa isang panahon ng pagtaas ng kasikatan sa rurok na oras. Ang mga operator ng transportasyon ay patuloy na naghahanap upang makahanap ng mga mabisang paraan upang maihatid ang kanilang mga serbisyo habang pinapanatili ang kanilang fleet sa transportasyon sa mabuting kondisyon. Ang paggamit ng Big Data Analytics sa domain na ito ay maaaring makatulong sa organisasyon sa:

  • Pag-optimize ng ruta
  • Geospatial analytics
  • Mga pattern sa trapiko at kasikipan
  • Pagpapanatili ng mga assets
  • Pamamahala ng Kita (hal. Airline)
  • Pamamahala ng imbentaryo
  • Pag-iingat ng gasolina
  • Target na Marketing
  • Katapatan ng customer
  • Pagtataya ng kapasidad
  • Pagganap at pag-optimize sa network

Ilang mga Kaso sa Paggamit ng Totoong mundo ay:
sa) Pagtukoy sa mga gastos sa Paglipad
b) Pagmomodelo sa Paghula para sa Logistics ng Imbentaryo
c) Orbitz Worldwide - Mga pattern sa Pagbili ng Customer
d) Anim na Super-Scale Hadoop Deployments
ay) Hadoop - Higit sa Mga Idagdag
f) Hadoop sa Enterprise

Maaari mong malaman ang tungkol sa higit pa tungkol sa pagpapatupad ng Hadoop Real-world sa:

Mag-ayos:

Tungkol ba sa paghawak at pagproseso ng data ang Hadoop? Paano kami pupunta para sa Pag-uulat at Visual Analytics. Maaari bang magamit ang Qlikview, Tableau sa tuktok ng Hadoop?
Ang pangunahing mga bahagi ng Hadoop na HDFS at MapReduce ay tungkol sa Storage ng Data at Pagproseso. HDFS para sa imbakan at MapReduce para sa pagproseso. Ngunit ang mga pangunahing bahagi ng Hadoop tulad ng Pig at Hive ay ginagamit para sa analytics. Para sa Visual Reports Tableau, ang QlikView ay maaaring konektado sa Hadoop para sa Visual Reporting.

Amit:

Hadoop vs. mongoDB
Ginagamit ang MongoDB bilang 'Operational' na real-time na tindahan ng data samantalang ang Hadoop ay ginagamit para sa pagproseso at pag-aaral ng data ng offline na batch.
Ang mongoDB ay isang oriented sa dokumento, hindi na schema na store ng data na maaari mong gamitin sa isang web application bilang isang backend sa halip na RDBMS tulad ng MySQL samantalang ang Hadoop ay pangunahing ginagamit bilang isang scale-out na imbakan at ibinahagi na pagproseso para sa maraming halaga ng data.

Magbasa nang higit pa sa aming mongoDB at Hadoop blog post .

pagdaragdag ng dalawang numero sa java

Dito:

Ang Apache Spark ay isang bahagi ng Hadoop ?
Ang Apache Spark ay isang mabilis at pangkalahatang engine para sa malawakang pagproseso ng data. Ang spark ay mas mabilis at sinusuportahan ang pagpoproseso ng In-Memory. Ang Spark execution engine ay nagpapalawak ng uri ng mga pag-compute ng workload na Hadoop ay maaaring hawakan at maaaring tumakbo sa Hadoop 2.0 YARN cluster. Ito ay isang sistema ng balangkas sa pagpoproseso na nagbibigay-daan sa pag-iimbak ng mga bagay na In-Memory (RDD) kasama ang kakayahang maproseso ang mga bagay na ito gamit ang pagsasara ng Scala. Sinusuportahan nito ang Grap, Warehouse ng Data, Pag-aaral ng Machine at pagproseso ng Stream.

Kung mayroon kang isang kumpol ng Hadoop 2, maaari mong patakbuhin ang Spark nang walang kinakailangang pag-install. Kung hindi man, ang Spark ay madaling magpatakbo ng standalone o sa EC2 o Mesos. Maaari itong basahin mula sa HDFS, HBase, Cassandra, at anumang mapagkukunan ng data ng Hadoop.

Magbasa nang higit pa sa Spark dito .

Prasad:

Ano ang Apache Flume?
Ang Apache Flume ay isang ipinamamahagi, maaasahan, at magagamit na system para sa mahusay na pagkolekta, pagsasama-sama at paglipat ng maraming data ng log mula sa maraming magkakaibang mapagkukunan sa isang sentralisadong mapagkukunan ng data.

Amit:

SQL kumpara sa NO-SQL Databases
Ang mga database ng NoSQL ay Susunod na Mga Database ng Henerasyon at kadalasang tinutugunan ang ilan sa mga puntos

  • hindi pang-ugnay
  • ipinamahagi
  • open-source
  • pahalang na masusukat

Kadalasan maraming mga katangian ang nalalapat tulad ng walang schema, madaling suporta sa pagtitiklop, simpleng API, kalaunan pare-pareho / BASE (hindi ACID), isang malaking halaga ng data at marami pa. Halimbawa, iilan sa pagkakaiba-iba ang:

  • Ang mga database ng NoSQL ay sumukat nang pahalang, nagdaragdag ng higit pang mga server upang makitungo sa mas malaking mga karga. Ang mga database ng SQL, sa kabilang banda, ay karaniwang sinusukat nang patayo, na nagdaragdag ng higit at maraming mga mapagkukunan sa isang solong server habang tumataas ang trapiko.
  • Kinakailangan ka ng mga database ng SQL na tukuyin ang iyong mga iskema bago magdagdag ng anumang impormasyon at data ngunit ang mga database ng NoSQL ay walang schema ay hindi nangangailangan ng kahulugan ng schema nang maaga.
  • Ang mga database ng SQL ay batay sa talahanayan na may mga hilera at haligi na sumusunod sa mga prinsipyo ng RDBMS samantalang ang mga database ng NoSQL ay dokumento, mga pares na key-value, mga graphic o mga tindahan ng malawak na haligi.
  • Ang mga database ng SQL ay gumagamit ng SQL (nakabalangkas na wika ng query) para sa pagtukoy at pagmamanipula ng data. Sa database ng NoSQL, ang mga query ay nag-iiba mula sa isang database papunta sa isa pa.

Mga patok na SQL Database: MySQL, Oracle, Postgres at MS-SQL
Patok Mga Database ng NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j at CouchDB

Ang code ng serye ng fibonacci sa Java

Suriin ang aming mga blog sa Hadoop at NoSQL mga database at Kalamangan ng isang tulad database:

Koteswararao:

Mayroon bang built-in na Cluster Technology ang Hadoop?
Ang isang Hadoop Cluster ay gumagamit ng arkitekturang Master-Slave. Binubuo ito ng isang Single Master (NameNode) at isang Cluster of Slaves (DataNodes) upang maiimbak at maproseso ang data. Ang Hadoop ay idinisenyo upang tumakbo sa isang malaking bilang ng mga machine na hindi nagbabahagi ng anumang memorya o mga disk. Ang mga DataNode na ito ay na-configure bilang paggamit ng Cluster . Gumagamit ang Hadoop ng isang konsepto ng pagtitiklop upang matiyak na hindi bababa sa isang kopya ng data ang magagamit sa cluster sa lahat ng oras. Dahil maraming kopya ng data, ang data na nakaimbak sa isang server na nag-offline o namatay ay maaaring awtomatikong kopyahin mula sa isang kilalang mahusay na kopya.

Dinesh:

Ano ang isang Trabaho sa Hadoop? Ano ang lahat na maaaring magawa sa pamamagitan ng isang Trabaho?
Sa Hadoop, ang isang Trabaho ay isang programa ng MapReduce upang maproseso / pag-aralan ang data. Ang terminong MapReduce ay talagang tumutukoy sa dalawang magkahiwalay at magkakaibang gawain na ginampanan ng mga programa ng Hadoop. Ang una ay ang gawain sa Mapa, na tumatagal ng isang hanay ng data at ginawang ito sa isa pang hanay ng mga intermediate na data, kung saan ang mga indibidwal na elemento ay pinaghiwalay sa mga pares ng key-value. Ang pangalawang bahagi ng isang MapReduce Job, ang Gawing gawain, kumukuha ng output mula sa isang mapa bilang input at pinagsasama ang mga pares ng key-halaga sa isang mas maliit na hanay ng pinagsama-samang key-value na pares. Tulad ng ipinahihiwatig ng pagkakasunud-sunod ng pangalang MapReduce, ang gawain na Bawasan ay laging ginagawa pagkatapos makumpleto ang mga gawain sa Mapa. Magbasa nang higit pa sa MapReduce Job .

Sukruth:

Ano ang espesyal sa NameNode ?
Ang NameNode ay ang puso ng isang HDFS file system. Pinapanatili nito ang metadata tulad ng puno ng direktoryo ng lahat ng mga file sa file system at sinusubaybayan kung saan sa buong kumpol ang data ng file ay itinatago. Ang aktwal na data ay nakaimbak sa mga DataNode bilang mga bloke ng HDFS.
Ang mga application ng kliyente ay nakikipag-usap sa NameNode tuwing nais nilang hanapin ang isang file, o kahit kailan nila nais na idagdag / kopyahin / ilipat / tanggalin ang isang file. Tumutugon ang NameNode sa mga matagumpay na kahilingan sa pamamagitan ng pagbabalik ng isang listahan ng mga nauugnay na server ng DataNodes kung saan nakatira ang data. Magbasa nang higit pa sa HDFS Architecture .

Dinesh:

Kailan ipinakilala ang Hadoop 2.0 sa merkado?
Ang Apache Software foundation (ASF), ang bukas na pangkat ng mapagkukunan na namamahala sa Hadoop Development ay inihayag sa blog nito noong ika-15 ng Oktubre 2013 na ang Hadoop 2.0 ay Pangkalahatang Magagamit na (GA). Nangangahulugan ang anunsyo na pagkatapos ng mahabang paghihintay, handa na ang Apache Hadoop 2.0 at YARN para sa pag-deploy ng Production. Higit pa sa Blog.

Dinesh:

Ano ang ilang mga halimbawa ng application na hindi MapReduce Big Data?
Ang MapReduce ay mahusay para sa maraming mga application upang malutas ang mga problema sa Big Data ngunit hindi para sa lahat ng iba pang mga modelo ng programa na mas mahusay na maghatid ng mga kinakailangan tulad ng pagproseso ng Graph (hal., Google Pregel / Apache Giraph) at umuulit na pagmomodelo sa Message Passing Interface (MPI).

Marish:

Paano nakaayos at na-index ang data sa HDFS?
Ang data ay pinaghiwa-hiwalay sa mga bloke ng 64 MB (mai-configure ng isang parameter) at nakaimbak sa HDFS. Nag-iimbak ang NameNode ng impormasyon sa pag-iimbak ng mga bloke na ito bilang Block ID's sa RAM nito (NameNode Metadata). Maaaring ma-access ng mga trabaho ang MapReduce ang mga bloke na ito gamit ang metadata na nakaimbak sa NameNode RAM.

Shashwat:

Maaari ba naming magamit ang parehong MapReduce (MRv1) at MRv2 (na may YARN) sa parehong kumpol?
Ang Hadoop 2.0 ay nagpakilala ng isang bagong framework na YARN upang magsulat at magpatupad ng iba't ibang mga application sa Hadoop. Kaya, ang YARN at MapReduce ay dalawang magkakaibang konsepto sa Hadoop 2.0 at hindi dapat ihalo at gamitin na palitan. Ang tamang tanong ay 'Posible bang patakbuhin ang parehong MRv1 at MRv2 sa isang YARN na pinagana ang Hadoop 2.0 Cluster?' Ang sagot sa katanungang ito ay a 'Hindi' bilang kahit na ang isang Hadoop Cluster ay maaaring mai-configure upang patakbuhin ang parehong MRv1 at MRv2 ngunit maaaring magpatakbo lamang ng isang hanay ng mga daemon sa anumang oras ng oras. Pareho sa mga balangkas na ito ang gumagamit ng parehong mga file ng pagsasaayos ( yarn-site.xml at mapred-site.xml ) upang patakbuhin ang mga daemon, samakatuwid, isa lamang sa dalawang pagsasaayos ang maaaring paganahin sa isang Hadoop Cluster.

Manika:

Ano ang pagkakaiba sa pagitan ng Next Generation MapReduce (MRv2) at YARN?
Ang YARN at Next Generation MapReduce (MRv2) ay dalawang magkakaibang konsepto at teknolohiya sa Hadoop 2.0. Ang YARN ay isang balangkas ng software na maaaring magamit upang patakbuhin hindi lamang ang MRv2 ngunit ang iba pang mga application. Ang MRv2 ay isang application framework na nakasulat gamit ang YARN API at tumatakbo ito sa loob ng YARN.

Bharat:

Nagbibigay ba ang Hadoop 2.0 ng paatras na pagiging tugma para sa mga aplikasyon ng Hadoop 1.x?
Neha:

Nangangailangan ba ang Hadoop 1.0 hanggang 2.0 migration ng mabibigat na application code paglipat?
Hindi, Karamihan sa application na binuo gamit ang 'org.apache.hadoop.mapred' API, ay maaaring tumakbo sa YARN nang walang anumang recompilation. Ang YARN ay binary katugma sa mga aplikasyon ng MRv1 at maaaring magamit ang 'bin / hadoop' upang isumite ang mga application na ito sa YARN. Magbasa nang higit pa tungkol dito dito .

Sherin:

Ano ang mangyayari kung ang Resource Manager node ay nabigo sa Hadoop 2.0?
Simula mula sa Hadoop Release 2.4.0, magagamit din ang suporta ng Mataas na Pagiging Magagamit para sa Resource Manager. Gumagamit ang ResourceManager ng Apache ZooKeeper para sa fail-over. Kapag nabigo ang node ng Resource Manager, ang isang pangalawang node ay maaaring mabilis na mabawi sa pamamagitan ng estado ng cluster na nai-save sa ZooKeeper. Ang ResourceManager, sa isang fail-over, na-restart ang lahat ng mga nakapila at tumatakbo na mga application.

Sabbirali:

Gumagana ba ang balangkas ng Apado's Hadoop sa Cloudera Hadoop?
Ang Apache Hadoop ay ipinakilala noong 2005 na may pangunahing makina ng pagproseso ng MapReduce upang suportahan ang pamamahagi ng pagproseso ng mga malalaking workload ng data na nakaimbak sa HDFS. Ito ay isang Open Source Project at maraming distribusyon (katulad ng Linux). Ang Cloudera Hadoop (CDH) ay isang tulad pamamahagi mula sa Cloudera. Iba pang Mga Katulad na pamamahagi ay ang HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights atbp.

kung paano baguhin ang landas ng java

Arulvadivel:

Anumang madaling paraan upang mai-install ang Hadoop sa aking Laptop at subukan ang paglipat ng Oracle database sa Hadoop?
Kaya mo umpisahan kasama isang HortonWorks Sandbox o Cloudera Quick VM sa iyong Laptop (na may hindi bababa sa 4 GB RAM at i3 o mas mataas na processor). Gumamit ng SQOOP upang ilipat ang data mula sa Oracle patungong Hadoop tulad ng ipinaliwanag dito .

Bhabani:

Ano ang pinakamahusay na mga libro na magagamit upang malaman ang Hadoop?
Magsimula sa Hadoop: Ang Tiyak na Gabay ni Tom White at Mga Operasyon ng Hadoop ni Eric Sammer.

Mahendra:

Mayroon bang magagamit na pagbabasa para sa Hadoop 2.0 tulad ng Hadoop na tumutukoy sa gabay?
Suriin ang pinakabagong pagdating sa mga bookshelf na isinulat ng iilan sa mga tagalikha ng Hadoop 2.0.

Abangan ang higit pang mga katanungan sa seryeng ito.