APACHE SPARK VS HADOOP: PAGPILI NG TAMANG BALANGKAS

Sisimulan ko ang blog na Apache Spark vs Hadoop sa pamamagitan ng unang pagpapakilala sa Hadoop at Spark upang maitakda ang tamang konteksto para sa parehong mga balangkas. Pagkatapos, sa pagsulong ay ihinahambing namin ang parehong mga balangkas ng Big Data sa iba't ibang mga parameter upang suriin ang kanilang mga kalakasan at kahinaan.Ngunit, maging ang kinalabasan ng aming paghahambing, dapat mong malaman na ang parehong Spark at Hadoop ay mahalagang bahagi ng .

Apache Spark vs Hadoop: Panimula sa Hadoop

Ang Hadoop ay isang balangkas na nagbibigay-daan sa iyo upang iimbak muna ang Big Data sa isang ipinamigay na kapaligiran upang maproseso mo ito nang pareho. Mayroong karaniwang dalawang bahagi sa Hadoop:

HDFS

Lumilikha ang HDFS ng isang abstraction ng mga mapagkukunan, hayaan mo akong gawing simple para sa iyo. Katulad ng virtualization, maaari mong makita ang HDFS nang lohikal bilang isang solong yunit para sa pag-iimbak ng Big Data, ngunit sa totoo lang ay itinatago mo ang iyong data sa maraming mga node sa isang ibinahaging fashion. Dito, mayroon kang arkitektura ng master-slave. Sa HDFS, ang Namenode ay isang master node at ang Datanodes ay alipin.

NameNode

Ito ang master daemon na nagpapanatili at namamahala sa DataNodes (mga node ng alipin). Itinatala nito ang metadata ng lahat ng mga file na nakaimbak sa kumpol, hal. lokasyon ng mga bloke na nakaimbak, ang laki ng mga file, pahintulot, hierarchy, atbp Itinatala nito ang bawat pagbabago na nagaganap sa metadata ng file system.

Halimbawa, kung ang isang file ay tinanggal sa HDFS, agad na itatala ito ng NameNode sa EditLog. Regular itong nakakatanggap ng isang Heartbeat at isang ulat ng block mula sa lahat ng mga DataNode sa kumpol upang matiyak na ang DataNodes ay live. Nagtatago ito ng isang tala ng lahat ng mga bloke sa HDFS at kung saan node ang mga bloke na ito ay nakaimbak.

DataNode

Ito ang mga daemon ng alipin na tumatakbo sa bawat machine ng alipin. Ang aktwal na data ay nakaimbak sa Mga DataNode. Responsable sila sa paghahatid ng mga kahilingan na nabasa at sumulat mula sa mga kliyente. May pananagutan din sila para sa paglikha ng mga bloke, pagtanggal ng mga bloke at pagkopya ng pareho batay sa mga desisyon na kinuha ng NameNode.

YARN

Ginaganap ng YARN ang lahat ng iyong mga aktibidad sa pagproseso sa pamamagitan ng paglalaan ng mga mapagkukunan at pag-iiskedyul ng mga gawain. Mayroon itong dalawang pangunahing daemon, ibig sabihin ResourceManager at NodeManager .

ResourceManager

Ito ay isang antas ng kumpol (isa para sa bawat kumpol) na sangkap at tumatakbo sa master machine. Namamahala ito ng mga mapagkukunan at iskedyul ng mga application na tumatakbo sa tuktok ng YARN.

NodeManager

Ito ay isang bahagi ng antas ng node (isa sa bawat node) at tumatakbo sa bawat machine ng alipin. Responsable ito para sa pamamahala ng mga lalagyan at pagsubaybay sa paggamit ng mapagkukunan sa bawat lalagyan. Sinusubaybayan din nito ang kalusugan ng node at pamamahala ng log. Patuloy itong nakikipag-usap sa ResourceManager upang manatiling napapanahon. Kaya, maaari kang magsagawa ng parallel na pagproseso sa HDFS gamit ang MapReduce.

overriding vs overloading sa java

Upang matuto nang higit pa tungkol sa Hadoop, maaari kang dumaan dito Blog. Ngayon, na nakatakda tayong lahat sa pagpapakilala ng Hadoop, magpatuloy tayo sa pagpapakilala ng Spark.

Apache Spark vs Hadoop: Panimula sa Apache Spark

Ang Apache Spark ay isang balangkas para sa real time data analytics sa isang ipinamahagi na kapaligiran sa computing. Nagsasagawa ito ng mga computation na nasa memorya upang madagdagan ang bilis ng pagproseso ng data. Mas mabilis ito para sa pagproseso ng malalaking sukat ng data habang nagsasamantala sa mga pagkalkula na nasa memorya at iba pang mga pag-optimize. Samakatuwid, nangangailangan ito ng mataas na lakas sa pagpoproseso.

Ang nababanat na Ipinamahaging Dataset (RDD) ay isang pangunahing istraktura ng data ng Spark. Ito ay isang hindi nababago na ibinahaging koleksyon ng mga bagay. Ang bawat dataset sa RDD ay nahahati sa mga lohikal na partisyon, na maaaring makalkula sa iba't ibang mga node ng kumpol. Maaaring maglaman ang mga RDD ng anumang uri ng mga bagay na Python, Java, o Scala, kabilang ang mga klase na tinukoy ng gumagamit. Ginagawa itong mabilis at maaasahan ng mga sangkap ng spark. Ang Apache Spark ay may mga sumusunod na sangkap:

Spark Core - Ang Spark Core ay ang base engine para sa malakihan na parallel at namamahagi ng pagpoproseso ng data. Dagdag dito, ang mga karagdagang aklatan na itinayo sa tuktok ng core ay nagbibigay-daan sa magkakaibang mga pag-load para sa streaming, SQL, at pag-aaral ng makina. Ito ay responsable para sa pamamahala ng memorya at pagbawi ng pagkakamali, pag-iskedyul, pamamahagi at pagsubaybay ng mga trabaho sa isang kumpol at pakikipag-ugnay sa mga system ng imbakan
Spark Streaming - Ang Spark Streaming ay ang bahagi ng Spark na ginagamit upang maproseso ang real-time na data ng streaming. Kaya, ito ay isang kapaki-pakinabang na karagdagan sa pangunahing Spark API. Nagbibigay-daan ito sa pagproseso ng stream na high-throughput at mapagparaya sa kasalanan ng mga live na stream ng data
Spark SQL : Ang Spark SQL ay isang bagong module sa Spark na nagsasama ng pagpoproseso ng pakikipag-ugnay sa functional program API ng Spark. Sinusuportahan nito ang data ng pag-query sa alinman sa pamamagitan ng SQL o sa pamamagitan ng Wive Query na Wika. Para sa mga pamilyar sa RDBMS, ang Spark SQL ay magiging isang madaling paglipat mula sa iyong mga naunang tool kung saan maaari mong pahabain ang mga hangganan ng tradisyunal na pagproseso ng data na nauugnay.
GraphX : Ang GraphX ay ang Spark API para sa mga graph at graphic-parallel computation. Sa gayon, pinahahaba nito ang Spark RDD na may isang nababanat na Ipinamahagi na Graph ng Ari-arian. Sa isang mataas na antas, pinahahaba ng GraphX ang abstraction ng Spark RDD sa pamamagitan ng pagpapakilala sa nababanat na Ipinamahaging Graph ng Ari-arian: isang nakadirektang multigraph na may mga katangian na nakakabit sa bawat kaitaasan at gilid.
MLlib (Machine Learning): Ang MLlib ay kumakatawan sa Machine Learning Library. Ginagamit ang Spark MLlib upang maisagawa ang pag-aaral ng makina sa Apache Spark.

Tulad ng nakikita mo, ang Spark ay may naka-pack na mataas na antas ng mga aklatan, kabilang ang suporta para sa R, SQL, Python, Scala, Java atbp Ang mga pamantayang aklatan na ito ay nagdaragdag ng seamless pagsasama sa kumplikadong daloy ng trabaho. Sa paglipas nito, pinapayagan din nito ang iba't ibang mga hanay ng mga serbisyo na isama dito tulad ng MLlib, GraphX, SQL + Mga Frame ng Data, Mga serbisyo sa streaming atbp upang madagdagan ang mga kakayahan nito.

Upang matuto nang higit pa tungkol sa Apache Spark, maaari kang dumaan dito Blog. Ngayon ang lupa ay handa na para sa Apache Spark vs Hadoop. Unahan natin at ihambing ang Apache Spark sa Hadoop sa iba't ibang mga parameter upang maunawaan ang kanilang mga lakas.

Apache Spark vs Hadoop: Mga Parameter na Paghahambing

Pagganap

Mabilis ang spark dahil mayroon itong pagproseso ng memorya. Maaari din itong gumamit ng disk para sa data na hindi umaangkop sa memorya. Naghahatid ang pagpoproseso ng memorya ng Spark malapit sa real-time na analytics. Ginagawa nitong angkop ang Spark para sa system ng pagproseso ng credit card, pag-aaral ng makina, analytics ng seguridad at mga sensor ng Internet of Things.

Orihinal na na-setup ang Hadoop upang patuloy na mangalap ng data mula sa maraming mapagkukunan nang hindi nag-aalala tungkol sa uri ng data at iniimbak ito sa ibinahagi na kapaligiran. Gumagamit ang MapReduce ng pagproseso ng batch. Ang MapReduce ay hindi kailanman naitayo para sa pagproseso ng real-time, ang pangunahing ideya sa likod ng YARN ay kahanay na pagpoproseso sa ibinahagi na dataset.

Ang problema sa paghahambing sa dalawa ay naiiba ang pagganap nila ng pagproseso.

Dali ng Paggamit

Ang Spark ay mayroong mga API na madaling gamitin para sa Scala, Java, Python, at Spark SQL. Ang Spark SQL ay halos kapareho ng SQL, kaya't nagiging madali para sa mga developer ng SQL na malaman ito. Nagbibigay din ang Spark ng isang interactive na shell para sa mga developer upang magtanong at magsagawa ng iba pang mga pagkilos, at magkaroon ng agarang feedback.

Madali kang makakain ng data sa Hadoop alinman sa pamamagitan ng paggamit ng shell o pagsasama nito sa maraming mga tool tulad ng Sqoop, Flume atbp. Ang YARN ay isang balangkas lamang sa pagpoproseso at maaari itong isama sa maraming mga tool tulad ng Hive at Pig. Ang HIVE ay isang bahagi ng warehousing ng data na nagsasagawa ng pagbabasa, pagsusulat at pamamahala ng malaking mga hanay ng data sa isang ipinamamahagi na kapaligiran gamit ang interface na tulad ng SQL. Maaari mo itong daanan Hadoop ecosystem blog upang malaman ang tungkol sa iba't ibang mga tool na maaaring isama sa Hadoop.

Mga gastos

Ang Hadoop at Spark ay parehong Apache open source na mga proyekto, kaya't walang gastos para sa software. Ang gastos ay naiugnay lamang sa imprastraktura. Ang parehong mga produkto ay dinisenyo sa isang paraan na maaari itong tumakbo sa hardware ng kalakal na may mababang TCO.

Ngayon ay maaari kang nagtataka sa mga paraan kung saan magkakaiba ang mga ito. Ang imbakan at pagproseso sa Hadoop ay batay sa disk at ang Hadoop ay gumagamit ng karaniwang halaga ng memorya. Kaya, sa Hadoop kailangan namin ng maraming puwang ng disk pati na rin ang mas mabilis na mga disk. Nangangailangan din ang Hadoop ng maraming mga system upang ipamahagi ang disk I / O.

Dahil sa Apache Spark's sa pagpoproseso ng memorya nangangailangan ito ng maraming memorya, ngunit maaari itong harapin ang isang pamantayan ng bilis at dami ng disk. Tulad ng disk space ay isang medyo mura bilihin at dahil ang Spark ay hindi gumagamit ng disk I / O para sa pagproseso, sa halip ay nangangailangan ito ng malaking halaga ng RAM para sa pagpapatupad ng lahat ng nasa memorya. Kaya, ang sistema ng Spark ay nagkakaroon ng mas maraming gastos.

Ngunit oo, isang mahalagang bagay na dapat tandaan ay ang teknolohiya ng Spark ay binabawasan ang bilang ng mga kinakailangang system. Kailangan nito ng mas kaunting mga system na mas malaki ang gastos. Kaya, magkakaroon ng isang punto kung saan binabawasan ng Spark ang mga gastos sa bawat yunit ng pagkalkula kahit na may karagdagang kinakailangan sa RAM.

Pagpoproseso ng Data

Mayroong dalawang uri ng pagpoproseso ng data: Pagproseso ng Batch at Pagproseso ng Stream.

Pagproseso ng Batch vs Pagproseso ng Stream

Pagproseso ng Batch : Ang pagpoproseso ng batch ay naging mahalaga sa malaking mundo ng data. Sa pinakasimpleng term, gumagana ang pagproseso ng batch na may mataas na dami ng data na nakolekta sa loob ng isang panahon. Sa batch processing data ay unang nakolekta at pagkatapos ay naproseso na mga resulta ay ginawa sa isang susunod na yugto.

Ang pagproseso ng batch ay isang mahusay na paraan ng pagproseso ng malaki, static na mga hanay ng data. Pangkalahatan, nagsasagawa kami ng pagproseso ng batch para sa mga naka-archive na hanay ng data. Halimbawa, ang pagkalkula ng average na kita ng isang bansa o pagsuri sa pagbabago sa e-commerce noong nakaraang dekada.

Pagproseso ng stream : Ang pagproseso ng stream ay ang kasalukuyang kalakaran sa malaking mundo ng data. Kailangan ng oras ang bilis at impormasyong real-time, na kung saan ang ginagawa ng pagproseso ng singaw. Hindi pinapayagan ng pagproseso ng batch ang mga negosyo na mabilis na tumugon sa pagbabago ng mga pangangailangan ng negosyo sa real time, ang pagproseso ng stream ay nakakita ng mabilis na paglaki ng demand.

jobtracker at tasktracker sa hadoop

Bumabalik ngayon sa Apache Spark vs Hadoop, ang YARN ay isang karaniwang isang framework-processing framework. Kapag nagsumite kami ng isang trabaho sa YARN, nagbabasa ito ng data mula sa kumpol, nagsasagawa ng operasyon at isulat ang mga resulta pabalik sa kumpol. Pagkatapos ay binabasa muli nito ang na-update na data, isinasagawa ang susunod na operasyon at isulat ang mga resulta pabalik sa kumpol at iba pa.

Gumagawa ang Spark ng mga katulad na pagpapatakbo, ngunit gumagamit ito ng pagpoproseso ng in-memory at na-optimize ang mga hakbang. Pinapayagan ng GraphX ang mga gumagamit na tingnan ang parehong data tulad ng mga graph at bilang mga koleksyon. Ang mga gumagamit ay maaari ring ibahin ang anyo at sumali sa mga grap sa Resilient Distraced Datasets (RDDs).

Fault Tolerance

Ang Hadoop at Spark ay parehong nagbibigay ng tolerance ng pagkakamali, ngunit pareho ang magkakaiba ng diskarte. Para sa HDFS at YARN pareho, ang mga master daemon (ibig sabihin, NameNode & ResourceManager ayon sa pagkakabanggit) ay sumusuri sa tibok ng puso ng mga daemon ng alipin (ibig sabihin, DataNode at NodeManager ayon sa pagkakabanggit). Kung may nabigo na anumang daemon ng alipin, muling itinakda ng mga master daemon ang lahat ng nakabinbing at isinasagawang pagpapatakbo sa ibang alipin. Ang pamamaraang ito ay epektibo, ngunit maaari nitong makabuluhang taasan ang mga oras ng pagkumpleto para sa mga operasyon na may solong pagkabigo din. Tulad ng paggamit ng Hadoop ng hardware ng kalakal, isa pang paraan kung saan tinitiyak ng HDFS ang pagpaparaya ng kasalanan sa pamamagitan ng pagtitiklop ng data.

Tulad ng tinalakay sa itaas, ang mga RDD ay nagtatayo ng mga bloke ng Apache Spark. Nagbibigay ang mga RDD ng tolerance ng kasalanan sa Spark. Maaari silang mag-refer sa anumang dataset na naroroon sa panlabas na sistema ng imbakan tulad ng HDFS, HBase, nakabahaging filesystem. Maaari silang patakbuhin nang parallel.

Maaaring magpatuloy ang mga RDD ng isang dataset sa memorya sa mga pagpapatakbo, na ginagawang 10 beses na mas mabilis ang mga pagkilos sa hinaharap. Kung ang isang RDD ay nawala, awtomatiko itong makukuha muli sa pamamagitan ng paggamit ng mga orihinal na pagbabago. Ganito nagbibigay ang Spark ng tolerance ng pagkakasala.

Seguridad

Sinusuportahan ng Hadoop si Kerberos para sa pagpapatotoo, ngunit mahirap hawakan. Gayunpaman, sinusuportahan din nito ang mga third party vendor tulad ng LDAP (Lightweight Directory Access Protocol) para sa pagpapatotoo. Nag-aalok din sila ng pag-encrypt. Sinusuportahan ng HDFS ang mga tradisyonal na pahintulot sa file, pati na rin ang mga listahan ng kontrol sa pag-access (ACL). Nagbibigay ang Hadoop ng Pahintulot sa Antas ng Serbisyo, na ginagarantiyahan na ang mga kliyente ay may tamang pahintulot para sa pagsusumite ng trabaho.

Kasalukuyang sinusuportahan ng Spark ang pagpapatotoo sa pamamagitan ng isang nakabahaging lihim. Ang Spark ay maaaring isama sa HDFS at maaari itong gumamit ng mga HDFS ACL at mga pahintulot sa antas ng file. Maaari ding tumakbo ang Spark sa YARN na magagamit ang kakayahan ng Kerberos.

Mga case na ginagamit kung saan pinakamahusay na umaangkop ang Hadoop:

Sinusuri ang Data ng Archive. Pinapayagan ng YARN ang parallel na pagproseso ng maraming data. Ang mga bahagi ng Data ay naproseso nang parallel at magkahiwalay sa iba't ibang mga DataNode at nangangalap ng resulta mula sa bawat NodeManager.
Kung hindi kinakailangan ang mga instant na resulta. Ang Hadoop MapReduce ay isang mahusay at matipid na solusyon para sa pagproseso ng batch.

Mga case na ginagamit kung saan pinakamahusay na umaangkop ang Spark:

Real-Time na Pagsusuri ng Malaking Data:

Ang pagtatasa ng data ng real-time ay nangangahulugang pagproseso ng data na nabuo ng real-time na mga stream ng kaganapan na papasok sa rate ng milyun-milyong mga kaganapan bawat segundo, halimbawa ng data sa Twitter. Ang lakas ng Spark ay nakasalalay sa mga kakayahan upang suportahan ang streaming ng data kasama ang ipinamamahagi na pagproseso. Ito ay isang kapaki-pakinabang na kumbinasyon na naghahatid ng malapit sa real-time na pagproseso ng data. Ang MapReduce ay may kapansanan ng naturang isang kalamangan dahil ito ay dinisenyo upang maisagawa ang batch cum ipinamamahagi sa pagpoproseso sa maraming mga data. Ang data ng real-time ay maaari pa ring maproseso sa MapReduce ngunit ang bilis nito ay wala kahit saan malapit sa Spark.

Sinasabi ng Spark na iproseso ang data na 100x mas mabilis kaysa sa MapReduce, habang 10x mas mabilis sa mga disk.

Pagproseso ng Grap:

Karamihan sa mga algorithm sa pagpoproseso ng grap tulad ng ranggo ng pahina ay nagsasagawa ng maraming mga pag-ulit sa parehong data at nangangailangan ito ng mekanismo ng pagpasa ng mensahe. Kailangan naming i-program ang MapReduce nang malinaw upang hawakan ang gayong maraming mga pag-ulit sa parehong data. Magaspang, gumagana ito tulad nito: Basahin ang data mula sa disk at pagkatapos ng isang partikular na pag-ulit, isulat ang mga resulta sa HDFS at pagkatapos ay basahin ang data mula sa HDFS para sa susunod na pag-ulit. Ito ay napaka-episyente dahil nagsasangkot ito ng pagbabasa at pagsusulat ng data sa disk na nagsasangkot ng mabibigat na operasyon ng I / O at pagtitiklop ng data sa buong kumpol para sa pagpapaubaya sa kasalanan. Gayundin, ang bawat pag-ulit ng MapReduce ay may napakataas na latency, at ang susunod na pag-ulit ay maaaring magsimula lamang matapos na matapos ang nakaraang trabaho.

Gayundin, ang pagpasa ng mensahe ay nangangailangan ng mga marka ng mga kalapit na node upang masuri ang iskor ng isang partikular na node. Ang mga pagkalkula na ito ay nangangailangan ng mga mensahe mula sa mga kapitbahay nito (o data sa maraming mga yugto ng trabaho), isang mekanismo na kulang sa MapReduce. Ang iba't ibang mga tool sa pagpoproseso ng grap tulad ng Pregel at GraphLab ay idinisenyo upang matugunan ang pangangailangan para sa isang mahusay na platform para sa mga algorithm sa pagpoproseso ng grap. Ang mga tool na ito ay mabilis at nasusukat, ngunit hindi mabisa para sa paglikha at pag-proseso sa post ng mga kumplikadong mga multi-yugto na algorithm na ito.

Nalutas ng Panimula ng Apache Spark ang mga problemang ito sa isang malaking lawak. Naglalaman ang Spark ng isang library ng computation ng grap na tinatawag na GraphX na nagpapasimple sa aming buhay. Ang pagkalkula ng nasa memorya kasama ang in-built na suporta sa grapiko ay nagpapabuti ng pagganap ng algorithm sa pamamagitan ng isang lakas na isa o dalawang degree sa mga tradisyonal na programa ng MapReduce. Gumagamit ang Spark ng isang kombinasyon ng Netty at Akka para sa pamamahagi ng mga mensahe sa buong mga tagapagpatupad. Tingnan natin ang ilang mga istatistika na naglalarawan sa pagganap ng PageRank algorithm gamit ang Hadoop at Spark.

Mga Algorithm ng Pagkatuto ng Iterative Machine:

Ang halos lahat ng mga algorithm sa pag-aaral ng makina ay gumagana nang paulit-ulit. Tulad ng nakita natin kanina, ang mga umuulit na algorithm ay nagsasangkot ng mga bottleneck na I / O sa mga pagpapatupad ng MapReduce. Gumagamit ang MapReduce ng mga magaspang na grained na gawain (task-level parallelism) na masyadong mabigat para sa mga umuulit na algorithm. Spark sa tulong ng Mesos - isang ipinamamahagi na kernel ng system, nai-cache ang intermediate dataset pagkatapos ng bawat pag-ulit at nagpapatakbo ng maraming pag-ulit sa naka-cache na dataset na ito na binabawasan ang I / O at nakakatulong na patakbuhin ang algorithm nang mas mabilis sa isang mapagparaya na paraan.

Ang Spark ay mayroong built-in na nasusukat na library ng pag-aaral ng makina na tinatawag na MLlib na naglalaman ng mga de-kalidad na algorithm na gumagamit ng mga pag-ulit at nagbubunga ng mas mahusay na mga resulta kaysa sa isang dumadaan na approximations na ginagamit minsan sa MapReduce.

Mabilis na pagproseso ng data. Tulad ng alam natin, pinapayagan ng Spark ang pagpoproseso ng in-memory. Bilang isang resulta, ang Spark ay hanggang sa 100 beses na mas mabilis para sa data sa RAM at hanggang sa 10 beses para sa data sa imbakan.
Iterative processing. Pinapayagan ng mga Spark's RDD na magsagawa ng maraming mga pagpapatakbo ng mapa sa memorya, nang hindi na kailangang magsulat ng mga pansamantalang hanay ng data sa isang disk.
Malapit sa pagproseso ng real-time. Ang Spark ay isang mahusay na tool upang magbigay ng agarang pananaw sa negosyo. Ito ang dahilan kung bakit ginagamit ang Spark sa streaming system ng credit card.

'Apache Spark: Isang Killer o Tagapagligtas ng Apache Hadoop?'

Ang Sagot dito - Ang Hadoop MapReduce at Apache Spark ay hindi nakikipagkumpitensya sa isa't isa. Sa katunayan, lubos silang umaakma sa bawat isa. Nagdadala ang Hadoop ng malalaking mga dataset sa ilalim ng kontrol ng mga system ng kalakal. Nagbibigay ang Spark ng real-time, pagpoproseso ng memorya para sa mga hanay ng data na nangangailangan nito. Kapag pinagsama namin, ang kakayahan ng Apache Spark, ibig sabihin, mataas ang bilis ng pagproseso, advance na analytics at maraming suporta sa pagsasama sa mababang operasyon ng gastos ng Hadoop sa hardware ng kalakal, nagbibigay ito ng pinakamahusay na mga resulta. Pinupuri ng Hadoop ang mga kakayahan ng Apache Spark. Hindi ganap na mapapalitan ng Spark ang Hadoop ngunit ang magandang balita ay ang demand para sa Spark ay kasalukuyang nasa isang all-time high! Ito ang tamang oras upang makabisado ang Spark at sulitin ang mga opportunity sa career na darating sa iyo. Mag-umpisa na ngayon!

May tanong ba sa amin? Mangyaring banggitin ito sa seksyon ng mga komento at babalik kami sa iyo sa pinakamaagang.

Kung nais mong malaman ang Spark at bumuo ng isang karera sa domain ng Spark upang maisagawa ang malakihan na Pagproseso ng Data gamit ang RDD, Spark Streaming, SparkSQL, MLlib, GraphX at Scala na may mga Real-Use Life na kaso, tingnan ang aming interactive, live-online dito, na may kasamang 24 * 7 na suporta upang gabayan ka sa buong panahon ng iyong pag-aaral.

Spark vs Hadoop: Alin ang Pinakamahusay na Big Data Framework?

Ang post sa blog na ito ay nagsasalita tungkol sa apache spark vs hadoop. Bibigyan ka nito ng isang ideya tungkol sa kung alin ang tamang balangkas ng Big Data upang pumili sa iba't ibang mga sitwasyon.

Apache Spark vs Hadoop: Panimula sa Hadoop

HDFS

NameNode

DataNode

YARN

ResourceManager

NodeManager

Apache Spark vs Hadoop: Panimula sa Apache Spark

Apache Spark vs Hadoop: Mga Parameter na Paghahambing

Pagganap

Dali ng Paggamit

Mga gastos

Pagpoproseso ng Data

Pagproseso ng Batch vs Pagproseso ng Stream

Fault Tolerance

Seguridad

Mga case na ginagamit kung saan pinakamahusay na umaangkop ang Hadoop:

Mga case na ginagamit kung saan pinakamahusay na umaangkop ang Spark:

Real-Time na Pagsusuri ng Malaking Data:

Pagproseso ng Grap:

Mga Algorithm ng Pagkatuto ng Iterative Machine:

'Apache Spark: Isang Killer o Tagapagligtas ng Apache Hadoop?'

Mga Kategorya

Popular Articles

Paano Ipapatupad ang Mga Paraan ng Petsa ng JavaScript?

Ano ang Mga Plano ng Sprint sa Scrum?

Ano ang Chef? - Isang Gamit na Gamit Para sa Pamamahala ng Pag-configure

Hyperledger Fabric - Isang Platform Para sa Mga Solusyon sa Negosyo

AI sa Wimbledon: Mga Highlight ng Power, Analytics at Mga Pananaw

Lahat ng kailangan mong malaman tungkol sa mga Identifier sa Java

Ano ang AngularJS Bootstrap At Paano Ito Magagamit Nang Praktikal?

Paano Mahusay na Magagamit ang Superscript Tag Sa HTML?

Pag-o-overload ng pagpapaandar sa C ++: Lahat ng Kailangan Mong Malaman

Ang kailangan mo lamang malaman tungkol sa Angular JS watch Function

Blockchain Security: Talaga bang Secure ang Blockchain?

Arraylength sa JavaScript: Lahat ng Kailangan Mong Malaman