Apache Spark with Hadoop - Bakit Mahalaga Ito?



Ang pagpapatupad ng Apache Spark sa Hadoop sa isang malaking sukat ng mga nangungunang kumpanya ay nagpapahiwatig ng tagumpay at potensyal nito pagdating sa pagproseso ng real-time.

Ang Hadoop, ang balangkas ng pagpoproseso ng data na naging isang platform sa kanyang sarili, ay nagiging mas mahusay kapag ang mga mahusay na sangkap ay konektado dito. Ang ilang mga pagkukulang ng Hadoop, tulad ng bahagi ng MapReduce ng Hadoop ay may reputasyon sa pagiging mabagal para sa pagtatasa ng data ng real-time.





Ipasok ang Apache Spark, isang makina sa pagpoproseso ng data na nakabatay sa Hadoop na idinisenyo para sa parehong batch at streaming na mga workload, ngayon sa bersyon na 1.0 nito at nilagyan ng mga tampok na sumasalamin kung anong uri ng trabaho ang pinipilit na isama ng Hadoop. Tumatakbo ang Spark sa tuktok ng mayroon nang mga kumpol ng Hadoop upang magbigay ng pinahusay at karagdagang pag-andar.

Tingnan natin ang mga pangunahing tampok ng spark at kung paano ito gumagana kasama ang Hadoop at .



Mga Pakinabang ng Apache Spark Key:

img2-R

Mga Kahanga-hangang Tampok ng Spark:

  • Pagsasama ng Hadoop - Maaaring gumana ang Spark sa mga file na nakaimbak sa HDFS.
  • Ang Interactive Shell ng Spark - Ang Spark ay nakasulat sa Scala, at mayroong sariling bersyon ng interpreter ng Scala.
  • Analytic Suite ng Spark - Ang Spark ay may kasamang mga tool para sa interactive na pagtatasa ng query, pagproseso ng malakihang grapiko at pagtatasa at pagtatasa ng real-time.
  • Mga Nababanat na Ipinamahaging Mga Dataset (RDD's) - Ang RDD ay ipinamamahagi ng mga bagay na maaaring i-cache sa memorya, sa isang kumpol ng mga compode node. Ang mga ito ang pangunahing mga bagay ng data na ginamit sa Spark.
  • Ipinamahagi na Mga Operator - Bukod sa MapReduce, maraming iba pang mga operator na maaaring magamit ang isang sa RDD.

Mga Kalamangan ng Paggamit ng Apache Spark sa Hadoop:

pag-uri-uriin () sa c ++
  • Ang Apache Spark ay umaangkop sa open-source na komunidad ng Hadoop, pagbuo sa tuktok ng Hadoop Distribution File System (HDFS). Gayunpaman, ang Spark ay hindi nakatali sa dalawang-yugto na paradaym ng MapReduce, at nangangako ng pagganap ng hanggang 100 beses na mas mabilis kaysa sa Hadoop MapReduce para sa ilang mga application.



  • Angkop na angkop sa mga algorithm ng pag-aaral ng makina - Nagbibigay ang Spark ng mga primitibo para sa computing ng in-memory cluster na nagbibigay-daan sa mga programa ng gumagamit na mag-load ng data sa memorya ng isang kumpol at paulit-ulit itong hilingin.

  • Tumakbo nang 100 beses nang mas mabilis - Spark, analysis software ay maaari ding mapabilis ang mga trabaho na tumatakbo sa platform ng pagproseso ng data ng Hadoop. Tinaguriang 'Hadoop Swiss Army na kutsilyo,' ang Apache Spark ay nagbibigay ng kakayahang lumikha ng mga trabaho sa pagsusuri ng data na maaaring tumakbo nang 100 beses na mas mabilis kaysa sa mga tumatakbo sa karaniwang Apache Hadoop MapReduce. Malawakang pinintasan ang MapReduce bilang isang bottleneck sa mga kumpol ng Hadoop sapagkat nagsasagawa ito ng mga trabaho sa batch mode, na nangangahulugang ang real-time na pagtatasa ng data ay hindi posible.

  • Kahalili sa MapReduce - Nagbibigay ang Spark ng isang kahalili sa MapReduce. Nagsasagawa ito ng mga trabaho sa maikling pagsabog ng mga micro-batch na limang segundo o mas kaunti ang agwat. Nagbibigay din ito ng higit na katatagan kaysa sa real-time, naka-orient na stream na mga balangkas ng Hadoop tulad ng Twitter Storm. Maaaring magamit ang software para sa iba't ibang mga trabaho, tulad ng isang patuloy na pagtatasa ng live na data at salamat sa isang library ng software, mas maraming computationally malalim na mga trabaho na kinasasangkutan ng pag-aaral ng makina at pagproseso ng grap.

  • Suporta para sa Maramihang Mga Wika - Gamit ang Spark, maaaring magsulat ang mga developer ng mga trabaho sa pag-analisa ng data sa Java, Scala o Python, gamit ang isang hanay ng higit sa 80 mga operator na may mataas na antas.

    tapusin ang isang programa sa java
  • Suporta sa Library - Ang mga aklatan ng Spark ay idinisenyo upang umakma sa mga uri ng mga trabaho sa pagproseso na masusing galugarin sa pinakabagong suportadong komersyal na mga deployment ng Hadoop. Nagpapatupad ang MLlib ng isang karaniwang mga algorithm sa pag-aaral ng makina, tulad ng naif na pag-uuri ng Bayesian o clustering Spark Streaming ay nagbibigay-daan sa mabilis na pagproseso ng data na na-ingest mula sa maraming mga mapagkukunan at pinapayagan ng GraphX ​​ang mga pagkalkula sa data ng grap.

  • Matatag na API - Gamit ang bersyon 1.0, nag-aalok ang Apache Spark ng isang matatag na API (interface ng application ng application), na maaaring magamit ng mga developer upang makipag-ugnay sa Spark kahit na ang kanilang sariling mga application. Nakakatulong ito sa paggamit ng Storm nang mas madali sa Hadoop batay sa pag-deploy.

  • SPARK SQL Component - Spark SQL bahagi para sa pag-access sa nakabalangkas na data, pinapayagan ang data na interrogated kasama ng hindi nakaayos na data sa pagtatasa ng trabaho. Ang Spark SQL, na nasa alpha lamang sa ngayon, ay nagbibigay-daan sa mga query na tulad ng SQL na patakbuhin laban sa data na nakaimbak sa Apache Hive. Ang pagkuha ng data mula sa Hadoop sa pamamagitan ng mga query sa SQL ay isa pang variant ng pag-andar ng pag-query ng real-time na sumisikat sa paligid ng Hadoop.

  • Pagkakatugma ng Apache Spark sa Hadoop [HDFS, HBASE at YARN] - Ang Apache Spark ay ganap na katugma sa Ibinahagi na File System ng Hadoop (HDFS), pati na rin sa iba pang mga bahagi ng Hadoop tulad ng YARN (Another Another Resource Negotiator) at ang HBase ipinamahagi na database.

Mga Adopt ng industriya:

Ang mga kumpanya ng IT tulad ng Cloudera, Pivotal, IBM, Intel at MapR ay lahat ng nakatiklop na Spark sa kanilang mga stack ng Hadoop. Ang Databricks, isang kumpanya na itinatag ng ilan sa mga developer ng Spark, ay nag-aalok ng suporta sa komersyo para sa software. Parehong Yahoo at NASA, bukod sa iba pa, ay gumagamit ng software para sa pang-araw-araw na pagpapatakbo ng data.

Konklusyon:

Ang inaalok ng Spark ay magiging isang malaking draw para sa parehong mga gumagamit at komersyal na vendor ng Hadoop. Ang mga gumagamit na naghahanap upang ipatupad ang Hadoop at na nakabuo na ng marami sa kanilang mga analytics system sa paligid ng Hadoop ay naaakit sa ideya ng kakayahang magamit ang Hadoop bilang isang real-time na sistema ng pagproseso.

Ang Spark 1.0 ay nagbibigay sa kanila ng isa pang iba't ibang mga pagpapaandar upang suportahan o bumuo ng mga pagmamay-ari na item sa paligid. Sa katunayan, ang isa sa malaking tatlong mga vendor ng Hadoop, si Cloudera, ay nagbigay na ng suporta sa komersyo para sa Spark sa pamamagitan ng alok na Cloudera Enterprise. Nag-aalok din ang Hortonworks ng Spark bilang isang bahagi ng pamamahagi ng Hadoop. Ang pagpapatupad ng Spark sa isang malaking sukat ng mga nangungunang kumpanya ay nagpapahiwatig ng tagumpay at potensyal nito pagdating sa pagproseso ng real-time.

May tanong ba sa amin? Nabanggit ang mga ito sa seksyon ng mga komento at babalikan ka namin.

ano ang serializable sa java

Mga Kaugnay na Post: