Mastered Hadoop? Oras upang makapagsimula sa Apache Spark



Ipinapaliwanag ng post sa blog na ito kung bakit dapat kang magsimula sa Apache Spark pagkatapos ng Hadoop at kung bakit ang pag-aaral ng Spark pagkatapos ng mastering hadoop ay maaaring gumawa ng mga kababalaghan para sa iyong karera!

Hadoop, tulad ng alam nating lahat ay ang poster boy ng malaking data. Bilang isang balangkas ng software na may kakayahang iproseso ang mga proporsyon ng data ng elepante, ang Hadoop ay umakyat sa tuktok ng listahan ng mga buzzwords ng CIO.





Gayunpaman, ang walang uliran pagtaas ng in-memory stack ay ipinakilala ang malaking ecosystem ng data sa isang bagong kahalili para sa analytics. Ang paraan ng analytics ng MapReduce ay pinalitan ng isang bagong diskarte na nagpapahintulot sa analytics parehong sa loob ng balangkas ng Hadoop at sa labas nito. Ang Apache Spark ay ang sariwang bagong mukha ng malaking analytics ng data.

Ang mga malalaking mahilig sa data ay nagpatunay sa Apache Spark bilang pinakamainit na compute engine ng data para sa malaking data sa mundo. Mabilis itong pagbuga ng MapReduce at Java mula sa kanilang mga posisyon, at ang mga uso sa trabaho ay sumasalamin sa pagbabagong ito. Ayon sa isang survey ng TypeSafe, 71% ng mga pandaigdigang developer ng Java ay kasalukuyang sinusuri o nagsasaliksik sa paligid ng Spark, at 35% sa mga ito ay nagsimula nang gamitin ito. Ang mga eksperto sa Spark ay kasalukuyang hinihiling, at sa mga susunod na linggo, ang bilang ng mga kaugnay na trabaho na nauugnay sa Spark ay inaasahan lamang na dumaan sa bubong.



Kaya, ano ang tungkol sa Apache Spark na lumilitaw sa tuktok ng bawat listahan ng dapat gawin ng CIO?

anong ide ang gagamitin para sa java

Narito ang ilan sa mga kagiliw-giliw na tampok ng Apache Spark:

  • Pagsasama ng Hadoop - Maaaring gumana ang Spark sa mga file na nakaimbak sa HDFS.
  • Ang Interactive Shell ng Spark - Ang Spark ay nakasulat sa Scala, at mayroong sariling bersyon ng interpreter ng Scala.
  • Ang Analytic Suite ng Spark - Ang Spark ay may kasamang mga tool para sa interactive na pagtatasa ng query, pagproseso ng malakihang grapiko at pagtatasa at pagtatasa ng real-time.
  • Mga nababanat na Ipinamahaging Mga Dataset (RDD) - Ang mga RDD ay ipinamamahagi ng mga bagay na maaaring i-cache sa memorya, sa isang kumpol ng mga compode node. Ang mga ito ang pangunahing mga bagay ng data na ginamit sa Spark.
  • Ipinamahagi na Mga Operator - Bukod sa MapReduce, maraming iba pang mga operator na maaaring magamit ang isang sa RDD.

Ang mga samahang tulad ng NASA, Yahoo, at Adobe ay nakatuon sa kanilang sarili sa Spark. Ito ang sinabi ni John Tripier, Alliances and Ecosystem Lead sa Databricks, 'Ang pag-aampon ng Apache Spark ng mga negosyo malaki at maliit ay lumalaki sa isang hindi kapani-paniwalang rate sa kabuuan ng isang malawak na hanay ng mga industriya, at ang pangangailangan para sa mga developer na may sertipikadong kadalubhasaan ay mabilis kasunod na suit ”. Hindi pa nagkaroon ng mas mahusay na oras upang Alamin ang Spark kung mayroon kang isang background sa Hadoop.



Espesyal na na-curate ni Edureka ang isang kurso sa Apache Spark & ​​Scala, na co-nilikha ng mga real-life na nagsasanay ng industriya. Para sa isang naiibang karanasan sa live na e-pag-aaral kasama ang mga proyekto na nauugnay sa industriya, suriin ang aming kurso. Nagsisimula na ang mga bagong batch, kaya't suriin ang kurso dito: .

May tanong ba sa amin? Mangyaring banggitin ito sa seksyon ng mga komento at babalikan ka namin.

Mga Kaugnay na Post:

java kung paano lumikha ng isang hanay ng mga bagay

Apache Spark Vs Hadoop MapReduce