MongoDB kasama ang Hadoop at mga kaugnay na teknolohiya ng Big Data



Ang MongoDB na may Hadoop at kaugnay na Big Data Technologies ay isang malakas na kumbinasyon upang magbigay ng solusyon para sa isang kumplikadong sitwasyon sa analytics.

Ang Mga Relasyong Database sa mahabang panahon ay sapat na upang hawakan ang maliliit o katamtamang mga database. Ngunit ang napakalaking rate kung saan lumalaki ang data ay ginagawang hindi magagawa ang tradisyunal na diskarte sa pag-iimbak ng data at pagkuha. Ang problemang ito ay nalulutas ng mga mas bagong teknolohiya na maaaring hawakan ang Big Data. Ang Hadoop, Hive at Hbase ay ang mga tanyag na platform upang mapatakbo ang ganitong uri ng malalaking mga hanay ng data. Ang NoSQL o Hindi Lamang mga database ng SQL tulad ng MongoDB ay nagbibigay ng isang mekanismo upang maiimbak at makuha ang data sa loser na pare-pareho na modelo na may mga kalamangan tulad ng:

  • Pahalang na pag-scale
  • Mas mataas na kakayahang magamit
  • Mas mabilis na pag-access

Kamakailan-lamang na na-update ng koponan ng engineering ng MongoDB ang MongoDB Connector para sa Hadoop upang magkaroon ng mas mahusay na pagsasama. Ginagawa nitong mas madali para sa mga gumagamit ng Hadoop na:





  • Isama ang real-time na data mula sa MongoDB sa Hadoop para sa malalim, offline na analytics.
  • Inilalantad ng Connector ang kapangyarihang pansuri ng Maproeduce ng Hadoop upang mabuhay ang data ng application mula sa MongoDB, na humihimok ng halaga mula sa malaking data nang mas mabilis at mas mahusay.
  • Ipinapakita ng Connector ang MongoDB bilang isang file na katugmang file ng Hadoop na nagpapahintulot sa isang trabaho sa MapReduce na basahin nang direkta mula sa MongoDB nang hindi muna ito kopyahin sa HDFS (Hadoop file System), sa gayon tinanggal ang pangangailangang ilipat ang Terabytes ng data sa buong network.
  • Ang mga trabaho sa MapReduce ay maaaring pumasa sa mga query bilang mga filter, kaya't maiiwasan ang pangangailangan na i-scan ang buong mga koleksyon, at maaari ring samantalahin ang mga mayamang kakayahan sa pag-index ng MongoDB kabilang ang geo-spatial, text-search, array, compound at kalat-kalat na mga index.
  • Nagbabasa mula sa MongoDB, ang mga resulta ng mga trabaho sa Hadoop ay maaari ding isulat pabalik sa MongoDB, upang suportahan ang mga proseso ng pagpapatakbo ng real-time at pag-query ng ad-hoc.

Mga Kaso ng Paggamit ng Hadoop at MongoDB:

Tingnan natin ang isang mataas na antas na paglalarawan kung paano maaaring magkakasamang magkasama ang MongoDB at Hadoop sa isang tipikal na stack ng Big Data. Pangunahin mayroon kaming:

  • Ginamit ang MongoDB bilang ang Tindahan ng real-time na 'Operational' na data
  • Hadoop para sa pagproseso at pagtatasa ng data ng offline na batch

Basahin pa upang malaman kung bakit at kung paano ginamit ang MongoDB ng mga kumpanya at samahan tulad ng Aadhar, Shutterfly, Metlife at eBay .



Paglalapat ng MongoDB na may Hadoop sa Batch Aggregation:

Sa karamihan ng mga sitwasyon ang built-in na pag-andar ng pagsasama-sama na ibinigay ng MongoDB ay sapat para sa pagsusuri ng data. Gayunpaman sa ilang mga kaso, makabuluhang mas kumplikadong pagsasama-sama ng data ay maaaring kinakailangan. Dito maaaring magbigay ang Hadoop ng isang malakas na balangkas para sa kumplikadong analytics.

Sa senaryong ito:

  • Ang data ay nakuha mula sa MongoDB at naproseso sa loob ng Hadoop sa pamamagitan ng isa o higit pang mga trabaho sa MapReduce. Maaari ring makuha ang data mula sa iba pang mga lugar sa loob ng mga trabahong MapReduce na ito upang makabuo ng isang multi-data na solusyon sa mapagkukunan.
  • Ang output mula sa mga trabahong MapReduce na ito ay maaaring maisulat pabalik sa MongoDB para sa pagtatanong sa susunod na yugto at para sa anumang pagsusuri sa batayan ng ad-hoc.
  • Ang mga application na itinayo sa tuktok ng MongoDB ay maaaring gumamit ng impormasyon mula sa batch analytics upang maipakita sa end client o upang paganahin ang iba pang mga downstream na tampok.

Hadoop Mongo DB Aggregation



Application sa Data Warehousing:

Sa isang tipikal na pag-setup ng produksyon, ang data ng application ay maaaring manirahan sa maraming mga tindahan ng data, bawat isa ay may sariling wika at pag-andar ng query. Upang mabawasan ang pagiging kumplikado sa mga sitwasyong ito, ang Hadoop ay maaaring magamit bilang isang bodega ng data at kumilos bilang isang sentralisadong lalagyan para sa data mula sa iba't ibang mga mapagkukunan.

ano ang ginagawa ng iterator sa java

Sa ganitong uri ng senaryo:

  • Pana-panahong MapReduce ang mga trabaho sa paglo-load ng data mula sa MongoDB patungong Hadoop.
  • Kapag ang data mula sa MongoDB at iba pang mga mapagkukunan ay magagamit sa Hadoop, ang mas malaking dataset ay maaaring queried laban.
  • Ang mga analista ng data ngayon ay may pagpipilian na gumamit ng alinman sa MapReduce o Pig upang lumikha ng mga trabaho na nagtatanong sa mas malaking mga dataset na nagsasama ng data mula sa MongoDB.

Ang koponan na nagtatrabaho sa likod ng MongoDB ay natiyak na sa mayamang pagsasama sa mga teknolohiya ng Big Data tulad ng Hadoop, nagagawa nitong maisama nang maayos sa Big Data Stack at makakatulong malutas ang ilang mga kumplikadong isyu sa arkitektura pagdating sa pag-iimbak ng data, pagkuha, pagproseso, pagsasama-sama at warehousing . Abangan ang aming paparating na post sa mga prospect ng karera para sa mga tatanggapin ang Hadoop kasama ang MongoDB. Kung nakikipagtulungan ka na sa Hadoop o kukunin lamang ang MongoDB, suriin ang mga kursong inaalok namin para sa MongoDB