Mahalagang Hadoop Tools para sa Crunching Big Data



Ang Hadoop ay ang salitang buzz sa mundo ng IT ngayon, at inilalarawan ng post na ito ang mahahalagang tool ng Hadoop na crunch ng Big Data.

Ngayon, ang pinakatanyag na term sa mundo ng IT ay ang 'Hadoop'. Sa loob ng maikling panahon, Hadoop lumago nang napakalaki at napatunayan na maging kapaki-pakinabang para sa isang malaking koleksyon ng mga magkakaibang proyekto. Ang pamayanan ng Hadoop ay mabilis na umuusbong at may kilalang papel sa eco-system nito.





Narito ang isang pagtingin sa mahahalagang tool ng Hadoop na ginagamit upang hawakan ang Big Data.

ano ang br tag sa html

ambari



Ambari ay isang proyekto ng Apache na suportado ng Hortonworks. Nag-aalok ito ng isang GUI na batay sa web (Graphical User Interface) na may mga script ng wizard para sa pagse-set up ng mga kumpol ng karamihan sa mga karaniwang bahagi. Ang mga probisyon ng Ambari, pinamamahalaan at sinusubaybayan ang lahat ng mga kumpol ng mga trabaho sa Hadoop.

hdfs-logo

Ang HDFS , na ipinamamahagi sa ilalim ng lisensya ng Apache ay nag-aalok ng isang pangunahing balangkas para sa paghahati ng mga koleksyon ng data sa pagitan ng maraming mga node. Sa HDFS, ang malalaking mga file ay pinaghiwa-hiwalay sa mga bloke, kung saan maraming mga node ang humahawak ng lahat ng mga bloke mula sa isang file. Ang file system ay dinisenyo sa isang paraan upang makihalubilo sa pagpapaubaya ng kasalanan sa mataas na throughput. Ang mga bloke ng HDFS ay na-load upang mapanatili ang matatag na streaming. Hindi sila karaniwang naka-cache upang mabawasan ang latency.



hbaselogo

HBase ay isang sistemang pamamahala ng database na nakatuon sa haligi na tumatakbo sa tuktok ng HDFS. Ang mga aplikasyon ng HBase ay nakasulat sa Java, kagaya ng application ng MapReduce. Binubuo ito ng isang hanay ng mga talahanayan, kung saan ang bawat talahanayan ay naglalaman ng mga hilera at haligi tulad ng isang tradisyunal na database. Kapag nahulog ang data sa malaking talahanayan, iimbak ng HBase ang data, hahanapin ito at awtomatikong ibahagi ang talahanayan sa maraming mga node upang ang mga trabaho sa MapReduce ay maaaring patakbuhin ito nang lokal. Nag-aalok ang HBase ng isang limitadong garantiya para sa ilang mga lokal na pagbabago. Ang mga pagbabagong nagaganap sa isang solong hilera ay maaaring magtagumpay o mabigo nang sabay.

hive

Kung matatas ka na sa SQL, maaari mong magamit ang Hadoop gamit ang Pugad . Ang pugad ay binuo ng ilang mga tao sa Facebook. Kinokontrol ng Apache Hive ang proseso ng pagkuha ng mga piraso mula sa lahat ng mga file sa HBase. Sinusuportahan nito ang pagtatasa ng malalaking mga dataset na nakaimbak sa HDFS at katugmang mga file system ng Hadoop. Nagbibigay din ito ng isang SQL tulad ng wika na tinatawag na HSQL (HiveSQL) na napupunta sa mga file at inaalis ang kinakailangang mga snippet para sa code.

sqoop

Apache Sqoop ay espesyal na idinisenyo upang ilipat ang maramihang data nang mahusay mula sa tradisyunal na mga database sa Hive o HBase. Maaari din itong magamit upang kumuha ng data mula sa Hadoop at i-export ito sa panlabas na nakabalangkas na mga tindahan ng data tulad ng mga pamanggit na database at mga warehouse ng data ng enterprise. Ang Sqoop ay isang tool ng linya ng utos, pagmamapa sa pagitan ng mga talahanayan at ng layer ng imbakan ng data, isinalin ang mga talahanayan sa isang maisasaayos na kumbinasyon ng HDFS, HBase o Hive.

Pig1

Kapag ang data na nakaimbak ay nakikita ng Hadoop, Apache Pig sumisid sa data at pinapatakbo ang code na nakasulat sa sarili nitong wika, na tinatawag na Pig Latin. Ang Pig Latin ay puno ng mga abstraction para sa paghawak ng data. Ang baboy ay may mga karaniwang pag-andar para sa mga karaniwang gawain tulad ng pag-average ng data, pagtatrabaho sa mga petsa, o upang makahanap ng mga pagkakaiba sa pagitan ng mga string. Pinapayagan din ng Pig ang gumagamit na magsulat ng mga wika sa kanilang sarili, na tinatawag na UDF (User Defined Function), kapag ang standard na mga pagpapaandar ay nabagsak.

zookeper

Zookeeper ay isang sentralisadong serbisyo na nagpapanatili, nag-configure ng impormasyon, nagbibigay ng isang pangalan at nagbibigay ng ibinahaging pagsabay sa isang kumpol. Nagpapataw ito ng isang hierarchy na tulad ng system file sa kumpol at iniimbak ang lahat ng metadata para sa mga machine, kaya maaari naming pagsabayin ang gawain ng iba't ibang mga machine.

NoSQL

Ang ilang mga kumpol ng Hadoop ay isinasama sa NoSQL mga tindahan ng data na nagmumula sa kanilang sariling mga mekanismo para sa pagtatago ng data sa isang kumpol ng mga node. Pinapayagan silang mag-imbak at makuha ang data sa lahat ng mga tampok ng NoSQL database, pagkatapos na maaaring magamit ang Hadoop upang iiskedyul ang mga trabaho sa pagtatasa ng data sa parehong kumpol.

mahoutlogo

Mahout ay idinisenyo upang magpatupad ng maraming bilang ng mga algorithm, pag-uuri at pag-filter ng pagtatasa ng data sa Hadoop cluster. Marami sa mga karaniwang algorithm tulad ng K-ibig sabihin, Dirichelet, parallel pattern at pag-uuri ng Bayesian ay handa nang tumakbo sa data gamit ang isang Hadoop style Map at mabawasan.

Lucene, nakasulat sa Java at madaling isinama sa Hadoop, ay isang natural na kasama para sa Hadoop. Ito ay isang tool na sinadya para sa pag-index ng malalaking mga bloke ng hindi istrakturang teksto. Hawak ni Lucene ang pag-index, habang si Hadoop ang humahawak ng mga ipinamigay na query sa buong kumpol. Ang mga tampok ng Lucene-Hadoop ay mabilis na umuusbong habang ang mga bagong proyekto ay binuo.

Avro

Euro ay isang sistemang serialization na pinagsasama-sama ang data kasama ang isang iskema para maunawaan ito. Ang bawat packet ay may isang istraktura ng data ng JSON. Ipinaliwanag ni JSON kung paano mai-parse ang data. Tinutukoy ng header ng JSON ang istraktura para sa data, kung saan maiiwasan ang pangangailangan na magsulat ng mga sobrang tag sa data upang markahan ang mga patlang. Ang output ay higit na mas compact kaysa sa tradisyunal na mga format tulad ng XML.

Ang isang trabaho ay maaaring gawing simple sa pamamagitan ng paghiwalayin nito sa mga hakbang. Sa pagsira ng proyekto sa maraming mga trabaho sa Hadoop, Oozie nagsisimula sa pagproseso ng mga ito sa tamang pagkakasunud-sunod. Pinamamahalaan nito ang daloy ng trabaho tulad ng tinukoy ng DAG (Directed Acyclic Graph) at hindi na kailangan para sa napapanahong pagsubaybay.

Mga Kasangkapan sa GIS

Ang pagtatrabaho sa mga mapa ng heograpiya ay isang malaking trabaho para sa mga kumpol na nagpapatakbo ng Hadoop. Ang GIS ( Sistemang Pang-Heograpikal na impormasyon ) ang mga tool para sa mga proyekto ng Hadoop ay inangkop ang pinakamahusay na mga tool na nakabatay sa Java para sa pag-unawa ng impormasyong pang-heograpiya upang tumakbo kasama ang Hadoop. Maaari nang pangasiwaan ng mga database ang mga heyograpikong query na gumagamit ng mga coordinate at maaaring mailagay ng mga code ang mga tool ng GIS.

Ang pangangalap ng lahat ng data ay katumbas ng pagtatago at pagsusuri dito. Apache Flume nagpapadala ng mga 'espesyal na ahente' upang mangolekta ng impormasyon na maiimbak sa HDFS. Ang impormasyong nakalap ay maaaring mga file ng log, Twitter API, o mga scrap ng website. Ang mga datos na ito ay maaaring nakakadena at napailalim sa mga pagsusuri.

Spark

Spark ay ang susunod na henerasyon na halos gumagana tulad ng Hadoop na nagpoproseso ng data na naka-cache sa memorya. Ang layunin nito ay upang gawing mabilis ang pagtatasa ng data upang tumakbo at magsulat gamit ang isang pangkalahatang modelo ng pagpapatupad. Maaari nitong i-optimize ang di-makatwirang mga graph ng operator at suportahan ang computing na nasa memorya, na hinahayaan itong magtanong ng data nang mas mabilis kaysa sa mga engine na nakabatay sa disk tulad ng Hadoop.

SQL sa Hadoop

Kapag kinakailangan upang magpatakbo ng isang mabilis na query ng ad-hoc ng lahat ng data sa kumpol, maaaring maisulat ang isang bagong trabaho sa Hadoop, ngunit tumatagal ito ng ilang oras. Kapag ang mga programmer ay nagsimulang gawin ito nang mas madalas, nakakuha sila ng mga tool na nakasulat sa simpleng wika ng SQL. Nag-aalok ang mga tool na ito ng mabilis na pag-access sa mga resulta.

Apache Drill

Nagbibigay ang Apache Drill ng mababang latency ng mga query ng ad-hoc sa marami at iba`t ibang mga mapagkukunan ng data, kabilang ang nakapugad na data. Ang drill, na inspirasyon ng Dremel ng Google, ay idinisenyo upang masukat sa 10,000 mga server at magtanong ng mga petabyte ng data sa ilang segundo.

Ito ang mga mahahalagang tool ng Hadoop para sa crunching Big Data!

May tanong ba sa amin? Mangyaring banggitin ang mga ito sa seksyon ng mga komento at babalikan ka namin.

Mga Kaugnay na Post:

Praktikal na Mga Dahilan upang Alamin ang Hadoop 2.0