4 Mga Paraan Upang Magamit nang Sama-sama ang R At Hadoop



Ang R at Hadoop ay umakma sa bawat isa nang mahusay sa mga tuntunin ng visualization at analytics ng malaking data. Ang blog post na ito ay nagsasalita tungkol sa 4 na paraan upang magamit silang magkasama.

Ang Hadoop ay isang nakakagambala na balangkas sa programa na nakabatay sa Java na sumusuporta sa pagproseso ng malalaking mga hanay ng data sa isang ipinamamahagi na kapaligiran sa computing, habang ang R ay isang wika sa software at software para sa pag-compute ng statistic at graphics. Malawakang ginagamit ang wikang R sa mga statistician at data miner para sa pagbuo ng statistic software at pagganap ng data analysis. Sa mga lugar ng interactive na pagtatasa ng data, mga istatistika ng pangkalahatang layunin at mahuhulaan na pagmomodelo, ang R ay nagkamit ng malawak na katanyagan dahil sa pag-uuri, pag-cluster at mga kakayahan sa pagraranggo.

KM





Ang Hadoop at R ay umakma sa bawat isa nang mahusay sa mga tuntunin ng visualization at analytics ng malaking data.

Gamit ang R at Hadoop

Mayroong apat na magkakaibang paraan ng paggamit ng Hadoop at R na magkasama:



1. RHadoop

Ang RHadoop ay isang koleksyon ng tatlong mga R packages: rmr, rhdfs at rhbase. rmr package ay nagbibigay ng pag-andar ng Hadoop MapReduce sa R, nagbibigay ang rhdfs ng HDFS file management sa R ​​at nagbibigay ang rhbase ng pamamahala ng database ng HBase mula sa loob ng R. Ang bawat isa sa mga pangunahing pakete na ito ay maaaring magamit upang pag-aralan at pamahalaan ang data ng balangkas ng Hadoop nang mas mahusay.

2. ORCH



Ang ORCH ay nangangahulugang ang Oracle R Connector para sa Hadoop. Ito ay isang koleksyon ng mga R packages na nagbibigay ng mga kaugnay na interface upang gumana sa mga talahanayan ng Hive, ang imprastraktura ng compute ng Apache Hadoop, ang lokal na kapaligiran sa R, at mga talahanayan ng Oracle database. Bilang karagdagan, nagbibigay din ang ORCH ng mahuhulaan na mga diskarte ng analitik na maaaring mailapat sa data sa mga file ng HDFS.

3. RHIPE

Ang RHIPE ay isang R package na nagbibigay ng isang API upang magamit ang Hadoop. Ang RHIPE ay nangangahulugang R at Hadoop Integrated Programming Environment, at mahalagang RHadoop na may ibang API.

Apat. Hadoop streaming

Ang Hadoop Streaming ay isang utility na nagpapahintulot sa mga gumagamit na lumikha at magpatakbo ng mga trabaho sa anumang maipapatupad bilang mapper at / o reducer. Gamit ang streaming system, maaaring makabuo ang isang nagtatrabaho ng mga trabaho sa Hadoop na may sapat na kaalaman sa Java upang magsulat ng dalawang mga script ng shell na gumagana nang magkakasabay.

Ang kumbinasyon ng R at Hadoop ay umuusbong bilang isang must-have toolkit para sa mga taong nagtatrabaho sa mga istatistika at malalaking mga hanay ng data. Gayunpaman, ang ilang mga mahilig sa Hadoop ay nagtataas ng isang pulang bandila habang nakikipag-usap sa napakalaking mga fragment ng Big Data. Inaako nila na ang bentahe ng R ay hindi ang syntax nito ngunit ang buong silid aklatan ng mga primitibo para sa visualization at istatistika. Ang mga aklatan na ito sa panimula ay hindi naipamahagi, ginagawa ang pagkuha ng data na isang matagal na gawain. Ito ay isang likas na bahid sa R, at kung pipiliin mong huwag pansinin ito, ang R at Hadoop na magkasabay ay maaari pa ring gumana ng mga kababalaghan.

Ngayon, tingnan natin ang isang demo:

ano ang balangkas ng tagsibol

May tanong ba sa amin? Mangyaring banggitin ang mga ito sa seksyon ng mga komento at babalikan ka namin.

Mga Kaugnay na Post: