Paglalapat ng Hadoop sa Data Science



Sa paghahatid ng Hadoop bilang kapwa isang nasusukat na platform ng data at computational engine, muling lumilitaw ang agham ng data bilang isang pangunahing bahagi ng pagbabago ng enterprise. Ang Hadoop ay isang malaking tulong sa mga siyentipiko ng data.

Ang Apache Hadoop ay mabilis na nagiging teknolohiya ng pagpipilian para sa mga organisasyong namumuhunan sa malaking data, na pinapagana ang kanilang susunod na henerasyon ng data na arkitektura. Sa paghahatid ng Hadoop bilang kapwa isang nasusukat na platform ng data at computational engine, muling lumilitaw ang agham ng data bilang pangunahing bahagi ng pagbabago ng enterprise, na may mga inilapat na solusyon sa data tulad ng rekomendasyon sa online na produkto, awtomatikong pagtuklas ng pandaraya at pagsusuri sa sentimiyento ng customer.

Sa artikulong ito, nagbibigay kami ng isang pangkalahatang ideya ng data science at kung paano samantalahin ang Hadoop para sa mga malalaking proyekto sa agham ng data.





Paano Magagamit ang Hadoop sa Data Scientists?

Ang Hadoop ay isang biyaya sa mga siyentipiko ng data. Tingnan natin kung paano nakakatulong ang Hadoop sa pagpapalakas ng pagiging produktibo ng Data Scientists. Ang Hadoop ay may natatanging kakayahan kung saan ang lahat ng data ay maaaring maiimbak at makuha mula sa isang solong lugar. Sa pamamagitan ng pamamaraang ito, maaaring makamit ang sumusunod:

  • Kakayahang iimbak ang lahat ng data sa format na RAW
  • Data Silo Convergence
  • Makakahanap ang mga Siyentipiko ng Data ng mga makabagong paggamit ng pinagsamang mga assets ng data.

Hadoop-with-ds11



Susi sa Lakas ng Hadoop:

  • Pagbabawas ng Oras at Gastos - Nakatutulong ang Hadoop sa dramatikong pagbawas ng Oras at Gastos ng pagbuo ng mga malalaking sukat ng mga produkto ng data.
  • Ang pagkalkula ay kapwa matatagpuan sa Data - Ang system ng Data at Computation ay naka-code upang gumana nang magkasama.
  • Abot-kayang sa Scale - Maaaring gumamit ng mga node ng hardware na 'kalakal', ay nakakagamot sa sarili, mahusay sa pagproseso ng batch ng malalaking mga dataset.
  • Dinisenyo para sa isang pagsulat at maraming pagbasa - Walang mga random na Pagsusulat atNa-optimize para sa minimum na paghanap sa mga hard drive

Bakit Hadoop Sa Data Science?

Dahilan # 1: Galugarin ang Malalaking Mga Datet

Ang Una at pinakamahalagang kadahilanan na ang isa ay maaaring Galugarin ang Malalaking Mga Datet direkta sa Hadoop ng pagsasama ng Hadoop nasa Daloy ng Pagsusuri ng Data .

Nakamit ito sa pamamagitan ng paggamit ng mga simpleng istatistika tulad ng:



  • Ibig sabihin
  • Median
  • Quantile
  • Paunang pagproseso: grep, regex

Maaari ding gumamit ng Ad-hoc Sampling / pagsala upang makamit Random: mayroon o walang Kapalit, Sample ng natatanging Key at K-fold Cross-validation.

Dahilan # 2: Kakayahang Magmina ng Malalaking Mga Datet

Ang pag-aaral ng mga algorithm na may malaking mga dataset ay may sariling mga hamon. Ang mga hamon na:

  • Hindi magkasya sa memorya ang data.
  • Ang pag-aaral ay tumatagal ng mas mahabang oras.

Kapag gumagamit ng Hadoop ang isang tao ay maaaring gumanap ng mga pag-andar tulad ng pamamahagi ng data sa mga node sa Hadoop cluster at magpatupad ng isang ipinamamahagi / parallel algorithm. Para sa mga rekomendasyon, maaari ng isang alternatibong Least Square algorithm at para sa clustering K-Means ay maaaring magamit.

Dahilan # 3: Paghahanda ng Malaking Kaliskis ng Data

Alam nating lahat 80% ng Data Science Work na may kasamang ‘Paghahanda ng Data’. Perpekto ang Hadoop para sa paghahanda ng batch at paglilinis ng malalaking Mga Dataset.

Dahilan # 4: Mapabilis ang Innovation na Hinimok ng Data:

Ang mga tradisyunal na arkitektura ng data ay may mga hadlang sa bilis. Gumagamit ang RDBMS iskema sa Sumulat at samakatuwid ang pagbabago ay mahal. Ito rin ay isang mataas na hadlang para sa pagbabago na hinihimok ng data.

Gumagamit ang Hadoop 'Schema sa Basahin' ibig sabihin mas mabilis na oras sa Innovation at sa gayon ay nagdaragdag ng a mababang hadlang sa pagbabago ng data driven.

kung paano baligtarin ang isang string sa sawa

Samakatuwid upang buod ang apat na pangunahing mga kadahilanan kung bakit kailangan namin ang Hadoop sa Data Science ay:

  1. Mga Malaking Dataset ng Minahan
  2. Paggalugad ng Data na may buong mga dataset
  3. Paunang Pagproseso Sa Scale
  4. Mas Mabilis na Pag-ikot ng Data ng Data

Samakatuwid nakikita namin na ang mga Organisasyon ay maaaring magamit ang Hadoop sa kanilang kalamangan para sa data ng pagmimina at pagkolekta ng mga kapaki-pakinabang na resulta mula rito.

May tanong ba sa amin ?? Mangyaring banggitin ang mga ito sa seksyon ng mga komento at babalikan ka namin.

Mga Kaugnay na Post:

Kahalagahan ng Data Science Sa Cassandra