Mga Kasanayang Pangunahing Siyentipikong Data



Inilalarawan ng blog na ito ang pangunahing Mga Kasanayan sa Siyentipikong Data kasama ang isang listahan ng mga kasanayang kinakailangan upang maging isang kahanga-hanga at mahusay na siyentipiko ng data. Basahin Sa >>>

Dalawang analista mula sa LinkedIn ang lumikha ng term na 'data scientist' sa taong 2008. Sinusubukan lamang nilang ilarawan kung ano ang kanilang ginagawa, ibig sabihin nakakuha ng halaga ng negosyo mula sa napakalaking data na nabuo ng kanilang website. Sa proseso, natapos nila ang pagbibigay ng pangalan ng titulo sa trabaho na makakakita ng hindi kapani-paniwalang pangangailangan sa mga darating na taon at kahit na tatawaging bilang 'Sexiest job of the 21stsiglo. ’

Ngayon, ang mga organisasyong isinasaalang-alang ang 'data' bilang isang mahalagang pag-aari ay naghahanap para sa mga ekspertong ito sa data o 'siyentipiko' na hahantong sa kanila sa hinaharap.





Halimbawa ng pag-log ng log ng java util

Kaya, ano ang kinakailangan upang maging isang mahusay na siyentista sa data? ……… Ang iba't ibang mga hanay ng kasanayan!

Maikling pagtingin sa pangunahing mga kasanayan ng isang data scientist.



Ang proseso ng data science ay may kasamang 3 yugto.

  • Pagkuha ng Data
  • Pagsusuri sa mga datos
  • Paglalahad

Tingnan natin nang malapít ang tungkulin ng isang siyentipikong data sa bawat isa sa mga yugtong ito.

Pagkuha ng Data



  • Mga Kasanayang Programming at Database

Ang unang hakbang ng pagmimina ng data ay upang makuha ang tamang data. Kaya, upang maging isang siyentipikong data, napakahalaga na maging pamilyar sa mga tool at teknolohiya, lalo na ang mga bukas na mapagkukunan tulad ng Hadoop, Java, Python, C ++, at mga teknolohiya ng database tulad ng SQL, NoSQL, HBase at iba pa.

  • Business Domain at kadalubhasaan

Ang data ay naiiba ayon sa negosyo. Samakatuwid, ang pag-unawa sa data ng negosyo ay nangangailangan ng kadalubhasaan, na dumarating lamang sa pamamagitan ng pagtatrabaho sa isang partikular na domain domain.

Halimbawa: Ang data na nakalap mula sa medikal na larangan ay magiging ganap na naiiba mula sa data ng isang tingiang tindahan ng damit.

  • Pagmomodelo ng Data, Warehouse at Hindi istrukturang Mga Kasanayan sa Data

Ang mga samahan ay nagtitipon ng napakalaking dami ng data sa pamamagitan ng iba`t ibang mga mapagkukunan. Ang data na nakuha sa ganitong paraan ay hindi istraktura at kailangang ayusin bago pag-aralan. Samakatuwid, ang isang siyentipiko ng data ay dapat maging bihasa sa pagmomodelo ng hindi nakaayos na data.

Pagsusuri sa mga datos

tostring () pamamaraan java
  • Mga Kasanayang Istatistika ng Kasangkapan

Ang mahahalagang kasanayan ng isang siyentipiko ng data ay malaman kung paano gamitin ang mga tool na pang-istatistika tulad ng R, Excel, SAS at iba pa. Ang mga tool na ito ay kinakailangan upang gilingin ang nakuhang data at pag-aralan ito.

  • Mga Kasanayan sa Matematika

Ang kaalaman sa agham ng computer lamang ay hindi sapat upang maging isang data scientist. Ang profile ng siyentipikong data ay nangangailangan ng isang tao na maaaring maunawaan ang mga malakihang algorithm sa pag-aaral ng makina at pagprograma, habang pagiging isang dalubhasa sa estadistika. Kailangan nito ng kadalubhasaan sa iba pang mga disiplina na pang-agham at matematika bukod sa mga wika ng computer.

Paglalahad

  • Mga Kasanayan sa Visualization Tool

Maaari mong ma-mine at ma-modelo ang natipon na data, ngunit nagagawa mo bang mailarawan ito?

java ano ang isang variable na halimbawa

Kung nais mong maging isang matagumpay na siyentipiko ng data, dapat kang magtrabaho kasama ang ilang mga tool sa visualization ng data upang kumatawan sa visual na pagsusuri ng data. Ang ilan sa mga ito ay may kasamang R, Flare, HighCharts, AmCharts, D3.js, Processing, at Google Visualization API atbp.

Ngunit hindi ito ang wakas! Kung talagang masigasig kang maging isang siyentipiko ng data, dapat mo ring magkaroon ng mga sumusunod na kasanayan:

  • Kakayahan sa pakikipag-usap: Ang Statistics at Excel ang mga nakakalito upang harapin. Ang mga Siyentipikong Data ay dapat na maipakita ang data sa isang paraan na naisasalin nito ang mga resulta sa mga gumagamit ng negosyo.
  • Mga Kasanayan sa Negosyo : Ang mga siyentipiko ng data ay kailangang gumanap ng maraming tungkulin. Kakailanganin nilang makipag-usap sa magkakaibang mga tao sa samahan. Samakatuwid, ang pagkakaroon ng matatag na kasanayan sa negosyo na may kasamang komunikasyon, pagpaplano, pag-aayos at pamamahala ay magiging malaking tulong. Kasama rito ang pag-unawa sa mga kinakailangan sa negosyo at aplikasyon at pagbibigay kahulugan ng naaayon sa impormasyon. Gayundin, dapat magkaroon siya ng pangkalahatang pag-unawa sa mga pangunahing hamon sa industriya at dapat magkaroon ng kamalayan sa mga ratio ng pananalapi para sa mas mahusay na paggawa ng desisyon. Sa ilalim ng linya, isang siyentipiko ng data na mag-iisip din ng 'Negosyo'.
  • Mga kasanayan sa paglutas ng problema: Mukhang halata ito dahil ang data science ay tungkol sa paglutas ng problema. Ang isang mahusay na siyentipiko ng data ay dapat tumagal ng oras at tingnan ang problema nang malalim at magkaroon ng isang magagawa na solusyon upang umangkop sa gumagamit.
  • Mga Kasanayan sa Paghula: Ang isang data scientist ay dapat ding maging isang mahusay na tagahula. Dapat ay mayroon siyang malawak na kaalaman sa mga algorithm upang mapili ang tamang isa upang maayos na magkasya ang modelo ng data. Nagsasangkot ito ng ilang halaga ng pagkamalikhain upang magamit at kumatawan nang matalino sa data.
  • Pag-hack: Alam kong nakakatakot ito, ngunit magkakaibang mga kasanayan sa pag-hack tulad ng pagmamanipula ng mga file ng teksto sa linya ng utos, ang pag-unawa sa mga pagpapatakbo na vectorized at pag-iisip ng algorithm ay magpapasagawa sa iyo ng isang mas mahusay na siyentista sa data.

Ang pagtingin sa mga itinakdang kasanayan sa itaas ay malinaw na ang pagiging isang Data Scientist ay hindi lamang tungkol sa pag-alam sa lahat tungkol sa data. Ito ay isang profile sa trabaho na may pagsasama-sama ng mga kasanayan sa data, mga kasanayan sa matematika, mga kasanayan sa negosyo at mga kasanayan sa komunikasyon. Sa lahat ng mga kasanayang ito na magkakasama, ang isang Data Scientist ay maaaring makatawag nang tama bilang Rock star ng IT field.

Suriin ang listahan upang maging isang kahanga-hangang at mahusay na siyentipikong data:

Saklaw namin ang mga kasanayang kinakailangan upang maging isang data scientist. Mayroong isang malaking pagkakaiba sa pagiging isang siyentipiko ng data at maging isang kahanga-hangang at mahusay na siyentipiko ng data. Ang mga sumusunod na kasanayan kasama ang nabanggit na mga kasanayan sa itaas, inilalayo ka mula sa pagiging isang normal o kahit isang walang kabuluhang siyentipiko ng data.

  • Mga kasanayan sa matematika - Mga Calcula, pagpapatakbo ng Matrix, Numerical optimization, stochastic na pamamaraan, atbp.
  • Mga kasanayan sa istatistika - Mga modelo ng pag-urong, tress, pag-uuri, diagnostic, inilapat na Statistics, atbp.
  • Komunikasyon - Pagpapakita, pagpapakita at pagsusulat.
  • Database - Bukod sa CouchDB, kaalaman sa hindi tradisyonal na mga database tulad ng MongoDB at Vertica.
  • Mga wika sa pagprograma - Pig, Hive, Java, Python, atbp.
  • Pagproseso ng natural na wika at Pagmimina ng Data.

Ang Edureka ay may isang espesyal na na-curate na tumutulong sa iyo na makakuha ng kadalubhasaan sa Mga Algorithm ng Pag-aaral ng Machine tulad ng K-Means Clustering, Mga Puno ng Desisyon, Random Forest, Naive Bayes. Malalaman mo ang mga konsepto ng Statistics, Time Series, Text Mining at isang pagpapakilala din sa Deep Learning. Ang mga bagong batch para sa kursong ito ay nagsisimula na !!