Data Science Tutorial - Alamin ang Data Science mula sa Scratch!



Ang tutorial na Agham sa Data na ito ay perpekto para sa mga naghahanap ng paglilipat sa domain ng Agham ng Data. Kabilang dito ang lahat ng mga mahahalaga sa Agham ng Data na may isang landas sa karera.

Nais mong simulan ang iyong karera bilang isang Data Scientist, ngunit hindi mo alam kung saan magsisimula? Nasa tamang lugar ka! Hey Guys, maligayang pagdating sa kahanga-hangang blog ng Data Science Tutorial, bibigyan ka nito ng isang pagsisimula sa mundo ng agham ng data. Upang makakuha ng malalim na kaalaman sa Data Science, maaari kang magpatala nang live ni Edureka na may suporta na 24/7 at habang-buhay na pag-access. Tingnan natin kung ano ang matututunan natin ngayon:

    1. Bakit Data Science?
    2. Ano ang Data Science?
    3. Sino ang isang Data Scientist?
    4. Mga Trending sa Trabaho
    5. Paano malutas ang isang problema sa Data Science?
    6. Mga Bahagi ng Agham ng Data
    7. Mga Tungkulin sa Trabaho ng Siyentipikong Data





Bakit Data Science?

Nasabi na ang Data Scientist ay ang 'Sexiest Job of the 21st siglo'. Bakit? Sapagkat sa nakaraang ilang taon, ang mga kumpanya ay nag-iimbak ng kanilang data. At ito ay ginagawa ng bawat kumpanya, bigla itong humantong sa pagsabog ng data. Ang data ay naging pinaka-sagana sa ngayon.

Ngunit, ano ang gagawin mo sa data na ito? Unawain natin ito gamit ang isang halimbawa:



Sabihin, mayroon kang isang kumpanya na gumagawa ng mga mobile phone. Inilabas mo ang iyong unang produkto, at ito ay naging isang napakalaking hit. Ang bawat teknolohiya ay may buhay, di ba? Kaya, ngayon oras na upang makabuo ng bago. Ngunit hindi mo alam kung ano ang dapat na makabago, upang matugunan ang mga inaasahan ng mga gumagamit, na sabik na naghihintay para sa iyong susunod na paglaya?

Ang isang tao, sa iyong kumpanya ay nagmumula sa isang ideya ng paggamit ng nabuong feedback ng gumagamit at pumili ng mga bagay na sa palagay namin ay inaasahan ng mga gumagamit sa susunod na paglabas.

Dumating sa Agham ng Data, naglalapat ka ng iba't ibang mga diskarte sa pagmimina ng data tulad ng pagsusuri ng sentimiya atbp at makuha ang nais na mga resulta.



Hindi lamang ito, makakagawa ka ng mas mahusay na mga desisyon, mababawas mo ang iyong mga gastos sa produksyon sa pamamagitan ng paglabas ng mga mahusay na paraan, at bigyan ang iyong mga customer ng talagang gusto nila!

Sa pamamagitan nito, mayroong hindi mabilang na mga benepisyo na maaaring magresulta sa Data Science, at samakatuwid ito ay naging ganap na kinakailangan para sa iyong kumpanya na magkaroon ng isang Data Science Team.Ang mga kinakailangan na tulad nito ay humantong sa 'Data Science' bilang isang paksa ngayon, at samakatuwid ay sinusulat namin ang blog na ito sa Data Science Tutorial para sa iyo. :)

Tutorial sa Agham sa Data: Ano ang Agham sa Data?

Ang salitang Data Science ay umusbong kamakailan kasama ang ebolusyon ng mga istatistika ng matematika at pagtatasa ng data. Ang paglalakbay ay kamangha-mangha, marami kaming nagawa ngayon sa larangan ng Data Science.

Sa susunod na ilang taon, mahuhulaan natin ang hinaharap na inaangkin ng mga mananaliksik mula sa MIT. Naabot na nila ang isang milyahe sa paghula sa hinaharap, sa kanilang kahanga-hangang pagsasaliksik. Mahuhulaan na nila kung ano ang mangyayari sa susunod na eksena ng isang pelikula, kasama ang kanilang makina! Paano? Sa gayon ito ay maaaring maging isang maliit na kumplikado para sa iyo na maunawaan sa ngayon, ngunit huwag mag-alala sa pagtatapos ng blog na ito, magkakaroon ka rin ng sagot sa na.

Sa pagbabalik, pinag-uusapan namin ang tungkol sa Agham ng Data, kilala rin ito bilang agham na hinimok ng data, na gumagamit ng mga pamamaraang pang-agham, proseso at system upang kumuha ng kaalaman o pananaw mula sa data sa iba't ibang anyo, alinman sa nakabalangkas o hindi nakaayos

Ano ang mga pamamaraan at proseso na ito, kung ano ang tatalakayin natin sa Data Science Tutorial na ito ngayon.

Sumusulong, sino ang sumasabog sa utak na ito, o sino ang nagsasagawa ng Data Science? A Data Scientist .

Sino ang isang Data Scientist?

Tulad ng nakikita mo sa imahe, isang Data Scientist ang master ng lahat ng mga kalakal! Dapat ay siya ay bihasa sa matematika, dapat siya ay acing sa larangan ng Negosyo, at dapat magkaroon ng mahusay na kasanayan sa Computer Science din. Natakot? Huwag maging. Kahit na kailangan mong maging mahusay sa lahat ng mga larangang ito, ngunit kahit na hindi ka, hindi ka nag-iisa! Walang kagaya ng 'isang kumpletong siyentipiko ng data'. Kung pinag-uusapan natin ang tungkol sa pagtatrabaho sa isang corporate environment, ang gawain ay ipinamamahagi sa mga koponan, kung saan ang bawat koponan ay may kani-kanilang kasanayan. Ngunit ang bagay ay, dapat kang maging marunong sa atleast isa sa mga patlang na ito. Gayundin, kahit na bago sa iyo ang mga kasanayang ito, ginaw! Maaaring tumagal ng oras, ngunit ang mga kasanayang ito ay maaaring mabuo, at maniwala ka sa akin na sulit ang oras na mamumuhunan ka. Bakit? Kaya, tingnan natin ang mga trend sa trabaho.

kung paano sumulat ng alerto sa javascript

Mga Trend ng Trabaho sa Siyentipikong Data

Kaya, sinabi ng grap ang lahat, hindi lamang maraming mga bukas na trabaho para sa isang siyentista sa data, ngunit ang mga trabaho ay mahusay din na magbayad! At hindi, hindi sasakupin ng aming blog ang mga numero ng suweldo, mag-google!

Sa ngayon, alam namin ngayon, ang pag-aaral ng agham ng data ay talagang may katuturan, hindi lamang sapagkat ito ay napaka kapaki-pakinabang, ngunit mayroon ka ring mahusay na karera dito sa malapit na hinaharap.

Simulan natin ang ating paglalakbay sa pag-aaral ng data science ngayon at magsimula sa,

Paano malutas ang isang problema sa Data Science?

Kaya ngayon, talakayin natin kung paano dapat lumapit sa isang problema at malutas ito sa agham ng data. Ang mga problema sa Agham ng Data ay nalulutas gamit ang Mga Algorithm. Ngunit, ang pinakamalaking bagay upang hatulan kung aling algorithm ang gagamitin at kailan ito gagamitin?

Karaniwan mayroong 5 mga uri ng mga problema na maaari mong harapin sa data science.

Isa-isa nating talakayin ang bawat isa sa mga katanungang ito at mga nauugnay na algorithm:

Ito ba ang A o B?

Sa katanungang ito, tumutukoy kami sa mga problema na mayroong isang kategoryang sagot, tulad ng sa mga problema na mayroong isang nakapirming solusyon, ang sagot ay maaaring isang oo o hindi, 1 o 0, interesado, marahil o hindi interesado.

Halimbawa:

Q. Ano ang mayroon ka, Tsaa o Kape?

Dito, hindi mo masasabi na gusto mo ng coke! Dahil ang tanong ay nag-aalok lamang ng tsaa o kape, at samakatuwid maaari mong sagutin ang isa lamang sa mga ito.

Kapag mayroon lamang tayong dalawang uri ng mga sagot hal oo o hindi, 1 o 0, ito ay tinatawag na 2 - Pag-uuri ng Klase. Sa higit sa dalawang mga pagpipilian, ito ay tinatawag na Pag-uuri ng Multi Class.

Ang pagtatapos, tuwing nakakakita ka ng mga katanungan, ang sagot kung saan ay kategorya, sa Data Science malulutas mo ang mga problemang ito gamit ang Mga Algorithm ng Classification.

Ang susunod na problema sa Data Science Tutorial na ito, na maaari mong mapagtagumpayan, marahil isang bagay tulad nito,

Kakatwa ba ito?

Ang mga katanungang tulad nito ay nakikipag-usap sa mga pattern at maaaring malutas gamit ang mga algorithm ng Detalye ng Anomaly.

Halimbawa:

Subukang iugnay ang problema na 'kakaiba ba ito?' sa diagram na ito,

Ano ang kakaiba sa pattern sa itaas? Ang taong pula, hindi ba?

Tuwing may pahinga sa pattern, i-flag ng algorithm ang partikular na kaganapan para suriin namin. Ang isang tunay na aplikasyon sa mundo ng algorithm na ito ay ipinatupad ng mga kumpanya ng Credit Card kung saan, ang anumang hindi pangkaraniwang transaksyon ng isang gumagamit ay na-flag para sa pagsusuri. Samakatuwid ay nagpapatupad ng seguridad at binabawasan ang pagsisikap ng tao sa pagmamatyag.

Tingnan natin ang susunod na problema sa Data Science Tutorial na ito, huwag matakot, makipag-usap sa matematika!

Ilan o Ilan

Iyon sa iyo, na hindi gusto ang matematika, mapagaan ang loob! Narito ang mga algorithm sa pag-urong!

Kaya, tuwing may problema na maaaring humiling ng mga numero o halagang may bilang, malulutas namin ito gamit ang Regression Algorithms.

Halimbawa:

Ano ang magiging temperatura para bukas?

Dahil inaasahan namin ang isang numerong halaga sa tugon sa problemang ito, malulutas namin ito gamit ang Regression Algorithms.

Sumusunod sa Data Science Tutorial na ito, talakayin natin ang susunod na algorithm,

Paano ito nakaayos?

Sabihing mayroon kang ilang data, ngayon wala kang anumang ideya, kung paano magkaroon ng katuturan sa data na ito. Samakatuwid ang tanong, paano ito organisado?

Kaya, malulutas mo ito gamit ang mga clustering algorithm. Paano nila malulutas ang mga problemang ito? Tingnan natin:

Pinagsasama ng mga clustering algorithm ang data sa mga tuntunin ng mga katangian na karaniwan. Halimbawa sa diagram sa itaas, ang mga tuldok ay nakaayos batay sa mga kulay. Katulad nito, maging anumang data, sinusubukan ng clustering algorithms na maunawaan kung ano ang karaniwan sa pagitan nila at samakatuwid ay 'clusters' silang magkasama.

Ang susunod at pangwakas na uri ng problema sa Data Science Tutorial na ito, na maaari mong makasalubong ay,

Ano ang susunod kong gagawin?

Tuwing nakatagpo ka ng isang problema, kung saan ang iyong computer ay kailangang magpasya batay sa pagsasanay na ibinigay mo rito, nagsasangkot ito ng mga Reinforcement Algorithms.

Halimbawa:

Ang iyong system ng pagkontrol sa temperatura, kung kailan dapat magpasya kung dapat nitong babaan ang temperatura ng silid, o taasan ito.

Paano gumagana ang mga algorithm na ito?

Ang mga algorithm na ito ay batay sa sikolohiya ng tao. Gusto namin na pinahahalagahan di ba? Ipinapatupad ng mga computer ang mga algorithm na ito, at inaasahan na mapahahalagahan kapag sinanay. Paano? Tingnan natin.

Sa halip na turuan ang computer kung ano ang gagawin, hinayaan mo itong magpasya kung ano ang gagawin, at sa pagtatapos ng pagkilos na iyon, nagbibigay ka ng positibo o negatibong feedback. Samakatuwid, sa halip na tukuyin kung ano ang tama at kung ano ang mali sa iyong system, hinayaan mo ang iyong system na 'magpasya' kung ano ang gagawin, at sa huli ay magbigay ng isang puna.

Ito ay tulad ng pagsasanay sa iyong aso. Hindi mo makontrol ang ginagawa ng aso mo, tama ba? Ngunit mapapagalitan mo siya kapag nagkamali siya. Katulad nito, marahil ay tinapik siya sa likod kapag ginawa niya ang inaasahan.

Ilapat natin ang pag-unawang ito sa halimbawa sa itaas, isipin na sinasanay mo ang sistema ng pagkontrol sa temperatura, kaya't tuwing ang no. ng mga tao sa pagtaas ng silid, kailangang magkaroon ng isang aksyon na kinuha ng system. Alinmang ibababa ang temperatura o dagdagan ito. Dahil walang maintindihan ang aming system, tumatagal ng isang random na desisyon, ipagpalagay natin, pinapataas nito ang temperatura. Samakatuwid, nagbibigay ka ng isang negatibong feedback. Sa pamamagitan nito, naiintindihan ng computer tuwing dumarami ang mga tao sa silid, hindi kailanman nadagdagan ang temperatura.

Katulad nito para sa iba pang mga pagkilos, magbibigay ka ng puna.Sa bawat feedback na natututunan ng iyong system at samakatuwid ay nagiging mas tumpak sa susunod nitong desisyon, ang ganitong uri ng pag-aaral ay tinatawag na Reinforcement Learning.

Ngayon, ang mga algorithm na natutunan sa itaas sa Data Science Tutorial na ito ay nagsasangkot ng isang karaniwang 'kasanayan sa pagkatuto'. Ginagawa nating matuto nang tama ang makina?

Ano ang Learning ng Machine?

Ito ay isang uri ng Artipisyal na Intelihensiya na ginagawang may kakayahang matuto ang mga computer sa kanilang sariling ibig sabihin nang hindi malinaw na nai-program. Sa pag-aaral ng makina, maaaring mai-update ng mga machine ang kanilang sariling code, tuwing nakakakita sila ng isang bagong sitwasyon.

Sa pagtatapos ng Tutorial sa Agham sa Data na ito, alam namin na ang Data Science ay sinusuportahan ng Machine Learning at mga algorithm nito para sa pagsusuri nito. Paano namin ginagawa ang pagtatasa, saan natin ito ginagawa. Ang Agham ng Data sa karagdagang ay may ilang mga bahagi na tumutulong sa amin sa pagtugon sa lahat ng mga katanungang ito.

Bago iyon hayaan mo akong sagutin kung paano mahuhulaan ng MIT ang hinaharap, dahil sa palagay ko ay maaaring maiugnay mo ito ngayon. Kaya, sinanay ng mga mananaliksik sa MIT ang kanilang modelo sa mga pelikula at natutunan ng mga computer kung paano tumugon ang mga tao, o kung paano sila kumilos bago gumawa ng isang aksyon.

Halimbawa, kapag tungkol ka sa pakikipagkamay sa isang tao na inalis mo ang iyong kamay sa iyong bulsa, o baka sumandal sa tao. Talaga mayroong isang 'pre action' na nakakabit sa bawat bagay na ginagawa natin. Ang computer sa tulong ng mga pelikula ay sinanay sa mga 'pre aksyon' na ito. At sa pamamagitan ng pagmamasid ng higit pa at maraming mga pelikula, nahulaan ng kanilang mga computer kung ano ang susunod na aksyon ng character.

Madali di ba? Hayaan mo akong magtapon ng isa pang tanong sa iyo pagkatapos sa Data Science Tutorial na ito! Aling algorithm ng Pag-aaral ng Makina ang dapat nilang ipatupad dito?

Mga Bahagi ng Agham ng Data

1. Mga Dataset

Ano ang iyong susuriin? Data, di ba? Kailangan mo ng maraming data na maaaring pag-aralan, ang data na ito ay pinakain sa iyong mga algorithm o kasangkapan sa pag-analitikal. Nakukuha mo ang data na ito mula sa iba't ibang mga pagsasaliksik na isinagawa sa nakaraan.

2. R Studio

Ang R ay isang bukas na mapagkukunan ng wika ng wika at software na kapaligiran para sa statuting computing at graphics na sinusuportahan ng R foundation. Ang wikang R ay ginagamit sa isang IDE na tinatawag na R Studio.

casting ng doble sa int java

Bakit ito ginagamit?

  • Programming at Istatistika Wika
    • Bukod sa ginagamit bilang isang pang-istatistika na wika, maaari rin itong magamit ng isang wika ng pagprograma para sa mga layuning pang-analitikal.
  • Pagsusuri sa Data at Paggunita
    • Bukod sa pagiging isa sa pinakapangingibabaw na tool sa analytics, ang R ay isa rin sa pinakatanyag na tool na ginamit para sa visualization ng data.
  • Simple at Madaling Alamin
    • Ang R ay isang simple at madaling malaman, basahin at isulat

  • Libre at Bukas na Pinagmulan
    • Ang R ay isang halimbawa ng isang FLOSS (Libre / Libre at Open Source Software) na nangangahulugang malayang maaaring mamahagi ng mga kopya ng software na ito, basahin ang source code na ito, baguhin ito, atbp.

Sapat ang R Studio para sa pagtatasa, hanggang sa naging napakalaki ang aming mga datasets, hindi rin nakaayos sa parehong oras. Ang ganitong uri ng data ay tinawag na Big Data.

3. Malaking Data

Malaking data ang term para sa isang koleksyon ng mga hanay ng data na napakalaki at kumplikado na naging mahirap iproseso gamit ang mga tool sa pamamahala ng database na nasa kamay o mga tradisyunal na aplikasyon sa pagproseso ng data.

Ngayon upang maiamo ang data na ito, kailangan naming magkaroon ng isang tool, dahil walang tradisyunal na software ang maaaring hawakan ang ganitong uri ng data, at samakatuwid ay nakarating kami sa Hadoop.

4. Hadoop

Ang Hadoop ay isang balangkas na makakatulong sa atin na tindahan at proseso malalaking mga dataset na kahanay at sa isang fashion mode.

Tumuon tayo sa tindahan at iproseso ang bahagi ng Hadoop.

Tindahan

Ang bahagi ng pag-iimbak sa Hadoop ay pinangangasiwaan ng HDFS ie Hadoop Distraced File System. Nagbibigay ito ng mataas na kakayahang magamit sa kabuuan ng isang ipinamahaging ecosystem. Ang paraan ng paggana nito ay tulad nito, sinisira nito ang papasok na impormasyon sa mga chunks, at ipinamamahagi ang mga ito sa iba't ibang mga node sa isang kumpol, pinapayagan ang ipamahagi na imbakan.

Proseso

Ang MapReduce ay ang puso ng pagproseso ng Hadoop. Ang mga algorithm ay gumagawa ng dalawang mahahalagang gawain, mapa at bawasan. Pinuputol ng mga mapper ang gawain sa mas maliliit na gawain na naproseso nang paralel. Minsan, ang lahat ng mga mapper ay gumagawa ng kanilang bahagi ng trabaho, pinagsama-sama nila ang kanilang mga resulta, at pagkatapos ay ang mga resulta na ito ay nabawasan sa isang mas simpleng halaga ng proseso ng Bawasan. Upang matuto nang higit pa sa Hadoop maaari kang dumaan sa aming .

Kung gagamitin namin ang Hadoop bilang aming pag-iimbak sa Data Science nahihirapang iproseso ang pag-input sa R ​​Studio, dahil sa kawalan nito ng kakayahang gumanap nang maayos sa ipinamamahagi na kapaligiran, samakatuwid mayroon kaming Spark R.

5. Spark R

Ito ay isang R package, na nagbibigay ng isang magaan na paraan ng paggamit ng Apache Spark kasama ang R. Bakit mo ito gagamitin sa tradisyunal na mga aplikasyon ng R? Sapagkat, nagbibigay ito ng isang ipinamamahagi na pagpapatupad ng frame ng data na sumusuporta sa pagpapatakbo tulad ng pagpili, pagsala, pagsasama-sama atbp ngunit sa malalaking mga database.

Huminga ka ngayon! Tapos na kami sa teknikal na bahagi sa Data Science Tutorial na ito, tingnan natin ito mula sa pananaw ng iyong trabaho ngayon. Sa palagay ko ay na-google mo na ang mga suweldo sa ngayon para sa isang siyentipikong data, ngunit gayon pa man, talakayin natin ang mga tungkulin sa trabaho na magagamit para sa iyo bilang isang siyentipiko ng data.

Mga Tungkulin sa Trabaho ng Siyentipikong Data

Ang ilan sa mga kilalang pamagat sa trabaho ng Data Scientist ay:

  • Data Scientist
  • Data Engineer
  • Data Architect
  • Administrator ng Data
  • Tagasuri ng data
  • Business Analyst
  • Tagapamahala ng Data / Analytics
  • Business Intelligence Manager

Ang tsart ng Payscale.com sa Data Science Tutorial na ito sa ibaba ay nagpapakita ng average na suweldo ng Data Scientist ayon sa mga kasanayan sa USA at India.

Ang oras ay hinog na hanggang sa kasanayan sa Data Science at Big Data Analytics upang samantalahin ang mga pagkakataon sa karera sa Data Science na darating sa iyo. Dinadala tayo nito sa pagtatapos ng blog ng tutorial sa Agham ng Data. Inaasahan kong ang blog na ito ay may kaalaman at naidagdag na halaga sa iyo. Ngayon na ang oras upang pumasok sa mundo ng Agham ng Data at maging isang matagumpay na Data Scientist.

Ang Edureka ay may isang espesyal na na-curate na tumutulong sa iyo na makakuha ng kadalubhasaan sa Mga Algorithm ng Pag-aaral ng Machine tulad ng K-Means Clustering, Mga Puno ng Desisyon, Random Forest, Naive Bayes. Malalaman mo ang mga konsepto ng Statistics, Time Series, Text Mining at isang pagpapakilala din sa Deep Learning. Ang mga bagong batch para sa kursong ito ay nagsisimula na !!

Mayroon bang tanong para sa amin sa Data Science Tutorial? Mangyaring banggitin ito sa seksyon ng mga komento at babalikan ka namin.