Ano ang Data Science? Isang Gabay ng Nagsisimula Sa Agham ng Data



Ang Data Science ay ang hinaharap ng Artipisyal na Katalinuhan. Alamin kung ano ang Data Science, paano ito makakapagdagdag ng halaga sa iyong negosyo at sa iba't ibang mga phase ng lifecycle.

Sa pagpasok ng mundo sa panahon ng malaking data, lumaki din ang pangangailangan para sa pag-iimbak nito. Ito ang pangunahing hamon at pag-aalala para sa mga industriya ng negosyo hanggang 2010. Ang pangunahing pokus ay sa pagbuo ng isang balangkas at mga solusyon upang mag-imbak ng data. Ngayon kapag matagumpay na nalutas ng Hadoop at iba pang mga balangkas ang problema ng pag-iimbak, ang pokus ay lumipat sa pagproseso ng data na ito. Ang Data Science ay ang lihim na sarsa dito. Ang lahat ng mga ideya na nakikita mo sa mga pelikulang sci-fi sa Hollywood ay maaaring maging realidad ng Data Science. Ang Data Science ay ang hinaharap ng Artipisyal na Katalinuhan. Samakatuwid, napakahalagang maunawaan kung ano ang Data Science at paano ito makakapagdagdag ng halaga sa iyong negosyo.

Ang Edureka 2019 Tech Career Guide ay wala na! Mga pinakamainit na tungkulin sa trabaho, tumpak na mga landas sa pag-aaral, pananaw sa industriya at higit pa sa gabay. Mag-download ngayon

Sa blog na ito, sasaklawin ko ang mga sumusunod na paksa.





Sa pagtatapos ng blog na ito, maiintindihan mo kung ano ang Data Science at ang tungkulin nito sa pagkuha ng mga makabuluhang pananaw mula sa kumplikado at malalaking hanay ng data sa paligid natin.Upang makakuha ng malalim na kaalaman sa Data Science, maaari kang magpatala nang live ni Edureka na may suporta na 24/7 at habang-buhay na pag-access.

Ano ang Data Science?

Ang Data Science ay isang timpla ng iba't ibang mga tool, algorithm, at mga prinsipyo ng pag-aaral ng makina na may layunin na matuklasan ang mga nakatagong mga pattern mula sa hilaw na data. Ngunit paano ito naiiba mula sa ginagawa ng mga istatistika sa loob ng maraming taon?



Ang sagot ay nakasalalay sa pagkakaiba sa pagitan ng pagpapaliwanag at paghula.

Data Analyst v / s Data Science - Edureka

Tulad ng nakikita mo mula sa imahe sa itaas, isang Data Analystkaraniwang ipinapaliwanag kung ano ang nangyayari sa pamamagitan ng pagpoproseso ng kasaysayan ng data. Sa kabilang banda, ang Data Scientist ay hindi lamang ang exploratory analysis upang matuklasan ang mga pananaw mula dito, ngunit gumagamit din ng iba't ibang mga advanced algorithm ng machine machine upang makilala ang paglitaw ng isang partikular na kaganapan sa hinaharap. Ang isang Data Scientist ay titingnan ang data mula sa maraming mga anggulo, kung minsan ang mga anggulo na hindi alam nang mas maaga.



Kaya, ang Agham ng Data ay pangunahing ginagamit upang gumawa ng mga pagpapasya at hula na gumagamit ng hinuhulaan na causal analytics, prescriptive analytics (mahuhulaan kasama ang agham ng pagpapasya) at pag-aaral ng makina.

  • Mahuhulaan na causal analytics - Kung nais mo ang isang modelo na maaaring mahulaan ang mga posibilidad ng isang partikular na kaganapan sa hinaharap, kailangan mong maglapat ng mahuhulaan na causal analytics. Sabihin, kung nagbibigay ka ng pera sa kredito, kung gayon ang posibilidad ng mga customer na gumawa ng mga pagbabayad sa credit sa hinaharap ay isang bagay na pag-aalala mo. Dito, makakabuo ka ng isang modelo na maaaring magsagawa ng mahuhulaan na analytics sa kasaysayan ng pagbabayad ng customer upang mahulaan kung ang mga pagbabayad sa hinaharap ay nasa oras o hindi.
  • Niresetang analytics: Kung nais mo ang isang modelo na may katalinuhan ng pagkuha ng sarili nitong mga desisyon at may kakayahang baguhin ito sa mga dynamic na parameter, tiyak na kailangan mo ng iniresetang analytics para dito. Ang medyo bagong larangan na ito ay tungkol sa pagbibigay ng payo. Sa ibang mga termino, hindi lamang ito hinuhulaan ngunit nagmumungkahi ng isang saklaw ng mga iniresetang pagkilos at kaugnay na mga kinalabasan.
    Ang pinakamagandang halimbawa para dito ay ang kotse na nagmamaneho sa sarili ng Google na tinalakay ko rin kanina. Ang data na nakalap ng mga sasakyan ay maaaring magamit upang sanayin ang mga self-drive na kotse. Maaari kang magpatakbo ng mga algorithm sa data na ito upang dalhin ito sa katalinuhan. Paganahin nito ang iyong sasakyan na kumuha ng mga desisyon tulad ng kung kailan lumiliko, aling landas ang lalagyan,kailan magpapabagal o magpapabilis.
  • Pag-aaral ng makina para sa paggawa ng mga hula - Kung mayroon kang transactional na data ng isang kumpanya ng pananalapi at kailangang bumuo ng isang modelo upang matukoy ang takbo sa hinaharap, kung gayon ang mga algorithm sa pag-aaral ng machine ang pinakamahusay na mapagpipilian. Ito ay nahulog sa ilalim ng tularan ng pinangangasiwaang pag-aaral. Tinawag itong pinangangasiwaan dahil mayroon ka nang data batay sa kung saan maaari mong sanayin ang iyong mga machine. Halimbawa, ang isang modelo ng pagtuklas ng pandaraya ay maaaring sanayin gamit ang isang makasaysayang tala ng mga mapanlinlang na pagbili.
  • Pag-aaral ng makina para sa pagtuklas ng pattern - Kung wala kang mga parameter batay sa kung saan maaari kang gumawa ng mga hula, pagkatapos ay kailangan mong malaman ang mga nakatagong mga pattern sa loob ng dataset upang makagawa ng mga makahulugang hula. Ito ay walang iba kundi ang hindi sinusuportahang modelo dahil wala kang natukoy na mga label para sa pagpapangkat. Ang pinaka-karaniwang algorithm na ginamit para sa pagtuklas ng pattern ay Clustering.
    Sabihin nating nagtatrabaho ka sa isang kumpanya ng telepono at kailangan mong magtatag ng isang network sa pamamagitan ng paglalagay ng mga tower sa isang rehiyon. Pagkatapos, maaari mong gamitin ang diskarte ng clustering upang mahanap ang mga lokasyon ng tower na masiguro na ang lahat ng mga gumagamit ay makakatanggap ng pinakamainam na lakas ng signal.

Tingnan natin kung paano naiiba ang proporsyon ng mga diskarte na inilarawan sa itaas para sa Pagsusuri ng Data pati na rin ang Agham sa Data. Tulad ng nakikita mo sa imahe sa ibaba, Pagsusuri sa Datamay kasamang mapaglarawang analytics at hula sa isang tiyak na lawak. Sa kabilang banda, ang Agham ng Data ay higit pa tungkol sa Predictive Causal Analytics at Machine Learning.

Data Science Analytics - Edureka

Ngayong alam mo na kung ano talaga ang Agham ng Data, alamin ngayon ang dahilan kung bakit ito kinakailangan sa una.

Bakit Data Science?

  • Ayon sa kaugalian, ang data na mayroon kami ay halos nakabalangkas at maliit ang laki, na maaaring masuri sa pamamagitan ng paggamit ng mga simpleng tool ng BI.Hindi tulad ng data satradisyonal na mga sistema na kung saan ay halos nakabalangkas, ngayon ang karamihan sa data ay hindi istraktura o semi-istraktura. Tingnan natin ang mga trend ng data sa imaheng ibinigay sa ibaba na nagpapakita na sa pamamagitan ng 2020, higit sa 80% ng data ang hindi mabubuo.
    Daloy ng hindi nakaayos na data - Edureka
    Ang data na ito ay nabuo mula sa iba't ibang mga mapagkukunan tulad ng mga log sa pananalapi, mga file ng teksto, mga porma ng multimedia, sensor, at instrumento. Ang mga simpleng tool ng BI ay hindi kayang iproseso ang napakaraming dami at pagkakaiba-iba ng data. Ito ang dahilan kung bakit kailangan namin ng mas kumplikado at advanced na mga tool ng pag-aari at algorithm para sa pagproseso, pagsusuri at pagguhit ng mga makabuluhang pananaw mula rito.

Hindi lamang ito ang dahilan kung bakit napakapopular ang Data Science. Hukayin natin nang mas malalim at tingnan kung paano ginagamit ang Data Science sa iba't ibang mga domain.

  • Paano kung maunawaan mo ang tumpak na mga kinakailangan ng iyong mga customer mula sa umiiral na data tulad ng nakaraang kasaysayan ng pagba-browse ng customer, kasaysayan ng pagbili, edad at kita. Walang alinlangan na mayroon ka ring lahat ng data na ito nang mas maaga, ngunit ngayon na may malawak na halaga at pagkakaiba-iba ng data, masasanay mong mas epektibo ang mga modelo at inirerekumenda ang produkto sa iyong mga customer nang may mas tumpak. Hindi ba magiging kamangha-mangha dahil magdadala ito ng maraming negosyo sa iyong samahan?
  • Kumuha tayo ng ibang sitwasyon upang maunawaan ang papel ng Agham ng Data sa paggawa ng desisyon.Paano kung ang iyong sasakyan ay may katalinuhan upang ihatid ka sa iyong bahay? Ang mga kotse na nagmamaneho ng sarili ay nangongolekta ng live na data mula sa mga sensor, kabilang ang mga radar, camera, at laser upang lumikha ng isang mapa ng paligid nito. Batay sa data na ito, tumatagal ng mga pagpapasya tulad ng kung kailan magpapabilis, kailan magpapabilis, kung kailan maaabutan, kung saan kukuha ng isang turn - na gumagamit ng mga advanced na algorithm sa pag-aaral ng machine.
  • Tingnan natin kung paano magagamit ang Data Science sa mahuhulaan na analytics. Gawin nating halimbawa ang pagtataya ng panahon. Ang data mula sa mga barko, sasakyang panghimpapawid, radar, satellite ay maaaring kolektahin at pag-aralan upang makabuo ng mga modelo. Ang mga modelong ito ay hindi lamang tinataya ang panahon ngunit makakatulong din sa paghula ng paglitaw ng anumang mga natural na kalamidad. Tutulungan ka nitong magsagawa ng naaangkop na mga hakbang bago at mag-save ng maraming mahalagang buhay.

Tingnan natin ang infographic sa ibaba upang makita ang lahat ng mga domain kung saan lumilikha ang impression ng Data Science ng impression nito.

Mga Kaso sa Paggamit ng Agham ng Data - Edureka

Sino ang isang Data Scientist?

Mayroong maraming mga kahulugan na magagamit sa Data Scientists. Sa simpleng mga salita, ang isang Data Scientist ay isang nagsasanay ng sining ng Data Science.Ang salitang 'Data Scientist' aylikha matapos isaalang-alang ang katotohanan na ang isang Data Scientist ay kumukuha ng maraming impormasyon mula sa mga siyentipikong larangan at aplikasyon maging ito ay istatistika o matematika.

Ano ang ginagawa ng isang Data Scientist?

Ang mga siyentipiko ng data ay ang mga pumuputok sa mga kumplikadong problema sa data sa kanilang malakas na kadalubhasaan sa ilang mga disiplina na pang-agham. Gumagawa ang mga ito ng maraming elemento na nauugnay sa matematika, istatistika, computer science, atbp (kahit na maaaring hindi sila dalubhasa sa lahat ng larangang ito).Gumagawa sila ng maraming paggamit ng pinakabagong mga teknolohiya sa paghahanap ng mga solusyon at pag-abot sa mga konklusyon na mahalaga para sa paglago at pag-unlad ng isang organisasyon. Ipinapakita ng mga Siyentipiko ng Data ang data sa isang mas kapaki-pakinabang na form kumpara sa hilaw na data na magagamit sa kanila mula sa mga nakabalangkas pati na rin mga hindi nakaayos na form.

Upang malaman ang higit pa tungkol sa isang Data Scientist maaari kang mag-refer sa artikulong ito sa

Ang paglipat ng karagdagang, hinayaan ngayon talakayin ang BI. Sigurado akong maaaring narinig mo rin ang tungkol sa Business Intelligence (BI). Kadalasan ang Data Science ay nalilito sa BI. Sasabihin ko ang ilang maigsi at malinawcontrasts sa pagitan ng dalawa na makakatulong sa iyo sa pagkuha ng isang mas mahusay na pag-unawa. Tignan natin.

Business Intelligence (BI) kumpara sa Science sa Data

  • Karaniwang pinag-aaralan ng Business Intelligence (BI) ang dating data upang makahanap ng paningin at pananaw na naglalarawan sa mga kalakaran sa negosyo. Dito ay nagbibigay-daan sa iyo ang BI na kumuha ng data mula sa panlabas at panloob na mga mapagkukunan, ihanda ito, patakbuhin ang mga query dito at lumikha ng mga dashboard upang sagutin ang mga katanungan tulad ngpagtatasa ng quarterly kitao mga problema sa negosyo. Maaaring suriin ng BI ang epekto ng ilang mga kaganapan sa malapit na hinaharap.
  • Ang Agham ng Data ay isang mas inaabangan na diskarte, isang exploratory na paraan na may pagtuon sa pag-aaral ng nakaraan o kasalukuyang data at hulaan ang mga hinaharap na hinaharap na may hangaring gumawa ng mga kaalamang pagpapasya. Sinasagot nito ang mga bukas na tanong tungkol sa 'ano' at 'paano' mga kaganapan.

Tingnan natin ang ilang mga magkakaibang tampok.

Mga Tampok Business Intelligence (BI) Agham sa Data
Mga Pinagmulan ng DataNakabalangkas
(Karaniwan SQL, madalas Data Warehouse)
Parehong Nabalangkas at Hindi Nabuo

pag-uri-uriin ang array c ++

(mga tala, data ng ulap, SQL, NoSQL, teksto)

LapitanStatistics at VisualizationIstatistika, Pag-aaral ng Makina, Pagsusuri sa Grap, Neograpiyistikong Programming (NLP)
PokusNakaraan at kasalukuyanKasalukuyan at Hinaharap
Mga kasangkapanPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Ito ay tungkol sa kung ano ang Data Science, ngayon ay unawain natin ang lifecycle ng Data Science.

Ang isang pangkaraniwang pagkakamali na nagawa sa mga proyekto sa Agham ng Data ay nagmamadali sa pagkolekta at pagtatasa ng data, nang hindi nauunawaan ang mga kinakailangan o kahit na maayos na nai-frame ang problema sa negosyo. Samakatuwid, napakahalaga para sa iyo na sundin ang lahat ng mga phase sa buong lifecycle ng Data Science upang matiyak ang maayos na paggana ng proyekto.

Lifecycle ng Agham ng Data

Narito ang isang maikling pangkalahatang ideya ng pangunahing mga yugto ng Data Science Lifecycle:

Lifecycle ng Data Science - Edureka


Pagtuklas ng Agham ng Data - EdurekaPhase 1 — Pagtuklas:
Bago mo simulan ang proyekto, mahalagang maunawaan ang iba't ibang mga pagtutukoy, kinakailangan, prayoridad at kinakailangang badyet. Dapat ay mayroon kang kakayahang magtanong ng mga tamang katanungan.Dito, tinatasa mo kung mayroon kang kinakailangang mga mapagkukunan na naroroon sa mga tuntunin ng mga tao, teknolohiya, oras at data upang suportahan ang proyekto.Sa yugtong ito, kailangan mo ring i-frame ang problema sa negosyo at bumalangkas ng paunang mga pagpapalagay (IH) upang subukan.

Paghahanda ng data ng Agham ng Data - Edureka

Phase 2 — Paghahanda ng data: Sa yugtong ito, kailangan mo ng analytical sandbox kung saan maaari kang magsagawa ng analytics para sa buong tagal ng proyekto. Kailangan mong tuklasin, preprocess at kundisyon ng data bago ang pagmomodelo. Dagdag dito, gagampanan mo ang ETLT (i-extract, ibahin ang anyo, i-load at ibahin ang anyo) upang makakuha ng data sa sandbox. Tingnan natin ang daloy ng Pagsusuri ng Istatistika sa ibaba.

Lifecycle ng Agham ng Data
Maaari mong gamitin ang R para sa paglilinis ng data, pagbabago, at pagpapakita. Tutulungan ka nitong makita ang mga nasa labas at magtaguyod ng isang ugnayan sa pagitan ng mga variable.Kapag nalinis at naihanda mo na ang data, oras na upang magsaliksikanalyticsdito. Tingnan natin kung paano mo makakamit iyon.

Phase 3 — Pagpaplano ng modelo: Pagpaplano ng modelo ng Agham ng Data - Edureka Dito, matutukoy mo ang mga pamamaraan at diskarte upang iguhit ang mga ugnayan sa pagitan ng mga variable.Itatakda ng mga ugnayan na ito ang batayan para sa mga algorithm na iyong ipapatupad sa susunod na yugto.Ilalapat mo ang Exploratory Data Analytics (EDA) gamit ang iba't ibang mga formula sa istatistika at mga tool sa visualization.

Tingnan natin ang iba't ibang mga tool sa pagpaplano ng modelo.

Mga tool sa pagpaplano ng modelo sa Agham ng Data - Edureka

  1. R ay may isang kumpletong hanay ng mga kakayahan sa pagmomodelo at nagbibigay ng isang mahusay na kapaligiran para sa pagbuo ng mga modelong nagpapakahulugan.
  2. Mga serbisyo sa Pagsusuri ng SQL maaaring gumanap ng in-database analytics gamit ang mga karaniwang pag-andar ng pagmimina ng data at pangunahing mga hulang modelo.
  3. SAS / ACCESS maaaring magamit upang ma-access ang data mula sa Hadoop at ginagamit para sa paglikha ng mga nauulit at magagamit muli na mga diagram ng daloy ng modelo.

Bagaman, maraming mga tool ang naroroon sa merkado ngunit ang R ang pinakakaraniwang ginagamit na tool.

Ngayon na nakakuha ka ng mga pananaw sa likas na katangian ng iyong data at nagpasya ang mga algorithm na gagamitin. Sa susunod na yugto, gagawin momag-applyang algorithm at bumuo ng isang modelo.

Pagbuo ng modelo ng Agham ng Data - EdurekaPhase 4 — Pagbuo ng modelo: Sa yugtong ito, bubuo ka ng mga dataset para sa mga hangarin sa pagsasanay at pagsubok. Narito ykailangan kong isaalang-alang kung ang iyong mga mayroon nang kasangkapan ay sapat na para sa pagpapatakbo ng mga modelo o kakailanganin nito ng isang mas matatag na kapaligiran (tulad ng mabilis at parallel na pagproseso). Susuriin mo ang iba't ibang mga diskarte sa pag-aaral tulad ng pag-uuri, pagsasama at pag-cluster upang mabuo ang modelo.

Maaari mong makamit ang pagbuo ng modelo sa pamamagitan ng mga sumusunod na tool.

Mga tool sa pagbuo ng modelo sa Science sa Data

Phase 5 — Pagpapatakbo ng: Mapapatakbo ang Agham ng Data - Edureka Sa yugtong ito, naghahatid ka ng mga panghuling ulat, pagtatagubilin, code at mga teknikal na dokumento.Bilang karagdagan, kung minsan ang isang proyekto ng piloto ay ipinatutupad din sa isang real-time na kapaligiran sa produksyon. Bibigyan ka nito ng isang malinaw na larawan ng pagganap at iba pang kaugnay na mga hadlang sa isang maliit na sukat bago ang buong pag-deploy.


Komunikasyon sa Agham ng Data - EdurekaPhase 6 — Ipagpahayag ang mga resulta:
Ngayon ay mahalaga na suriin kung nagawa mong makamit ang iyong layunin na iyong pinlano sa unang yugto. Kaya, sa huling yugto, kilalanin mo ang lahat ng mga pangunahing natuklasan, makipag-usap sa mga stakeholder at matukoy kung ang mga resultang proyekto ay isang tagumpay o pagkabigo batay sa mga pamantayang binuo sa Phase 1.

Ngayon, kukuha ako ng isang case study upang maipaliwanag sa iyo ang iba't ibang mga phase na inilarawan sa itaas.

Pag-aaral ng Kaso: Pag-iwas sa Diabetes

Paano kung mahuhulaan natin ang paglitaw ng diyabetis at magsagawa ng mga naaangkop na hakbang muna upang maiwasan ito?
Sa kasong ito ng paggamit, mahuhulaan namin ang paglitaw ng paggamit ng diyabetis sa buong lifecycle na tinalakay namin nang mas maaga. Dumaan tayo sa iba't ibang mga hakbang.

Hakbang 1:

  • Una,mangolekta kami ng data batay sa kasaysayan ng medikalng pasyente tulad ng tinalakay sa Phase 1. Maaari kang mag-refer sa sample na data sa ibaba.

Data ng sample na Agham ng Data - Edureka

  • Tulad ng nakikita mo, mayroon kaming iba't ibang mga katangian tulad ng nabanggit sa ibaba.

Mga Katangian:

  1. npreg - Bilang ng beses na buntis
  2. glucose - konsentrasyon ng Plasma glucose
  3. bp - Presyon ng dugo
  4. balat - Triceps ang kapal ng balat
  5. bmi - index ng mass ng katawan
  6. ped - Pag-andar ng pedigree sa diyabetes
  7. edad - Edad
  8. kita - Kita

Hakbang 2:

  • Ngayon, kapag mayroon na tayong data, kailangan nating linisin at ihanda ang data para sa pagtatasa ng data.
  • Ang data na ito ay may maraming mga hindi pagkakapare-pareho tulad ng mga nawawalang halaga, blangko na mga haligi, biglang mga halaga at maling format ng data na kailangang linisin.
  • Dito, naayos namin ang data sa isang solong talahanayan sa ilalim ng iba't ibang mga katangian - ginagawa itong mas nakabalangkas.
  • Tingnan natin ang sample na data sa ibaba.

Hindi pantay-pantay na data ng Data Science - Edureka

Ang data na ito ay may maraming mga hindi pagkakapare-pareho.

  1. Sa haligi npreg , 'Isa' ay nakasulat sasalita,samantalang dapat ito sa pormang pang-numero tulad ng 1.
  2. Sa haligi bp ang isa sa mga halaga ay 6600 na imposible (hindi bababa sa mga tao) dahil ang bp ay hindi maaaring umakyat sa napakalaking halaga.
  3. Tulad ng makikita mo ang Kita ang haligi ay blangko at wala ring kahulugan sa paghula ng diabetes. Samakatuwid, ito ay kalabisan kung mayroon ito dito at dapat na alisin mula sa talahanayan.
  • Kaya, lilinisin at preprocess namin ang data na ito sa pamamagitan ng pag-alis ng mga outlier, pagpunan ang mga null na halaga at gawing normal ang uri ng data. Kung naaalala mo, ito ang aming pangalawang yugto na kung saan ay preprocessing ng data.
  • Sa wakas, nakukuha namin ang malinis na data tulad ng ipinakita sa ibaba na maaaring magamit para sa pagtatasa.

Data ng pare-parehong data sa Agham - Edureka

Hakbang 3:

Ngayon gumawa tayo ng ilang pagtatasa tulad ng tinalakay nang mas maaga sa Phase 3.

  • Una, mai-load namin ang data sa analytical sandbox at ilalapat dito ang iba't ibang mga pag-andar ng istatistika. Halimbawa, ang R ay may mga function na tulad naglalarawan na nagbibigay sa amin ng bilang ng mga nawawalang halaga at natatanging halaga. Maaari din naming magamit ang buod na pag-andar na magbibigay sa amin ng impormasyong pang-istatistiko tulad ng mga halagang mean, panggitna, saklaw, min at max.
  • Pagkatapos, gumagamit kami ng mga diskarte sa visualization tulad ng histograms, line graph, box plot upang makakuha ng patas na ideya ng pamamahagi ng data.

Pagpapakita sa Agham ng Data - Edureka

Hakbang 4:

Ngayon, batay sa mga pananaw na nagmula sa nakaraang hakbang, ang pinakamahusay na akma para sa ganitong uri ng problema ay ang puno ng pagpapasya. Tingnan natin kung paano?

  • Dahil, mayroon na kaming mga pangunahing katangian para sa pagtatasa tulad npreg, bmi , atbp., kaya gagamitin naminpinangangasiwaang pamamaraan sa pag-aaral upang mabuo ang isangmodelo dito.
  • Dagdag dito, partikular naming ginamit ang puno ng pagpapasya dahil isinasaalang-alang nito ang lahat ng mga katangian nang sabay-sabay, tulad ng mga mayroonlinear na relasyon pati na rin ang mga mayroong isang hindi linear na ugnayan. Sa aming kaso, mayroon kaming isang linear na ugnayan sa pagitan npreg at edad, samantalang ang hindi linya na ugnayan sa pagitan npreg at ped .
  • Ang mga modelo ng puno ng desisyon ay napakalakas din dahil maaari naming gamitin ang iba't ibang mga kumbinasyon ng mga katangian upang makagawa ng iba't ibang mga puno at pagkatapos ay ipatupad ang isa na may pinakamataas na kahusayan.

Tingnan natin ang aming puno ng pagpapasya.

Itakda ang data set ng puno

Dito, ang pinakamahalagang parameter ay ang antas ng glucose, kaya't ito ang ating root node. Ngayon, ang kasalukuyang node at ang halaga nito ay tumutukoy sa susunod na mahalagang parameter na kukuha. Nagpapatuloy ito hanggang makuha natin ang resulta sa mga tuntunin ng pos o neg . Ang Pos ay nangangahulugang positibo ang ugali ng pagkakaroon ng diabetes at neg ay nangangahulugan na ang ugali ng pagkakaroon ng diabetes ay negatibo.

Kung nais mong matuto nang higit pa tungkol sa pagpapatupad ng puno ng pagpapasya, mag-refer sa blog na ito

Hakbang 5:

Sa yugtong ito, magpapatakbo kami ng isang maliit na proyekto ng piloto upang suriin kung naaangkop ang aming mga resulta. Hahanapin din namin ang mga hadlang sa pagganap kung mayroon man. Kung ang mga resulta ay hindi tumpak, kailangan naming muling palitan at muling itayo ang modelo.

Hakbang 6:

Kapag naipatupad namin nang matagumpay ang proyekto, ibabahagi namin ang output para sa buong pag-deploy.

Ang pagiging isang Data Scientist ay mas madaling sabihin kaysa tapos na. Kaya, tingnan natin kung ano ang kailangan mo upang maging isang Data Scientist.Ang isang Data Scientist ay nangangailangan ng mga kasanayan karaniwangmula sa tatlong pangunahing mga lugar tulad ng ipinakita sa ibaba.

Mga kasanayan sa Agham ng Data - Edureka

Tulad ng nakikita mo sa imahe sa itaas, kailangan mong makakuha ng iba't ibang mga kasanayang mahirap at malambot na kasanayan. Kailangan mong maging mahusay sa istatistika at matematika upang pag-aralan at mailarawan ang data. Hindi na kailangang sabihin, Pag-aaral ng Makina bumubuo sa gitna ng Data Science at hinihiling na maging mahusay ka rito. Gayundin, kailangan mong magkaroon ng isang matibay na pag-unawa sa domain nagtatrabaho ka upang maunawaan nang malinaw ang mga problema sa negosyo. Ang iyong gawain ay hindi nagtatapos dito. Dapat ay may kakayahang magpatupad ng iba't ibang mga algorithm na nangangailangan ng mabuti coding kasanayan Sa wakas, sa sandaling nakagawa ka ng ilang mga pangunahing desisyon, mahalaga na maihatid mo ang mga ito sa mga stakeholder. Kaya, mabuti komunikasyon ay tiyak na magdagdag ng mga brownie point sa iyong mga kasanayan.

Hinihimok ko kayo na makita ang tutorial ng video ng Agham na ito na nagpapaliwanag kung ano ang Agham sa Data at lahat ng tinalakay sa blog. Sige, tangkilikin ang video at sabihin sa akin kung ano ang palagay mo.

c ++ tawag sa pamamagitan ng sanggunian

Ano ang Data Science? Kurso sa Agham ng Data - Tutorial sa Agham ng Data Para sa Mga Nagsisimula | Edureka

Dadalhin ka ng video ng kurso sa Edureka Data Science sa pangangailangan ng data science, ano ang science sa data, mga kaso ng paggamit ng science sa data para sa negosyo, BI vs science sa data, mga tool sa analytics ng data, lifecycle ng agham ng data kasama ang isang demo.

Sa huli, hindi magiging mali ang sabihin na ang hinaharap ay pag-aari ng Data Scientists. Hinuhulaan na sa pagtatapos ng taong 2018, kakailanganin ang humigit-kumulang isang milyong Data Scientists. Parami nang parami ang data ay magbibigay ng mga pagkakataon upang himukin ang mga pangunahing desisyon sa negosyo. Malapit na nitong mabago ang paraan ng pagtingin natin sa mundo na na-delugado ng data sa paligid natin. Samakatuwid, ang isang Siyentipiko ng Data ay dapat na may mataas na kasanayan at maganyak na malutas ang pinaka-kumplikadong mga problema.

Inaasahan kong nasiyahan ka sa pagbabasa ng aking blog at naunawaan kung ano ang Data Science.Suriin ang aming dito, kasama iyon ng live na pagsasanay na pinamunuan ng magtuturo at karanasan sa proyekto sa totoong buhay.