Malaking Tutorial sa Data
Malaking Data, hindi mo ba naririnig ang term na ito dati? Sigurado akong mayroon ka. Sa huling 4 hanggang 5 taon, lahat ay pinag-uusapan ang tungkol sa Big Data. Ngunit alam mo ba talaga kung ano talaga ang Big Data na ito, paano ito nakakaapekto sa ating buhay at kung bakit ang mga samahan ay nangangaso para sa mga propesyonal na may ? Sa Big Data Tutorial na ito, bibigyan kita ng isang kumpletong pananaw tungkol sa Big Data.
Nasa ibaba ang mga paksa na sasakupin ko sa Big Data Tutorial na ito:
- Kwento ng Malaking Data
- Malaking Mga Kadahilanan sa Pagmamaneho ng Data
- Ano ang Big Data?
- Malalaking Katangian ng Data
- Mga uri ng Malaking Data
- Mga halimbawa ng Malaking Data
- Mga aplikasyon ng Malaking Data
- Mga hamon sa Malaking Data
Hayaan akong simulan ang Big Data Tutorial na ito sa isang maikling kwento.
Kwento ng Malaking Data
Sa mga sinaunang araw, ang mga tao ay naglalakbay mula sa isang nayon patungo sa isa pang nayon na nakasakay sa isang cart na hinihimok ng kabayo, ngunit sa pagdaan ng panahon, ang mga nayon ay naging bayan at nagkalat ang mga tao. Ang distansya upang maglakbay mula sa isang bayan patungo sa kabilang bayan ay tumaas din. Kaya, naging isang problema sa paglalakbay sa pagitan ng mga bayan, kasama ang mga bagahe. Sa labas ng asul, isang matalinong fella ang nagmungkahi, dapat kaming mag-alaga at magpakain ng isang kabayo, upang malutas ang problemang ito. Kapag tiningnan ko ang solusyon na ito, hindi ito masama, ngunit sa palagay mo ang isang kabayo ay maaaring maging isang elepante? Sa tingin ko hindi. Ang isa pang matalinong tao ay nagsabi, sa halip na 1 kabayo ang kumukuha ng cart, ipaalam sa amin ang 4 na kabayo upang hilahin ang parehong cart. Ano ang palagay ninyo sa solusyon na ito? Sa palagay ko ito ay isang kamangha-manghang solusyon. Ngayon, ang mga tao ay maaaring maglakbay ng malalaking distansya nang mas kaunting oras at kahit na magdala ng mas maraming bagahe.
Nalalapat ang parehong konsepto sa Big Data. Sinabi ng Big Data, hanggang ngayon, okay kami sa pag-iimbak ng data sa aming mga server dahil ang dami ng data ay medyo limitado, at ang dami ng oras upang maproseso ang data na ito ay okay din. Ngunit ngayon sa kasalukuyang teknolohikal na mundo, ang data ay lumalaking masyadong mabilis at ang mga tao ay umaasa sa data nang maraming beses. Gayundin ang bilis kung saan lumalaki ang data, nagiging imposibleng maiimbak ang data sa anumang server.
Sa pamamagitan ng blog na ito sa Big Data Tutorial, i-explore natin ang mga mapagkukunan ng Big Data, na kung saan ay hindi naimbak at mai-proseso ang mga tradisyunal na system.
Malaking Mga Kadahilanan sa Pagmamaneho ng Data
Ang dami ng data sa planetang lupa ay lumalaki nang exponentially sa maraming mga kadahilanan. Ang iba't ibang mga mapagkukunan at ang aming pang-araw-araw na aktibidad ay bumubuo ng maraming data. Sa pag-imbento ng web, ang buong mundo ay naging online, ang bawat solong bagay na ginagawa natin ay nag-iiwan ng isang digital trace. Sa mga matatalinong bagay na nag-i-online, ang rate ng paglago ng data ay mabilis na tumaas. Ang mga pangunahing mapagkukunan ng Big Data ay mga site ng social media, mga network ng sensor, mga digital na imahe / video, cell phone, pagbili ng mga tala ng transaksyon, mga web log, mga talaang medikal, archive, surveillance ng militar, eCommerce, kumplikadong siyentipikong pagsasaliksik at iba pa. Ang lahat ng impormasyong ito ay umabot sa halos ilang Quintillion bytes ng data. Sa pamamagitan ng 2020, ang mga dami ng data ay halos 40 Zettabytes na katumbas ng pagdaragdag ng bawat solong butil ng buhangin sa planeta na pinarami ng pitumpu't lima.
Ano ang Big Data?
Ang Big Data ay isang term na ginamit para sa isang koleksyon ng mga hanay ng data na malaki at kumplikado, na mahirap iimbak at iproseso gamit ang mga magagamit na tool sa pamamahala ng database o tradisyonal na mga aplikasyon sa pagproseso ng data. Kasama sa hamon ang pagkuha, pag-curate, pag-iimbak, paghahanap, pagbabahagi, paglilipat, pagsusuri at paggunita ng data na ito.
Malalaking Katangian ng Data
Ang limang mga katangiang tumutukoy sa Malaking Data ay: Dami, bilis, Pagkakaiba-iba, Katotohanan at Halaga.
VOLUME
Ang dami ay tumutukoy sa 'dami ng data', na lumalaki araw-araw sa napakabilis na bilis. Ang laki ng data na nabuo ng mga tao, makina at kanilang mga pakikipag-ugnayan sa mismong social media ay napakalaki. Hinulaan ng mga mananaliksik na ang 40 Zettabytes (40,000 Exabytes) ay mabubuo sa pamamagitan ng 2020, na isang pagtaas ng 300 beses mula 2005.
KAPANGYARIHAN
Ang bilis ay tinukoy bilang ang tulin kung saan ang iba't ibang mga mapagkukunan ay bumubuo ng data araw-araw. Ang daloy ng data na ito ay napakalaki at tuloy-tuloy. Mayroong 1.03 bilyong Daily Active Users (Facebook DAU) sa Mobile hanggang ngayon, na isang pagtaas ng 22% taon-taon. Ipinapakita nito kung gaano kabilis lumalaki ang bilang ng mga gumagamit sa social media at kung gaano kabilis ang data ay nabubuo araw-araw. Kung nagagawa mong hawakan ang bilis, makakagawa ka ng mga pananaw at kumuha ng mga desisyon batay sa real-time na data.
IBA-IBA
Tulad ng maraming mga mapagkukunan na nag-aambag sa Big Data, ang uri ng data na binubuo nila ay magkakaiba. Maaari itong maiayos, semi-istraktura o hindi nakaayos. Samakatuwid, mayroong isang iba't ibang mga data na kung saan ay nakakakuha nabuo araw-araw. Mas maaga, nakakuha kami ng data mula sa excel at mga database, ngayon ang data ay nagmumula sa anyo ng mga imahe, audio, video, data ng sensor atbp tulad ng ipinakita sa imahe sa ibaba. Samakatuwid, ang pagkakaiba-iba ng hindi nakaayos na data ay lumilikha ng mga problema sa pagkuha, pag-iimbak, pagmimina at pag-aralan ang data.
VERACITY
Ang pagiging totoo ay tumutukoy sa data na may pag-aalinlangan o kawalan ng katiyakan ng magagamit na data dahil sa hindi pagkakapare-pareho ng data at hindi kumpleto. Sa imahe sa ibaba, maaari mong makita na ilang mga halaga ang nawawala sa talahanayan. Gayundin, ang ilang mga halaga ay mahirap tanggapin, halimbawa - 15000 minimum na halaga sa ika-3 hilera, hindi posible. Ang hindi pagkakapare-pareho at hindi pagkumpleto na ito ay Katotohanan.
Ang magagamit na data minsan ay maaaring maging magulo at marahil ay mahirap magtiwala. Sa maraming mga anyo ng malaking data, ang kalidad at kawastuhan ay mahirap makontrol tulad ng mga post sa Twitter na may mga hashtag, daglat, typos at colloquial speech. Ang dami ay madalas na dahilan sa likod ng kakulangan ng kalidad at kawastuhan sa data.- Dahil sa kawalan ng katiyakan sa data, 1 sa 3 mga pinuno ng negosyo ay hindi nagtitiwala sa impormasyong ginagamit nila upang gumawa ng mga desisyon.
- Natagpuan sa isang survey na 27% ng mga respondente ay hindi sigurado kung gaano karami sa kanilang data ang hindi tumpak.
- Ang hindi magandang kalidad ng data ay nagkakahalaga ng ekonomiya ng US humigit-kumulang na $ 3.1 trilyon sa isang taon.
HALAGA
Matapos talakayin ang Volume, Velocity, Variety at Veracity, may isa pang V na dapat isaalang-alang kapag tumitingin sa Big Data ibig sabihin, Halaga. Mabuti at mabuti ang lahat upang magkaroon ng access sa malakidataperomaliban kung maaari nating gawing halaga ito ay walang silbi. Sa pamamagitan ng paggawa nito sa halaga na ibig kong sabihin, Nagdaragdag ba ito sa mga pakinabang ng mga samahan na sumusuri sa malaking data? Gumagawa ba ang samahan sa Big Data na nakakamit ang mataas na ROI (Return On Investment)? Maliban kung, nagdaragdag ito sa kanilang mga kita sa pamamagitan ng pagtatrabaho sa Big Data, wala itong silbi.
Dumaan sa aming video sa Big Data sa ibaba upang malaman ang tungkol sa Big Data:
kung paano isara ang isang programa sa java
Malaking Tutorial sa Data Para sa Mga Nagsisimula | Ano ang Malaking Data | Edureka
Tulad ng tinalakay sa Iba't-ibang, mayroong iba't ibang mga uri ng data na nabubuo araw-araw. Kaya, maunawaan natin ngayon ang mga uri ng data:
Mga uri ng Malaking Data
Ang Big Data ay maaaring may tatlong uri:
- Nakabalangkas
- Semi-Structured
- Hindi nakaayos
Nakabalangkas
Ang data na maaaring maiimbak at maproseso sa isang nakapirming format ay tinawag bilang Nakaayos na Data. Ang data na nakaimbak sa isang pamanggit na sistema ng pamamahala ng database (RDBMS) ay isang halimbawa ng data na 'nakabalangkas'. Madaling maproseso ang nakabalangkas na data dahil mayroon itong isang nakapirming iskema. Ang Structured Query Language (SQL) ay madalas na ginagamit upang pamahalaan ang ganoong uri ng Data.
Semi-Structured
Ang Semi-Structured Data ay isang uri ng data na walang pormal na istraktura ng isang modelo ng data, ibig sabihin, isang kahulugan ng talahanayan sa isang pamanggit na DBMS, ngunit gayunpaman mayroon itong ilang mga katangian ng organisasyon tulad ng mga tag at iba pang mga marker upang paghiwalayin ang mga elemento ng semantiko na nagpapadali suriin. Ang mga XML file o mga dokumento ng JSON ay mga halimbawa ng data na semi-nakabalangkas.
Hindi nakaayos
Ang data na walang kilalang form at hindi maiimbak sa RDBMS at hindi ma-aralan maliban kung ito ay mabago sa isang nakabalangkas na format ay tinatawag na hindi istrukturang data. Ang mga Text File at nilalaman ng multimedia tulad ng mga imahe, audio, video ay halimbawa ng hindi nakaayos na data. Ang hindi nakaayos na data ay lumalaki nang mas mabilis kaysa sa iba, sinabi ng mga eksperto na 80 porsyento ng data sa isang samahan ay walang istruktura.
Hanggang ngayon, natakpan ko lang ang pagpapakilala ng Big Data. Bukod dito, ang tutorial sa Big Data na ito ay nagsasalita tungkol sa mga halimbawa, aplikasyon at hamon sa Big Data.
Mga halimbawa ng Malaking Data
Araw-araw ay nag-a-upload kami ng milyun-milyong bytes ng data. 90% ng data ng mundo ay nilikha sa huling dalawang taon.
- Ang hawakan ni Walmart ay higit pa sa 1 milyon transaksyon ng customer tuwing oras.
- Ang mga tindahan ng Facebook, pag-access, at pagsusuri 30+ Petabytes ng data na nabuo ng gumagamit.
- 230+ milyon ng mga tweet ay nilikha araw-araw.
- Higit pa sa 5 bilyon ang mga tao ay tumatawag, magte-text, mag-tweet at magba-browse sa mga mobile phone sa buong mundo.
- Nag-upload ang mga gumagamit ng YouTube 48 na oras ng bagong video bawat minuto ng araw.
- Humahawak ang Amazon 15 milyon pag-click sa customer ang data ng gumagamit ng stream bawat araw upang magrekomenda ng mga produkto.
- 294 bilyon ang mga email ay ipinapadala araw-araw. Sinusuri ng mga serbisyo ang data na ito upang makahanap ng mga spam.
- Ang mga modernong kotse ay may malapit sa 100 sensor na sinusubaybayan ang antas ng gasolina, presyon ng gulong atbp., ang bawat sasakyan ay bumubuo ng maraming data ng sensor.
Mga aplikasyon ng Malaking Data
Hindi kami maaaring makipag-usap tungkol sa data nang hindi pinag-uusapan ang tungkol sa mga tao, mga taong nakikinabang sa mga application ng Big Data. Halos lahat ng mga industriya ngayon ay gumagamit ng mga aplikasyon ng Big Data sa isa o sa kabilang paraan.
- Mas matalinong Pangangalaga sa Kalusugan : Ginagamit ang mga petabyte ng data ng pasyente, ang organisasyon ay maaaring kumuha ng makabuluhang impormasyon at pagkatapos ay bumuo ng mga application na maaaring mahulaan ang lumalalang kondisyon ng pasyente nang maaga.
- Telecom : Nangongolekta ng impormasyon ang mga sektor ng Telecom, pinag-aaralan ito at nagbibigay ng mga solusyon sa iba't ibang mga problema. Sa pamamagitan ng paggamit ng mga application ng Big Data, ang mga kumpanya ng telecom ay nagawang mabawasan nang malaki ang pagkawala ng packet ng data, na nangyayari kapag ang mga network ay sobrang karga, at sa gayon, nagbibigay ng isang seamless na koneksyon sa kanilang mga customer.
- Tingi : Ang tingi ay may ilan sa mga mahigpit na margin, at isa sa pinakadakilang beneficiary ng malaking data. Ang kagandahan ng paggamit ng malaking data sa tingian ay upang maunawaan ang pag-uugali ng mamimili. Ang rekomendasyong engine ng Amazon ay nagbibigay ng mungkahi batay sa kasaysayan ng pagba-browse ng consumer.
- Kontrol sa trapik : Ang kasikipan sa trapiko ay isang pangunahing hamon para sa maraming mga lungsod sa buong mundo. Ang mabisang paggamit ng data at sensor ay magiging susi sa pamamahala ng trapiko nang mas mahusay habang ang mga lungsod ay lalong nagiging masikop.
- Paggawa : Ang pagsusuri ng malaking data sa industriya ng pagmamanupaktura ay maaaring mabawasan ang mga depekto ng sangkap, mapabuti ang kalidad ng produkto, dagdagan ang kahusayan, at makatipid ng oras at pera.
- Kalidad sa Paghahanap : Sa tuwing kumukuha kami ng impormasyon mula sa google, sabay kaming bumubuo ng data para dito. Inimbak ng Google ang data na ito at ginagamit ito upang mapabuti ang kalidad ng paghahanap nito.
May isang tao na may tamang sinabi: 'Hindi lahat ng nasa hardin ay Rosy!' . Hanggang ngayon sa tutorial na Big Data na ito, ipinakita ko lang sa iyo ang rosas na larawan ng Big Data. Ngunit kung napakadali na magamit ang Malaking data, sa palagay mo hindi lahat ng mga organisasyon ay mamuhunan dito? Hayaan mong sabihin ko sa iyo nang pauna, hindi iyon ang kaso. Mayroong maraming mga hamon na kasama kapag nagtatrabaho ka sa Big Data.
Ngayong pamilyar ka sa Big Data at iba't ibang mga tampok nito, ang susunod na seksyon ng blog na ito sa Big Data Tutorial ay magbibigay ng ilaw sa ilan sa mga pangunahing hamon na kinakaharap ng Big Data.
Mga hamon sa Malaking Data
Hayaan mong sabihin ko sa iyo ang ilang mga hamon na kasama ng Big Data:
- Kalidad ng Data - Ang problema dito ay ang 4ikaV ibig sabihin Katotohanan. Ang data dito ay napaka magulo, hindi naaayon at hindi kumpleto. Ang maruming data ay nagkakahalaga ng $ 600 bilyon sa mga kumpanya bawat taon sa Estados Unidos.
- Pagtuklas - Ang paghahanap ng mga pananaw sa Big Data ay tulad ng paghahanap ng isang karayom sa isang haystack. Ang pagtatasa ng mga petabyte ng data na gumagamit ng napakalakas na mga algorithm upang makahanap ng mga pattern at pananaw ay napakahirap.
- Imbakan - Ang mas maraming data na mayroon ang isang samahan, mas kumplikado ang mga problema sa pamamahala nito. Ang katanungang lumabas dito ay 'Saan ito iimbak?'. Kailangan namin ng isang imbakan system na kung saan ay maaaring madaling masukat o pababa on-demand.
- Analytics - Sa kaso ng Big Data, karamihan sa mga oras na hindi namin alam ang uri ng data na hinaharap natin, kaya't ang pag-aaral ng data na iyon ay mas mahirap.
- Seguridad - Dahil ang data ay malaking sukat, ang pagpapanatiling ligtas nito ay isa pang hamon. Kasama rito ang pagpapatotoo ng gumagamit, paghihigpit sa pag-access batay sa isang gumagamit, pag-record ng mga kasaysayan ng pag-access ng data, wastong paggamit ng pag-encrypt ng data atbp.
- Kakulangan ng Talento - Mayroong maraming mga proyekto ng Big Data sa mga pangunahing organisasyon, ngunit ang isang sopistikadong pangkat ng mga developer, data siyentista at analista na mayroon ding sapat na kaalaman sa domain ay isang hamon pa rin.
Hadoop sa Pagsagip
Mayroon kaming tagapagligtas upang harapin ang mga hamon sa Big Data - nito Hadoop . Ang Hadoop ay isang bukas na mapagkukunan, balangkas sa programa na nakabatay sa Java na sumusuporta sa pag-iimbak at pagproseso ng napakalaking mga hanay ng data sa isang ipinamahagi na kapaligiran sa computing. Bahagi ito ng proyekto ng Apache na na-sponsor ng Apache Software Foundation.
Ang Hadoop kasama ang ipinamamahagi nitong pagproseso, pinangangasiwaan ang malalaking dami ng nakabalangkas at hindi istrakturang data na mas mahusay kaysa sa tradisyunal na warehouse ng data ng enterprise. Ginagawang posible ng Hadoop na magpatakbo ng mga application sa mga system na may libu-libong mga node ng kalakal na kalakal, at upang mahawakan ang libu-libong mga terabyte ng data. Ang mga organisasyon ay gumagamit ng Hadoop dahil ito ay isang bukas na mapagkukunan ng software at maaaring tumakbo sa kalakal hardware (iyong personal na computer).Ang paunang pagtipid sa gastos ay dramatiko dahil ang hardware ng kalakal ay napaka-mura. Habang tumataas ang data ng pang-organisasyon, kailangan mong magdagdag ng higit pa at higit pang hardware ng kalakal nang mabilis upang maiimbak ito at samakatuwid, pinatunayan ng Hadoop na matipid.Bilang karagdagan, ang Hadoop ay may isang matatag na pamayanan ng Apache sa likod nito na patuloy na nag-aambag sa pagsulong nito.
Tulad ng ipinangako kanina, sa pamamagitan ng blog na ito sa Big Data Tutorial, binigyan kita ng maximum na pananaw sa Big Data. Ito ang pagtatapos ng Big Data Tutorial. Ngayon, ang susunod na hakbang sa unahan ay upang malaman at alamin ang Hadoop. Mayroon kaming isang serye ng Hadoop tutorial mga blog na magbibigay nang detalyadong kaalaman sa kumpletong ecosystem ng Hadoop.
Lahat ng pinakamahusay, Maligayang Hadooping!
Ngayon na naintindihan mo kung ano ang Big Data, tingnan ang ni Edureka, isang pinagkakatiwalaang kumpanya sa pag-aaral sa online na may isang network na higit sa 250,000 nasiyahan na mga nag-aaral na kumalat sa buong mundo. Ang kurso sa Edureka Big Data Hadoop Certification Training ay tumutulong sa mga nag-aaral na maging dalubhasa sa HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume at Sqoop na gumagamit ng mga kaso ng paggamit ng real-time sa Retail, Social Media, Aviation, Turismo, Pananalapi domain.
May tanong ba sa amin? Mangyaring banggitin ito sa seksyon ng mga komento at babalikan ka namin.
Mga Kaugnay na Post: