Malaking Data Sa AWS - Smart Solution Para sa Malaking Data



Tinutulungan ka ng artikulong ito na maunawaan kung paano matalino ang pakikitungo ng AWS sa Big Data. Ipinapakita rin nito kung paano malulutas ng AWS ang mga hamon sa Big Data nang madali.

Ang ideya ng Big Data ay simpleng hindi bago, ito ay saanman. Ang epekto ng Big Data ay nasa lahat ng dako, mula sa negosyo hanggang sa agham, mula sa gobyerno hanggang sa sining at iba pa. Walang mas mahusay na kasama kaysa sa upang maproseso at pag-aralan ang Big Data. Sa artikulong ito, ipapakita ko kung paano tinutugunan ng AWS ang mga hamon ng Big Data at ang mga pahiwatig na tatalakayin ko ay ang mga sumusunod:

Ano ang Big Data?

malaking katangian ng data





Maaari mong isaalang-alang ang Malaking data bilang mataas na dami, mataas na tulin at / o mataas na pagkakaiba-iba ng mga assets na hinihingi ang mabisang gastos, makabagong mga form ng pagproseso ng impormasyon na nagbibigay-daan sa pinahusay na pananaw, paggawa ng desisyon, at pag-aautomat ng proseso.

Ang Big Data ay binubuo ng 5 mahalagang V na tumutukoy sa mga katangian ng Big Data. Talakayin natin ang mga ito bago lumipat sa AWS.



Ano ang AWS?

binubuo ng maraming iba't ibang mga produkto at serbisyo ng cloud computing. Ang lubos na kumikitang dibisyon ng Amazon ay nagbibigay ng mga server, imbakan, networking, remote computing, email, mobile development kasama ang seguridad. At saka. Ang AWS ay binubuo ng dalawang pangunahing produkto: EC2, serbisyo sa virtual machine ng Amazon, at S3, isang sistema ng imbakan ng Amazon. Napakalaki at naroroon sa mundo ng computing na ngayon ay hindi bababa sa 10 beses ang laki ng pinakamalapit na katunggali at nagho-host ng mga tanyag na website tulad ng Netflix at Instagram.

.

Ang AWS ay nahahati sa 12 mga pandaigdigang rehiyon sa buong mundo, ang bawat isa ay mayroong maraming mga magagamit na mga zone kung saan matatagpuan ang mga server nito.Ang mga serbisyong rehiyon ay nahahati upang payagan ang mga gumagamit na magtakda ng mga limitasyong pangheograpiya sa kanilang mga serbisyo, ngunit upang magbigay ng seguridad sa pamamagitan ng pag-iba-iba ng mga pisikal na lokasyon kung saan gaganapin ang data.



Bakit Malaking Data sa AWS?

Ang mga siyentipiko, developer, at iba pang mga mahilig sa teknolohiya mula sa maraming iba't ibang mga domain ay sinasamantala ang AWS upang maisagawa ang malaking data analytics at matugunan ang mga kritikal na hamon ng pagtaas ng Vs ng digital na impormasyon. Nag-aalok sa iyo ang AWS ng isang portfolio ng mga serbisyo sa cloud computing upang matulungan ang pamamahala ng malaking data sa pamamagitan ng makabuluhang pagbawas ng mga gastos, pag-scale upang matugunan ang pangangailangan, at pagtaas ng bilis ng pagbabago.

Nagbibigay ang Amazon Web Services ng a ganap na isinama portfolio ng mga serbisyo sa cloud computing. Bukod dito, makakatulong ito sa iyo na bumuo, ma-secure, at ma-deploy ang iyong malalaking mga application ng data. Gayundin, sa AWS, hindi mo kailangan ng hardware upang kumuha at mga imprastraktura upang mapanatili at sukatin. Dahil dito, maaari mong ituon ang iyong mga mapagkukunan sa pagtuklas ng mga bagong pananaw.Dahil patuloy na naidaragdag ang mga bagong tampok, palagi mong magagamit ang pinakabagong mga teknolohiya nang hindi nangangailangan na gumawa ng pangmatagalang mga pangako sa pamumuhunan.

Paano malulutas ng AWS ang Mga Malaking Hamon ng Data?

Mga solusyon sa AWS para sa Malaking Data

Ang AWS ay may maraming mga solusyon para sa lahat ng mga layunin sa pag-unlad at paglawak. Gayundin, sa larangan ng Data Science at Big Data, ang AWS ay nakakuha ng mga kamakailang pag-unlad sa iba't ibang mga aspeto ng paghawak ng Big Data. Bago tumalon sa mga tool, ipaalam sa amin na maunawaan ang iba't ibang mga aspeto ng Big Data kung saan ang AWS ay maaaring magbigay ng mga solusyon.

  1. Pag-ingest sa Data
    Ang pagkolekta ng hilaw na data - ang mga transaksyon, log, mobile device at marami pa - ang unang hamon na kinakaharap ng maraming mga organisasyon kapag nakikipag-usap sa malaking data. Ang isang mahusay na malaking platform ng data ay ginagawang madali ang hakbang na ito, na pinapayagan ang mga developer na ingest ang isang iba't ibang mga data - mula sa nakabalangkas hanggang hindi nakaayos - sa anumang bilis - mula sa real-time hanggang sa batch.

  2. Imbakan ng Data
    Anumang malaking platform ng data ay nangangailangan ng isang ligtas, nasusukat, at matibay na imbakan upang mag-imbak ng data bago o kahit pagkatapos ng pagpoproseso ng mga gawain. Nakasalalay sa iyong mga tukoy na kinakailangan, maaaring kailangan mo rin ng pansamantalang mga tindahan para sa data-in-transit.

  3. Pagpoproseso ng Data
    Ito ang hakbang kung saan ang pagbabago ng data ay nangyayari mula sa hilaw nitong estado sa isang magagamit na format - karaniwang sa pamamagitan ng pag-uuri, pagsasama-sama, pagsali at kahit na gumaganap ng mas advanced na mga pag-andar at algorithm. Ang mga nagresultang hanay ng data ay sumasailalim sa pag-iimbak para sa karagdagang pagproseso o ginawang magagamit para sa pagkonsumo sa pamamagitan ng mga tool sa intelihensiya ng negosyo at data visualization.

  4. Pagpapakita

    Malaking data ay tungkol sa pagkuha ng mataas na halaga, mga naaaksyong pananaw mula sa iyong mga assets ng data. Sa isip, ang data ay magagamit sa mga stakeholder sa pamamagitan ng intelligence ng negosyo sa self-service at mabilis na mga tool ng visualization ng data na nagbibigay-daan para sa mabilis at madaling paggalugad ng mga dataset.

Mga Tool ng AWS para sa Malaking Data

Sa mga nakaraang seksyon, tiningnan namin ang mga patlang sa Big Data kung saan ang AWS ay maaaring magbigay ng mga solusyon. Bilang karagdagan, ang AWS ay may maraming mga tool at serbisyo sa arsenal nito upang paganahin ang mga customer na may mga kakayahan ng Big Data.

Tingnan natin ang iba't ibang mga solusyon na ibinigay ng AWS para sa paghawak ng iba't ibang mga yugto na kasangkot sa paghawak ng Malaking Data

Paglunok

  1. Kinesis

    Ang Amazon Kinesis Firehose ay isang ganap na pinamamahalaang serbisyo para sa paghahatid ng data ng real-time na streaming nang direkta sa Amazon S3. Awtomatikong sinusukat ng Kinesis Firehose upang tumugma sa dami at throughput ng streaming data at hindi nangangailangan ng patuloy na pangangasiwa. Maaari mong i-configure ang Kinesis Firehose upang ibahin ang anyo ang streaming data bago mo ito iimbak sa Amazon S3.

  2. Snowball
    Pwede mong gamitin AWS Snowball upang ligtas at mahusay na mailipat ang maramihang data mula sa mga nasasakupang platform ng imbakan at mga kumpol ng Hadoop sa mga S3 na balde. Matapos kang lumikha ng trabaho sa AWS Management Console, awtomatiko kang nakakakuha ng appliance ng Snowball. Matapos dumating ang isang Snowball, ikonekta ito sa iyong lokal na network, i-install ang kliyente ng Snowball sa iyong mapagkukunang data sa lugar, at pagkatapos ay gamitin ang kliyente ng Snowball upang piliin at ilipat ang mga direktoryo ng file sa aparato ng Snowball.

Imbakan

  1. Amazon S3

Amazon S3 ay isang ligtas, lubos na nasusukat, matibay na imbakan ng bagay na may latisecond latency para sa pag-access ng data. Maaaring iimbak ng S3 ang anumang uri ng data mula sa kahit saan - mga website at mobile app, mga application ng korporasyon, at data mula sa mga IoT sensor o aparato. Maaari rin itong mag-imbak at makuha ang anumang dami ng data, na may walang kaparis na kakayahang magamit, at itinayo mula sa lupa hanggang sa maihatid ang 99.999999999% (11 nines) ng tibay.

2. AWS Pandikit

Ang kola ay isang buong pinamamahalaang serbisyo na nagbibigay ng isang data catalog upang gawing matuklasan ang data sa lawa ng data. Bilang karagdagan, mayroon itong kakayahang gumawa ng katas, pagbabago, at pagkarga (ETL) upang maghanda ng data para sa pagtatasa. Gayundin, ang nakapaloob na katalogo ng data ay tulad ng isang paulit-ulit na tindahan ng metadata para sa lahat ng mga assets ng data, ginagawa ang lahat ng mahahanap ang data, at mahihiling sa isang solong pagtingin.

c ++ sort algorithm

Pinoproseso

  1. EMR
    Para sa malaking pagproseso ng data gamit ang Spark at Hadoop, Amazon EMR nagbibigay ng isang pinamamahalaang serbisyo na ginagawang madali, mabilis, at epektibo sa gastos upang maproseso ang malawak na dami ng data. Bukod dito, sinusuportahan ng EMR ang 19 magkakaibang mga proyekto ng open-source kasama ang Hadoop , Spark , at Dumating din ito sa pinamamahalaang Mga EMR Notebook para sa data engineering, pag-unlad ng agham ng data, at pakikipagtulungan.

  2. Redshift
    Para sa warehousing ng data, Amazon Nagbibigay ang Redshift ng kakayahang magpatakbo ng mga kumplikadong, analytic query laban sa petabytes ng nakabalangkas na data. Gayundin, kasama dito Redshift Spectrum na nagpapatakbo ng mga query ng SQL nang direkta laban sa mga Exabyte ng nakabalangkas o hindi nakaayos na data sa S3 nang hindi nangangailangan ng hindi kinakailangang paggalaw ng data.

Mga Visualization

  1. Amazon QuickSight

    Para sa mga dashboard at visualization, nagbibigay sa iyo ang Amazon Quicksight ng mabilis, cloud-powered na serbisyo sa analytics ng negosyo. Ginagawa nitong madali upang bumuo ng mga nakamamanghang visualization at mayamang dashboard. Bilang karagdagan, maaari mong ma-access ang mga ito mula sa anumang browser o mobile device.

Demo - Sinusuri ang Data ng mga Endangered Species ng Halaman at Mga Hayop sa Australia.

Sa Demo na ito, gagamitin namin ang sample na data ng mga endangered species ng halaman at hayop mula sa mga estado at teritoryo ng Australia. Dito lilikha kami ng isang kumpol ng EMR at i-configure ito upang magpatakbo ng mga multi-step na trabaho ng Apache Hive. Ang kumpol ng EMR ay magkakaroon ng naka-install na Apache Hive dito. Ang cluster na ito ay gagamit ng EMRFS bilang file system, upang ang data input at mga lokasyon ng output ay nai-map sa isang S3 bucket. Gumagamit din ang cluster ng parehong S3 bucket para sa pagtatago ng mga log file.

Lilikha kami ngayon ng isang bilang ng mga hakbang sa EMR sa kumpol upang maproseso ang isang sample na hanay ng data. Narito ang bawat isa sa mga hakbang na ito ay tatakbo ang isang Hive script, at ang pangwakas na output ay mai-save sa S3 bucket. Ang mga hakbang na ito ay bubuo ng mga log ng MapReduce at iyon ay dahil ang mga utos ng Hive ay isinalin sa mga trabaho sa MapReduce sa oras ng pagpapatakbo. Ang mga file ng log para sa bawat hakbang ay pinagsama-sama mula sa mga lalagyan na pinupukaw nito.

Sample na data

Ang sample na itinakdang data para sa kasong paggamit na ito ay magagamit ng publiko mula sa Bukas na website ng data ng pamahalaan ng Australia . Ang hanay ng data na ito ay tungkol sa mga nanganganib na species ng hayop at halaman mula sa iba't ibang mga estado at teritoryo sa Australia. Ang isang paglalarawan ng mga patlang ng hanay ng data na ito at ang CSV file ay maaaring makita at ma-download dito .

Mga Hakbang sa Pagpoproseso

Ang unang hakbang sa trabaho ng EMR dito ay nagsasangkot sa paglikha ng isang talahanayan ng Hive bilang isang iskema para sa pinagbabatayan ng pinagmulang file sa S3. Sa pangalawang hakbang sa trabaho, magpapatakbo kami ngayon ng isang matagumpay na query laban sa data. Katulad nito, tatakbo kami pagkatapos ng pangatlo at pang-apat na query.

Uulitin namin ang apat na hakbang na ito ng ilang beses sa isang oras, na ginagaya ang sunud-sunod na pagpapatakbo ng isang multi-step na trabaho sa batch. Gayunpaman, sa isang pangyayari sa totoong buhay, ang pagkakaiba sa oras sa pagitan ng bawat batch na tumatakbo nang normal ay maaaring mas mataas. Ang maliit na agwat sa pagitan ng sunud-sunod na pagtakbo ay inilaan upang mapabilis ang aming pagsubok.

S3 Balde at Mga Folder

Bago nilikha ang aming kumpol ng EMR, dito kailangan naming lumikha ng isang S3 na balde upang ma-host ang mga file nito. Sa aming halimbawa, pinangalanan namin ang bucket na ito na 'arvind1-bucket' Ang mga folder sa ilalim ng bucket na ito ay ipinapakita sa ibaba sa AWS Console para sa S3:

  • Ang input folder ay humahawak ng sample na data

  • Naglalaman ang folder ng mga script ng mga file ng script ng Hive para sa mga hakbang sa trabaho ng EMR

  • Malinaw na hahawak ng folder ng output ang output ng programa ng Hive

  • Gumagamit ang cluster ng EMR ng mga folder ng mga log upang mai-save ang mga file ng log.

Mga Script ng Hive para sa Mga Hakbang sa Trabaho ng EMR

1. Ang hakbang sa trabaho na ito ay nagpapatakbo ng isang script sa Hiveupang lumikha ng isang panlabas na mesa ng Hive. Inilalarawan ng talahanayan na ito ang tabular schema ng pinagbabatayan ng file ng data ng CSV. Ang script para dito ay ang mga sumusunod:

LILIKHA ANG LABING LUPA `nabantang_species` (` string ng pang-agham na pang -``, string ng `karaniwang pangalan`, 'kasalukuyang pang-agham na pangalan` na string,` string na kinatakot ng status`, `string ng act`,` nsw` string, `nt` string,` qld` string, `sa` string,` tas` string, `vic` string,` wa` string, `aci` string,` cki` string, `ci` string,` csi` string, `jbt` string,` nfi` string, `hmi` string,` aat` string, `cma` string,` nakalista sprat taxonid` bigint, `kasalukuyang sprat taxonid` bigint,` kaharian` string, `class` string,` profile` string, `date extracted` string, `nsl name` string,` family` string, `genus` string,` species` string, `infrepecific rank` string,` infrastruktur ng mga infrastruktur` string, `species ng author` string,` string ng may-akda ng mga imprastraktura`ROW FORMAT DELIMITED FIELDS Natapos na NG ',' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket / script /'

2. Ang hakbang sa trabaho na ito ay nagpapatakbo ng isang query upang makalkula ang nangungunang limang mga endangered species sa estado ng New South Wales (NSW). Ang pangalan ng file ng query ng Hive ay endangeredSpeciesNSW.q at ipinakita ito sa ibaba:

PUMILI ng mga species, COUNT (nsw) AS number_of_endangered_species MULA sa mga nabantang_species WHERE (nsw = 'Oo' O nsw = 'Endangered') AT 'nanganganib na kalagayan' = 'Endangered' GROUP NG species NA MAYROONG COUNT (nsw)> 1 ORDER BY number_of_endangered_species DESC LIMIT 5

3.Ang hakbang sa trabaho na ito ay nagpapatakbo ng isang query upang makalkula ang kabuuang bilang ng mga endangered species ng halaman para sa bawat pamilya ng halaman sa Australia. Ang pangalan ng file ng query ng Hive ayendangeredPlantSpecies.qat ipinakita sa ibaba

PUMILI ng pamilya, COUNT (species) AS number_of_endangered_species MULA sa nagbantang_species2 SAAN ang kaharian = 'Plantae' AT 'nanganganib na katayuan' = 'Endangered' GROUP NG pamilya

4. Ang hakbang na ito ay naglilista ng mga pang-agham na pangalan ng mga patay na species ng hayop sa estado ng Australia sa Australia. Tinawag ang file ng script extinctAnimalsQLD.q at ipinapakita sa ibaba:

PUMILI ng 'karaniwang pangalan', 'pang-agham na pangalan' MULA sa mga nabantang_species SAAN kaharian = 'Animalia' AT (qld = 'Oo' O qld = 'Puyas') AT 'nanganganib na katayuan' = 'Panaw'

Pagsasama-sama ng Log

Narito din kami nag-upload ng isang file na JSON na tinatawag na logAggregation.json sa folder ng mga script ng S3 bucket. Ginagamit namin ang file na ito para sa pagsasama-sama ng mga file ng log ng YARN. Ang pagsasama-sama ng log ay naka-configure sa file ng pagsasaayos ng sinulid-site.xml kapag nagsimula ang kumpol. Ang mga nilalaman ng logAggregation.json file ay ang mga sumusunod:

kabuuan ng mga digit ng isang numero sa java gamit ang para sa loop

[{'Pag-uuri': 'site ng sinulid', 'Mga Katangian': {'yarn.log-pagsasama-sama-paganahin': 'totoo', 'yarn.log-pagsasama-sama.retain-segundo': '-1', 'sinulid .nodemanager.remote-app-log-dir ':' s3: // arvind1-bucket / logs '}}]

Matapos mong likhain ang S3 bucket at kopyahin ang data at mga file ng script sa kani-kanilang mga folder oras na ngayon upang mag-set up ng isang kumpol ng EMR. Inilalarawan ng mga sumusunod na snapshot ang proseso habang nililikha namin ang kumpol na may karamihan sa mga default na setting.

Pag-set up ng EMR Cluster

Sa unang imahe, upang mai-configure ang kumpol sa AWS console, pinananatili namin ang lahat ng mga application na inirekomenda ng EMR, kabilang ang Hive. Hindi namin kailangang gumamit ng AWS Glue para sa pag-iimbak ng Hive metadata, ni nagdaragdag kami ng anumang hakbang sa trabaho sa ngayon. Gayunpaman, kailangan naming magdagdag ng isang setting ng software para sa Hive. Dito dapat mong maingat na obserbahan kung paano namin tinutukoy ang landas sa pag-log ng JSON file sa patlang na ito.

Sa susunod na hakbang, pinananatili namin ang lahat ng mga default na setting. Para sa kapakanan ng aming pagsubok, ang kumpol ay magkakaroon ng isang master node at dalawang mga core node. Ang bawat node dito ay isang halimbawa ng m3.xlarge at may 10 GB na dami ng ugat. Pinangalanan namin ang cluster arvind1-cluster sa susunod na hakbang, at tinutukoy ang pasadyang lokasyon ng s3 para sa mga log file nito.

Sa wakas, tinukoy namin ang isang pares ng key na EC2 para sa layunin ng pag-access sa master node ng cluster. Walang pagbabago sa mga default na tungkulin ng IAM para sa EMR, profile na halimbawa ng EC2, at mga pagpipilian sa auto-scale. Gayundin, ang master at core node ay gumagamit ng default na magagamit na mga pangkat ng seguridad. Karaniwan, ito ay isang default na pag-set up para sa isang kumpol ng EMR. Kapag handa na ang lahat, ang kumpol ay nasa katayuan na 'naghihintay' tulad ng ipinakita sa ibaba:

Magsumite ng Mga Hakbang sa Trabaho ng Hive

Pagkatapos nito, kailangan naming payagan ang pag-access ng SSH.

  1. Buksan ang Amazon EMR console sa https://console.aws.amazon.com/elasticmapreduce/ .
  2. Pumili ka Mga kumpol .
  3. Piliin ang Pangalan ng kumpol.
  4. Sa ilalim ni Seguridad at pag-access Piliin ang Mga pangkat ng seguridad para sa Master link
  5. Pumili ka ElasticMapReduce-master mula sa listahan.
  6. Pumili ka Papasok , I-edit .
  7. Hanapin ang panuntunan sa mga sumusunod na setting at piliin ang x icon upang tanggalin ito:
    • Uri SSH
    • Port 22
    • Pinagmulan Pasadyang 0.0.0.0/0
  8. Mag-scroll sa ilalim ng listahan ng mga patakaran at pumili Magdagdag ng Panuntunan .
  9. Para kay Uri , piliin ang SSH .Kusa itong pumapasok TCP para sa Protocol at 22 para sa Saklaw ng Port .
  10. Para sa mapagkukunan, piliin ang Ang aking IP . Awtomatiko nitong idinadagdag ang IP address ng iyong client computer bilang pinagmulang address. Bilang kahalili, maaari kang magdagdag ng isang saklaw ng Pasadya mga pinagkakatiwalaang client IP address at pipiliin idagdag ang patakaran upang lumikha ng karagdagang mga panuntunan para sa iba pang mga kliyente. Sa maraming mga kapaligiran sa network, naglalaan ka ng mga IP address nang pabagu-bago, kaya maaaring kailanganin mong i-edit nang pana-panahon ang mga panuntunan sa pangkat ng seguridad upang mai-update ang IP address ng mga pinagkakatiwalaang kliyente.
  11. Pumili ka Magtipid .
  12. Opsyonal, pumili ElasticMapReduce-alipin mula sa listahan at ulitin ang mga hakbang sa itaas upang payagan ang SSH client na ma-access ang mga core at task node mula sa mga pinagkakatiwalaang kliyente.

Dahil gumagana at tumatakbo ang cluster ng EMR, nagdagdag kami ng apat na hakbang sa trabaho. Ito ang mga hakbang na tatakbo nang sunud-sunod ang EMR. Ipinapakita ng sumusunod na imahe ang mga hakbang mula sa AWS EMR console:

Kapag naidagdag na namin ang apat na mga hakbang, maaari naming suriin ang katayuan ng mga hakbang na ito bilang nakumpleto. Kahit na mayroong ilang problema sa pagpapatupad ng mga hakbang na ito, kung gayon sa mga ganitong kaso ay malulutas ito gamit ang mga log file ng mga hakbang na ito.

Kaya ito ay mula sa aking panig sa artikulong ito sa Big Data sa AWS. Inaasahan kong naunawaan mo ang lahat ng aking ipinaliwanag dito.

Kung nakita mong nauugnay ang Malaking Data na ito sa AWS, maaari mong suriin ang kurso na live at pinamunuan ng guro ng Edureka , kapwa nilikha ng mga nagsasanay ng industriya.

May tanong ba sa amin? Mangyaring banggitin ito sa seksyon ng mga komento ng Paano Gumagamit ng Java Web Application sa AWS at babalikan ka namin.