Kahalagahan ng Data Science Sa Cassandra



Ang Cassandra ay isang bukas na database ng mapagkukunan upang hawakan ang maraming data sa maraming mga server, kaya't mataas ang pangangailangan ng mga siyentipiko ng data na may cassandra knowlege.

'

Ang mabilis na pagpapalawak ng digital na data sa pamamagitan ng mga computer, mobile, video, social media, digital sensors, atbp na sinamahan ng mga pangunahing tagumpay sa lakas na pagpoproseso ng mas mababang gastos, bukas na mga aplikasyon ng database ng mapagkukunan at mas malawak na bandwidth ay nagbunsod ng malawak na interes sa buong mundo ng negosyo sa umuusbong na larangan ng agham ng Big Data at analytics.





Malaking data sa malalaking hindi nakaayos na dami ay masyadong malaki upang mapamahalaan at masuri sa pamamagitan ng tradisyunal na pamamaraan. Ang dami at bilis ng data ngayon ay gumagawa ng pagkuha, pag-filter, pag-iimbak at pag-aaral ng isang tunay na hamon. Ang mga bagong produkto ay binuo ng regular upang harapin ito na tumatawag para sa mga bagong hanay ng kasanayan at kadalubhasaan. Lumalagong pangangailangan para sa mga indibidwal na maaaring magsama ng mga bagong imprastraktura, platform at proseso sa organisasyon pati na rin ang mga makakagawa ng mga bagong analytics at algorithm na may kakayahang lumikha ng napakalaking katalinuhan na may malaking halaga sa negosyo. Para sa karagdagang impormasyon, basahin ang aming blog post sa

Kaugnayan ng Agham sa Data sa Iba't ibang Mga Industriya:

Ang Agham ng Data at Analytics ay may application sa lahat ng mga industriya:



  • ecommerce - Pag-personalize at mga rekomendasyong engine na nagdaragdag ng mga benta.
  • Advertising - Mataas na naka-target, real-time na paghahatid ng ad sa mga consumer.
  • Media at Aliwan - Pasadyang pag-unlad ng nilalaman na nag-maximize ng pakikipag-ugnayan ng gumagamit.
  • Social Media - Tumaas na 'pagiging malagkit' ng site, paglaki ng gumagamit, kakayahang subaybayan ang mga uso na mabilis na nakabatay sa mga saloobin ng consumer.
  • Pampinansyal na mga serbisyo –Optimized na mga kasanayan sa pagpapautang na minimize ang panganib at pandaraya.
  • Pharma / Bioinformatics - Pinabuting pagtuklas ng droga, mas mabisang paggamot ng mga nagbabantang sakit, pagpapahusay ng genetic engineering.
  • Pangangalaga sa kalusugan - Mas mahusay na pagmamarka ng mga pasyente na medikal para sa mga panganib sa kalusugan pati na rin ang pag-asa at maagang pag-iwas sa mga sakit.
  • Lakas / Enerhiya - Smart intelligence ng grid, mga kahusayan sa paggamit, pagtitipid ng enerhiya at pagbawas ng downtime.
  • Seguridad sa Impormasyon - Malawak na napabuti ang pagtuklas ng pagnanakaw at pagsubaybay ng mahalagang impormasyon at mga assets ng kumpanya.

Pangunahing Kasanayan ng Mga Propesyonal sa Agham ng Data:

Nangangailangan ang Data Science Domain ng mga Propesyonal na:

  • Naiintindihan ang analytics ng data at agham ng desisyon
  • Bihasa sa IT
  • Magkaroon ng malakas na katalinuhan sa negosyo
  • Nagtataglay ng kakayahang makipag-usap nang epektibo sa mga gumagawa ng desisyon

Magbasa nang higit pa: Kinakailangan ang pangunahing kasanayan upang maging isang Data Scientist.

Mga Karaniwang Teknolohiya na nauugnay sa Pagsasanay sa Agham ng Data:

Mga Teknolohiya na Naiugnay sa Agham ng Data



  • Mga database

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

  • Mga Wika

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

java system.exit (1)

Hive, Pig, Lucene, Mahout, Solr

  • Mga Istatistika at Pagtataya

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Pagpapakita sa Data

QlikView, Spotfire, Tableau, yWorks, R

  • BI at Pag-uulat

Mga BusinessObject, Cognos, MicroStrategy

Ano si Cassandra?

  • Ang Apache Cassandra ay isang bukas na mapagkukunan na namamahagi ng database management system na idinisenyo upang hawakan ang maraming halaga ng data sa maraming mga server ng kalakal.
  • Nagbibigay ang Cassandra ng mataas na kakayahang magamit nang walang solong punto ng kabiguan.
  • Nag-aalok ang Cassandra ng matatag na suporta para sa mga kumpol na sumasaklaw sa maraming mga sentro ng data, na may asynchronous na master-less replication na nagpapahintulot sa mababang operasyon ng latency para sa lahat ng mga kliyente.

Para sa karagdagang impormasyon, basahin ang aming post sa blog sa .

Paano ginagamit ng Data Science ang Cassandra?

Si Cassandra ay nahihiya at nahihiya sa isang ipinamahaging database para sa mababang latency, mataas na mga serbisyo ng throughput na humahawak ng mga real time na workload na binubuo ng daan-daang mga update bawat segundo at sampu-sampung libo ng mga bumabasa bawat segundo.

Cassandra Gumamit ng Kaso - PROS:

Ang PROS ay isang kumpanya ng software ng Big Data na may iniresetang analytics sa kanilang software na nangangasiwa sa kanilang mga customer na pag-aralan ang kanilang data at makuha ang mga pananaw at patnubay upang ma-optimize ang kanilang pamamahala sa pagpepresyo, pagbebenta at kita.

Mayroon silang isang real-time na serbisyo na kumakalkula sa kakayahang magamit ng airline, na pabago-bagong isinasaalang-alang ang data sa pagkontrol ng kita at mga antas ng imbentaryo na maaaring magbago ng daan-daang beses bawat segundo.

Ang serbisyong ito ay na-query ng libu-libong beses bawat segundo, na isinalin sa sampu-sampung libo ng mga pagtingin sa data. Ang kanilang backend storage layer para sa serbisyong ito ay si Cassandra.

Para sa kanilang solusyon sa real-time, napagtanto ng PROS ang isang pangangailangan para sa:

  • Isang ibinahaging cache na lubos na magagamit.
  • Madaling masusukat.
  • Na may isang arkitekturang walang master.
  • Na may malapit na real time na pagtitiklop ng data kahit sa mga sentro ng data.
  • Maaari itong hawakan ang real time read at magsusulat.

Sinuri ng PROS ang Cassandra laban sa Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort at Redis. Madaling nauna si Apache Cassandra sa listahan.

PROS at Cassandra

  • Gumagamit ang PROS ng Cassandra bilang isang ipinamahaging database para sa mababang latency, mataas na mga serbisyo ng throughput na humahawak ng mga real time na workload na binubuo ng daan-daang mga update bawat segundo at sampu-sampung libo ng mga bumabasa bawat segundo.
  • Halimbawa, mayroon silang isang real-time na serbisyo na kinalkula ang kakayahang magamit ng airline na pabago-bagong isinasaalang-alang ang data sa pagkontrol ng kita at mga antas ng imbentaryo na maaaring magbago ng daan-daang beses bawat segundo. Ang serbisyong ito ay natanong ng libu-libong beses bawat segundo, na isinasalin sa sampu-sampung libo ng mga pagtingin sa data. Ang kanilang backend storage layer para sa serbisyong ito ay si Cassandra. Ang ilan sa kanilang mga handog ng SaaS ay gumagamit ng Cassandra bilang backend store upang hawakan ang isang kumbinasyon ng mga real-time at Hadoop based batch workloads.
  • Pinag-uusapan ang tungkol sa Hadoop at Cassandra, kinuha nila ang data mula kay Cassandra at inilagay ito sa Hadoop at patakbuhin ang batch at analytics doon, at pagkatapos ay bumalik sa Cassandra. Nakamit ito sa pamamagitan ng pagsasama ni Handraop ni Cassandra.
  • Ang mga trabaho ng Hadoop ay kumukuha ng data mula sa Cassandra, naglalapat ng mga partikular na pagbabago sa trabaho o pagsusuri at itinutulak ang data pabalik sa Cassandra. Hindi nila ginagamit ang Datastax (opisyal na Cassandra Maintainer) Enterprise edition para sa pagsasama na ito lamang ng bukas na mapagkukunan na pag-install ng Hadoop kasama si Cassandra.

Pagmomodelo ng Data kasama si Cassandra:

Kapag naghahanap upang palitan ang isang key-halaga na tindahan na may isang bagay na mas may kakayahang real-time na pagtitiklop at pamamahagi ng data, ang pananaliksik sa Dynamo, ang teorama ng CAP at sa wakas na modelo ng pagkakapare-pareho ay nagpapakita ng Cassandra na umaangkop nang maayos sa modelong ito. Habang natututo nang higit pa ang tungkol sa mga kakayahan sa pagmomodelo ng data, unti-unting lumilipat kami sa pagkabulok ng data.

Kung ang isa ay nagmumula sa isang nauugnay na background ng database na may malakas na semantiko ng ACID, pagkatapos ay dapat maglaan ng oras upang maunawaan ang modelo ng huli na pagkakapare-pareho.

Maunawaan nang mabuti ang arkitektura ni Cassandra at kung ano ang ginagawa nito sa ilalim ng hood. Sa Cassandra 2.0 nakakakuha ka ng magaan na transaksyon at mga pag-trigger, ngunit hindi sila pareho ng tradisyonal na mga transaksyon sa database na maaaring pamilyar sa iyo. Halimbawa, walang magagamit na mga banyagang pangunahing hadlang - kailangan itong pangasiwaan ng sariling aplikasyon. Ang pag-unawa sa mga kaso ng paggamit at mga pattern ng pag-access ng data nang malinaw bago ang pagmomodelo ng data kasama si Cassandra at upang mabasa ang lahat ng magagamit na dokumentasyon ay kinakailangan.

Konklusyon:

Mabilis na umuusbong si Apache Cassandra at natututunan at nauunawaan namin ang mga kakayahan nito - lalo na sa panig ng pagmomodelo ng data. Nakita namin ito bilang isang ipinamahaging NoSQL database ng pagpipilian para sa aming mga serbisyo sa Big Data at mga solusyon.

Nagbibigay ang Edureka ng isang komprehensibong para sa mga nais na maging isang data scientist. Saklaw ng kurso ang isang saklaw ng Hadoop, R at Mga Diskarte sa Pagkatuto ng Machine na sumasaklaw sa kumpletong pag-aaral ng Agham ng Data. Nagbibigay din si Edureka na makakatulong sa iyo na makabisado ng mga database ng NoSQL. Ang kursong ito ay dinisenyo upang magbigay ng kaalaman at kasanayan upang maging isang matagumpay na dalubhasa sa Cassandra.