Mga Modelo ng Data ng Hive



Naglalaman ang mga modelo ng data ng Hive ng mga sumusunod na sangkap tulad ng Mga Database, Talahanayan, Partisyon at Bucket o kumpol. Sinusuportahan ng Hive ang mga primitive na uri tulad ng Integers, Floats, Doubles at Strings.

Ang Hive ay isang sistema ng warehouse ng data para sa Hadoop na nagpapadali sa madaling paglalagom ng data, mga query ng ad-hoc, at pagtatasa ng malalaking mga dataset na nakaimbak sa mga katugmang file ng Hadoop. Ang mga pugad ng istruktura ng data sa mahusay na pagkaunawa ng mga konsepto ng database tulad ng mga talahanayan, hilera, haligi at pagkahati. Sinusuportahan nito ang mga primitive na uri tulad ng Integers, Floats, Doubles, at Strings. Sinusuportahan din ng Hive ang mga Associative Arrays, Listahan, Struct, at Serialize at Deserialized API ay ginagamit upang ilipat ang data sa at labas ng mga talahanayan.





Tingnan natin nang detalyado ang Mga Modelong Hive Data

iso 9000 kumpara sa anim na sigma

Mga Modelo ng Data ng Hive:

Naglalaman ang mga modelo ng data ng Hive ng mga sumusunod na sangkap:



  • Mga database
  • Mga mesa
  • Mga partisyon
  • Mga balde o kumpol

Mga partisyon:

Ang pagkahati ay nangangahulugang paghahati ng isang talahanayan sa isang magaspang na grained na bahagi batay sa halaga ng isang haligi ng pagkahati tulad ng 'data'. Ginagawa nitong mas mabilis na gumawa ng mga query sa mga hiwa ng data

Mga Modelo ng Data ng Hive

Kaya, ano ang pagpapaandar ng Paghahati? Natutukoy ng mga key ng Paghiwalay kung paano naiimbak ang data. Dito, ang bawat natatanging halaga ng Partition key ay tumutukoy sa isang Paghahati ng talahanayan. Ang mga Partisyon ay pinangalanan pagkatapos ng mga petsa para sa kaginhawaan. Ito ay katulad ng 'Block Splitting' sa HDFS.



kung paano gumamit ng isang iterator sa java

Mga timba:

Nagbibigay ang mga balde ng labis na istraktura ng data na maaaring magamit para sa mahusay na mga query. Ang isang pagsali sa dalawang mga talahanayan na naka-bucket sa parehong mga haligi, kasama ang haligi ng pagsali ay maaaring ipatupad bilang isang Map-Side Sumali. Ang pag-bucket ng ginamit na ID ay nangangahulugang maaari naming mabilis na suriin ang isang query na batay sa gumagamit sa pamamagitan ng pagpapatakbo nito sa isang randomized na sample ng kabuuang hanay ng mga gumagamit.

May tanong ba sa amin? Mangyaring banggitin ang mga ito sa seksyon ng mga komento at babalikan ka namin.

papet vs hindi nakakain vs chef

Mga Kaugnay na Post:

Mga Makatutulong na Utos ng Pugad