Nangungunang Mga Utos ng Hive na may Mga Halimbawa sa HQL



Tinalakay ng blog na ito ang Mga Utos ng Hive na may mga halimbawa sa HQL. LILIKHA, PATULOY, TRUNCATE, ALTER, SHOW, DESCRIBE, USE, LOAD, INSERT, SUMALI at marami pang Mga Hive Command

Sa post sa blog na ito, talakayin natin ang nangungunang mga utos ng Hive na may mga halimbawa. Ang mga utos ng Hive na ito ay napakahalaga upang mai-set up ang pundasyon para sa .

Ang Edureka 2019 Tech Career Guide ay wala na! Mga pinakamainit na tungkulin sa trabaho, tumpak na mga landas sa pag-aaral, pananaw sa industriya at higit pa sa gabay. Mag-download ngayon

Ano ang Hive?

Ang Apache Hive ay isang sistema ng Data warehouse na itinayo upang gumana sa Hadoop. Ginagamit ito sa pagtatanong at pamamahala ng malalaking mga dataset na naninirahan sa ibinahaging imbakan. Bago naging isang open source na proyekto ng Apache Hadoop, ang Hive ay nagmula sa Facebook. Nagbibigay ito ng isang mekanismo upang maitakda ang istraktura sa data sa Hadoop at upang tanungin ang data na iyon gamit ang isang tulad ng SQL na wika na tinatawag na HiveQL (HQL).





Ginamit ang pugad dahil ang mga talahanayan sa Hive ay katulad ng mga talahanayan sa isang pamanggit na database. Kung pamilyar ka sa SQL, ito ay isang cakewalk. Maraming mga gumagamit ang maaaring sabay na magtanong sa data gamit ang Hive-QL.

Ano ang HQL?

Tinutukoy ng Hive ang isang simpleng wika ng query na tulad ng SQL sa pagtatanong at pamamahala ng malalaking mga dataset na tinatawag na Hive-QL (HQL). Madaling gamitin kung pamilyar ka sa Wika ng SQL. Pinapayagan ng Hive ang mga programmer na pamilyar sa wika na magsulat ng pasadyang balangkas ng MapReduce upang maisagawa ang mas sopistikadong pagsusuri.



Mga Paggamit ng Hive:

1. Ang Apache Hive ay namahagi ng imbakan.

2. Nagbibigay ang Hive ng mga tool upang paganahin ang madaling pagkuha ng data / pagbabago / pag-load (ETL)

3. Nagbibigay ito ng istraktura sa iba't ibang mga format ng data.



4. Sa pamamagitan ng paggamit ng Hive, maaari nating ma-access ang mga file na nakaimbak sa Hadoop Distraced File System (Ginagamit ang HDFS sa pagtatanong at pamamahala ng malalaking mga dataseta na naninirahan) o sa iba pang mga sistema ng pag-iimbak ng data tulad ng Apache HBase.

Mga Limitasyon ng Hive:

Ang & bull Hive ay hindi idinisenyo para sa Online na pagproseso ng transaksyon (OLTP), ginagamit lamang ito para sa Online Analytical Processing.

Sinusuportahan ng & bull Hive ang pag-o-overtake o pag-apprehen ng data, ngunit hindi ang mga pag-update at pagtanggal.

& bull Sa Hive, ang mga sub query ay hindi suportado.

Bakit ang Hive ay ginagamit na inspite ng Pig?

Ang mga sumusunod ay ang mga dahilan kung bakit ginagamit ang Hive sa kabila ng kakayahang magamit ng Pig:

  • Ang Hive-QL ay isang nagpapahayag na linya ng wika na SQL, ang PigLatin ay isang wika ng daloy ng data.
  • Baboy: isang wika at kapaligiran na dumadaloy ng data para sa paggalugad ng napakalaking mga dataset.
  • Hive: isang ipinamahaging warehouse ng data.

Mga Bahagi ng Hive:

Metastore:

Iniimbak ng Hive ang iskema ng mga mesa ng Hive sa isang Hive Metastore. Ginagamit ang Metastore upang hawakan ang lahat ng impormasyon tungkol sa mga talahanayan at pagkahati na nasa warehouse. Bilang default, ang metastore ay pinapatakbo sa parehong proseso tulad ng serbisyo ng Hive at ang default na Metastore ay DerBy Database.

SerDe:

Nagbibigay ang Serializer, Deserializer ng mga tagubilin upang ma-hive kung paano iproseso ang isang record.

Mga Utos ng Hive:

Wika ng Kahulugan ng Data (DDL)

Ginagamit ang mga pahayag ng DDL upang mabuo at mabago ang mga talahanayan at iba pang mga bagay sa database.

Utos ng DDL Pag-andar
LILIKHA Ginagamit ito upang lumikha ng isang talahanayan o Database
IPAKITA Ginagamit ito upang ipakita ang Database, Talahanayan, Mga Katangian, atbp
NAGIGING EDAD Ginagamit ito upang gumawa ng mga pagbabago sa mayroon nang mesa
LARAWAN Inilalarawan nito ang mga haligi ng talahanayan
TRUNCATE Ginamit upang permanenteng putulin at tanggalin ang mga hilera ng talahanayan
TANGGALIN Tinatanggal ang data ng talahanayan, ngunit, maaaring maibalik

Pumunta sa Hive shell sa pamamagitan ng pagbibigay ng command sudo hive at ipasok ang utos ‘Lumikha database pangalan> ’ upang lumikha ng bagong database sa Hive.

Lumikha ng database ng Hive gamit ang Mga Hive Command

Upang mailista ang mga database sa warehouse ng Hive, ipasok ang utos na ‘ ipakita ang mga database ’.

Lumilikha ang database sa isang default na lokasyon ng bodega ng Hive. Sa Cloudera, Hive database store sa isang / user / hive / warehouse.

Ang utos na gamitin ang database ay PAGGAMIT

Kopyahin ang data ng pag-input sa HDFS mula sa lokal sa pamamagitan ng paggamit ng kopya Mula sa lokal na utos.

Kapag lumikha kami ng isang talahanayan sa pugad, lumilikha ito sa default na lokasyon ng bodega ng pantal. - '/ user / hive / warehouse', pagkatapos ng paglikha ng talahanayan maaari naming ilipat ang data mula sa HDFS sa hive table.

Lumilikha ang sumusunod na utos ng isang talahanayan na may lokasyon ng “/user/hive/warehouse/retail.db”

Tandaan: Ang retail.db ay ang database na nilikha sa bodega ng Hive.

Ilarawan nagbibigay ng impormasyon tungkol sa iskema ng talahanayan.

Wika ng Manipulasyon ng Data (DML)

Ginagamit ang mga pahayag ng DML upang makuha, maiimbak, baguhin, tanggalin, ipasok at i-update ang data sa database.

Halimbawa:

I-load, I-INSERT ang Mga Pahayag.

Syntax:

I-load ang data sa talahanayan [tablename]

Ginagamit ang pagpapatakbo ng Load upang ilipat ang data sa kaukulang mesa ng Hive. Kung ang keyword lokal ay tinukoy, pagkatapos ay sa utos ng pag-load ay bibigyan ang lokal na path ng file ng file. Kung ang keyword na lokal ay hindi tinukoy kailangan naming gamitin ang HDFS path ng file.

Narito ang ilang mga halimbawa para sa utos ng LADAL na data ng LOAD

Matapos mai-load ang data sa talahanayan ng Hive maaari naming mailapat ang Mga Pahayag ng Pagmanipula ng Data o pagsamahin ang mga pagpapaandar na makuha ang data.

Halimbawa upang mabilang ang bilang ng mga tala:

Bilangin ang pinagsamang pagpapaandar ay ginagamit bilangin ang kabuuang bilang ng mga tala sa isang talahanayan.

'Lumikha ng panlabas' na Talahanayan:

Ang lumikha ng panlabas Ginagamit ang keyword upang lumikha ng isang talahanayan at nagbibigay ng isang lokasyon kung saan lilikha ang talahanayan, upang ang Hive ay hindi gumagamit ng isang default na lokasyon para sa talahanayan na ito. Isang Panlabas tumuturo ang talahanayan sa anumang lokasyon ng HDFS para sa pag-iimbak nito, sa halip na default na pag-iimbak.

Ipasok ang Command:

Ang ipasok ginagamit ang utos upang mai-load ang talahanayan ng data ng Hive. Ang mga pagsingit ay maaaring gawin sa isang talahanayan o isang pagkahati.

& bull INSERT OVERWRITE ay ginagamit upang mai-overlap ang umiiral na data sa talahanayan o pagkahati.

& bull INSERT INTO ay ginagamit upang idugtong ang data sa mayroon nang data sa isang talahanayan. (Tandaan: INSERT INTO syntax ay gumagana mula sa bersyon 0.8)

Halimbawa para sa 'Partitioned By' at 'Clustered By' Command:

‘Naghiwalay ng 'Ay ginagamit upang hatiin ang talahanayan sa Partisyon at maaaring hatiin sa mga balde sa pamamagitan ng paggamit ng' Clustered Ni ‘Utos.

Kapag naipasok namin ang mga error sa pagkahagis ng data ng Hive, ang mode ng pabagu-bagong pagkahati ay mahigpit at hindi pinagana ang pabago-bagong paghiwalay (ni Jeff sa website ng dresshead ). Kaya kailangan naming itakda ang mga sumusunod na parameter sa Hive shell.

itakda ang hive.exec.dynamic.partition = totoo

Upang paganahin ang mga pabagu-bagong partisyon, bilang default, mali

itakda ang hive.exec.dynamic.partition.mode = nonstrict

Ang pagkahati ay ginagawa ng kategorya at maaaring hatiin sa mga timba sa pamamagitan ng paggamit ng 'Clustered By' na utos.

Ang pahayag na 'Drop Table' ay nagtatanggal ng data at metadata para sa isang talahanayan. Sa kaso ng panlabas na mga talahanayan, ang metadata lamang ang natanggal.

listahan ng pag-uuri ng c ++

Ang pahayag na 'Drop Table' ay nagtatanggal ng data at metadata para sa isang talahanayan. Sa kaso ng panlabas na mga talahanayan, ang metadata lamang ang natanggal.

I-load ang data ng lokal na inpath na 'aru.txt' sa tablename ng talahanayan at pagkatapos ay suriin namin ang talahanayan ng empleyado1 sa pamamagitan ng paggamit ng Piliin * mula sa utos ng pangalan ng talahanayan

Upang mabilang ang bilang ng mga talaan sa talahanayan sa pamamagitan ng paggamit ng Piliin bilangin (*) mula sa txnrecords

Pagsasama-sama:

Piliin ang bilang (kategorya DISTINCT) mula sa tablename

Bibilangin ng utos na ito ang iba't ibang kategorya ng talahanayan na 'cate'. Narito ang 3 magkakaibang kategorya.

Ipagpalagay na mayroong isa pang table cate kung saan ang f1 ay patlang na pangalan ng kategorya.

Pagpapangkat:

Ginagamit ang utos ng pangkat upang pangkatin ang resulta na itinakda ng isa o higit pang mga haligi.

Piliin ang kategorya, kabuuan (halaga) mula sa pangkat ng mga tala ng txt ayon sa kategorya

Kinakalkula nito ang dami ng parehong kategorya.

Ang resulta ng isang mesa ay nakaimbak sa isa pang mesa.

Lumikha ng talahanayan newtablename bilang select * mula sa oldtablename

Sumali sa Command:

Narito ang isa pang mesa ay nilikha sa pangalan 'Mails'

Sumali sa Pagpapatakbo :

Ginaganap ang isang operasyon na Sumali sa pagsasama-sama ng mga patlang mula sa dalawang talahanayan sa pamamagitan ng paggamit ng mga halagang karaniwan sa bawat isa.

Kaliwang Panlabas Sumali :

Ang resulta ng isang kaliwang panlabas na pagsali (o kaliwang pagsali lamang) para sa mga talahanayan A at B ay laging naglalaman ng lahat ng mga talaan ng 'kaliwa' na talahanayan (A), kahit na ang kondisyon na sumali ay hindi makahanap ng anumang tumutugmang talaan sa talahanayang 'kanan' (B).

Right Outer Sumali :

Ang isang kanang panlabas na pagsali (o kanang pagsali) ay malapit na kahawig ng isang kaliwang panlabas na pagsali, maliban sa paggamot ng mga talahanayan na baligtad. Ang bawat hilera mula sa 'kanan' na talahanayan (B) ay lilitaw sa pinagsamang talahanayan nang hindi bababa sa isang beses.

Buong Sumali :

Ang sumali na mesa ay maglalaman ng lahat ng mga tala mula sa parehong mga talahanayan, at punan ang mga NULL para sa mga nawawalang tugma sa magkabilang panig.

Kapag tapos na sa pugad maaari naming gamitin ang umalis na utos upang lumabas mula sa shell ng pugad.

Paglabas mula sa Hive

Ang pugad ay bahagi lamang ng malaking palaisipan na tinatawag na Big Data at Hadoop. Ang Hadoop ay higit pa sa Hive. Mag-click sa ibaba upang makita kung anong iba pang mga kasanayan ang dapat mong master sa Hadoop.

May tanong ba sa amin? Mangyaring banggitin ito sa seksyon ng mga komento at babalikan ka namin.

Mga Kaugnay na Post:

7 Paraan ng Big Pagsasanay sa Data ay Maaaring Baguhin ang Iyong Organisasyon

Mga Modelo ng Data ng Hive