Panimula sa Apache Hive

Ang Apache Hive ay isang pakete ng Data Warehousing na itinayo sa tuktok ng Hadoop at ginagamit para sa pagtatasa ng data. Ang laywan ay naka-target patungo sa mga gumagamit na komportable sa SQL.

kung paano lumikha ng isang random na string sa java

Ang Apache Hive ay isang pakete ng Data Warehousing na itinayo sa tuktok ng Hadoop at ginagamit para sa pagtatasa ng data. Ang laywan ay naka-target patungo sa mga gumagamit na komportable sa SQL. Ito ay katulad sa SQL at tinatawag na HiveQL, ginagamit para sa pamamahala at pag-query ng nakabalangkas na data. Ang Apache Hive ay ginagamit upang malimit ang pagiging kumplikado ng Hadoop. Pinapayagan din ng wikang ito ang tradisyunal na mapa / bawasan ang mga programmer na mai-plug sa kanilang mga pasadyang mapper at reducer. Ang tanyag na tampok ng Hive ay hindi na kailangang malaman ang Java.





Ang Hive, isang bukas na mapagkukunan ng petsa-byte scale na warehousing framework na batay sa Hadoop, ay binuo ng Data Infrastructure Team sa Facebook. Ang pugad ay isa rin sa mga teknolohiya na ginagamit upang matugunan ang mga kinakailangan sa Facebook. Ang pugad ay napakapopular sa lahat ng mga gumagamit sa loob ng Facebook at ginagamit upang magpatakbo ng libu-libong mga trabaho sa kumpol kasama ang daan-daang mga gumagamit, para sa iba't ibang mga application. Ang Hive-Hadoop cluster sa Facebook ay nag-iimbak ng higit sa 2PB ng raw data at regular na naglo-load ng 15 TB ng data sa araw-araw.

Tingnan natin ang ilan sa mga tampok nito na ginagawang sikat at madaling gamitin ng gumagamit:



  • Pinapayagan ang mga programmer na mag-plug in ng mga pasadyang Mapper at Reducer.
  • May imprastraktura ng Data Warehouse.
  • Nagbibigay ng mga tool upang paganahin ang madaling data ETL.
  • Tinutukoy ang tulad ng SQL na query na wika na tinatawag na QL.

Kaso ng Paggamit ng Apache Hive - Facebook:

Kaso ng Pagamit ng Pugad - Facebook

Bago ipatupad ang Hive, naharap ng Facebook ang maraming mga hamon habang ang laki ng data na nabuo ay tumaas o masabog, na ginagawang mahirap hawakan ang mga ito. Hindi kinaya ng tradisyunal na RDBMS ang presyon at bilang resulta ang Facebook ay naghahanap ng mas mahusay na mga pagpipilian. Upang malutas ang paparating na isyung ito, sinubukan muna ng Facebook ang paggamit ng Hadoop MapReduce, ngunit may kahirapan sa pag-program at sapilitan na kaalaman sa SQL, ginawa itong isang hindi praktikal na solusyon. Pinayagan sila ng Hive na mapagtagumpayan ang mga hamon na kinakaharap nila.

Sa Hive, nagagawa na nila ang mga sumusunod:



  • Ang mga talahanayan ay maaaring bahagi at bucket
  • Sclex kakayahang umangkop at ebolusyon
  • Magagamit ang mga driver ng JDBC / ODBC
  • Ang mga talahanayan ng pugad ay maaaring tukuyin nang direkta sa HDFS
  • Extensible - Mga Uri, Format, Pag-andar at script

Kaso ng Pagamit ng Pugad sa Pangangalaga sa Kalusugan:

Saan Gumagamit ng Pugad?

Maaaring gamitin ang Apache Hive sa mga sumusunod na lugar:

  • Pagmimina ng Data
  • Pagproseso ng Log
  • Pag-index ng Dokumento
  • Nakaharap sa Customer Intelligence ang Customer
  • Hulaang Pagmomodelo
  • Pagsubok sa Hypothesis

Hive Architecture:

bumuo ng random string sa java

Ang pugad ay binubuo ng mga sumusunod na pangunahing sangkap:

  • Metastore - Upang maiimbak ang metadata.
  • JDBC / ODBC - Query Compiler at Pagpapatupad Engine upang i-convert ang mga query sa SQL sa isang pagkakasunud-sunod ng MapReduce.
  • SerDe at ObjectInspectors - Para sa mga format ng data at uri.
  • UDF / UDAF - Para sa Mga Tukoy na Pag-andar ng User.
  • Mga kliyente - Katulad ng linya ng utos ng MySQL at isang web UI.

Mga Bahagi ng Hive:

Metastore:

Ang Metastore ay nag-iimbak ng impormasyon tungkol sa mga talahanayan, pagkahati, mga haligi sa loob ng mga talahanayan. Mayroong 3 mga paraan ng pag-iimbak sa Metastore: Naka-embed na Metastore, Lokal na Metastore at Remote Metastore. Karamihan, ang Remote Metastore ay gagamitin sa mode ng paggawa.

Mga Limitasyon ng Hive:

Ang Hive ay may mga sumusunod na limitasyon at hindi maaaring gamitin sa ilalim ng gayong mga pangyayari:

mga uri ng mga balangkas sa siliniyum
  • Hindi idinisenyo para sa pagpoproseso ng online na transaksyon.
  • Nagbibigay ng katanggap-tanggap na latency para sa interactive na pag-browse ng data.
  • Hindi nag-aalok ng mga real-time na query at pag-update sa antas ng hilera.
  • Ang latency para sa mga query sa Hive sa pangkalahatan ay napakataas.

May tanong ba sa amin? Nabanggit ang mga ito sa seksyon ng mga komento at babalikan ka namin.

Mga Kaugnay na Post:

Mga Utos ng Pugad