Pag-install ng Apache Hive sa Ubuntu



Sa blog na ito malalaman natin ang tungkol sa pag-install ng Apache Hive sa Ubuntu at mga konsepto sa paligid ng Hadoop Hive, Hive sql, Hive database, Hive server at pag-install ng Hive.

Ang Apache Hive ay isa sa pinakamahalagang mga balangkas sa ecosystem ng Hadoop, na ginagawang napakahalaga nito para sa . Sa blog na ito, malalaman natin ang tungkol sa pag-install ng Apache Hive at Hive sa Ubuntu.

Ano ang Apache Hive?

Apache Hive ay isang imprastraktura ng warehouse ng data na nagpapadali sa pagtatanong at pamamahala ng malalaking mga hanay ng data na naninirahan sa ipinamamahagi na sistema ng pag-iimbak. Ito ay itinayo sa tuktok ng Hadoop at binuo ng Facebook. Pugad nagbibigay ng isang paraan upang magtanong sa data gamit ang tinatawag na SQL na query na wika HiveQL (Wive query Wika).





Sa panloob, nagsasalin ang isang tagatala HiveQL pahayag sa MapReduce mga trabaho, na pagkatapos ay isinumite sa Balangkas ng Hadoop para sa pagpapatupad.

Pagkakaiba sa pagitan ng Hive at SQL:

Pugad mukhang katulad na katulad ng tradisyonal na database na may SQL pag-access Gayunpaman, dahil Pugad ay nakabase sa Hadoop at MapReduce pagpapatakbo, maraming mga pangunahing pagkakaiba:



Tulad ng Hadoop ay inilaan para sa mahabang sunud-sunod na pag-scan at Pugad ay nakabase sa Hadoop , aasahan mong ang mga query ay may napakataas na latency. Ibig sabihin nito ay Pugad ay hindi naaangkop para sa mga application na nangangailangan ng napakabilis na oras ng pagtugon, tulad ng maaari mong asahan sa isang tradisyunal na RDBMS database.

Sa wakas, Pugad read-based at samakatuwid ay hindi naaangkop para sa pagproseso ng transaksyon na karaniwang nagsasangkot ng isang mataas na porsyento ng mga operasyon sa pagsusulat.

malalim na pag-aaral kumpara sa pag-aaral ng makina kumpara sa pagkilala sa pattern

Pag-install ng Hive sa Ubuntu:

Mangyaring sundin ang mga hakbang sa ibaba upang mai-install Apache Hive sa Ubuntu:



Hakbang 1: Mag-download Buwis sa alkitran

Utos: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

Hakbang 2: Kinuha ang alkitran file

Utos: tar -xzf apache-hive-2.1.0-bin.tar.gz

Utos: ls

Ikalat ang File ng Hive - Pag-install ng Hive - Edureka

Hakbang 3: I-edit ang '.Bashrc' file upang i-update ang mga variable ng kapaligiran para sa gumagamit.

Utos: sudo gedit .bashrc

Idagdag ang sumusunod sa dulo ng file:

# Itakda ang Bahay-bahay_HOME

i-export ang HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
i-export ang PATH = $ PATH: /home/edureka/apache-hive-2.1.0-bin/bin

Gayundin, tiyakin na ang landas ng hadoop ay itinakda din.

Patakbuhin sa ibaba ang utos upang gawin ang mga pagbabago sa parehong terminal.

Utos: pinagmulan .bashrc

Hakbang 4: Suriin ang bersyon ng pugad.

kung paano itakda ang java classpath sa linux command line

Hakbang 5: Lumikha Pugad mga direktoryo sa loob HDFS . Ang direktoryo 'bodega' ay ang lokasyon upang iimbak ang talahanayan o data na nauugnay sa pugad.

Utos:

  • hdfs dfs -mkdir -p / user / hive / warehouse
  • hdfs dfs -mkdir / tmp

Hakbang 6: Itakda ang mga pahintulot sa pagbasa / pagsulat para sa talahanayan.

Utos:

Sa utos na ito, nagbibigay kami ng pahintulot sa pagsusulat sa pangkat:

  • hdfs dfs -chmod g + w / user / hive / warehouse
  • hdfs dfs -chmod g + w / tmp

Hakbang 7: Itakda Hadoop landas sa h ive-env.sh

Utos: cd apache-hive-2.1.0-bin /

Utos: gedit conf / hive-env.sh

Itakda ang mga parameter tulad ng ipinakita sa snapshot sa ibaba.

Hakbang 8: I-edit hive-site.xml

Utos: gedit conf / hive-site.xml

javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = true JDBC connect string para sa isang JDBC metastore. Upang magamit ang SSL upang i-encrypt / patunayan ang koneksyon, magbigay ng tukoy sa database na SSL flag sa URL ng koneksyon. Halimbawa, jdbc: postgresql: // myhost / db? Ssl = totoo para sa postgres database. hive.metastore.warehouse.dir / user / hive / warehouse lokasyon ng default database para sa warehouse hive.metastore.uris Thrift URI para sa remote metastore. Ginamit ng metastore client upang kumonekta sa remote metastore. javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.EdemeddedDriver Pangalan ng klase ng driver para sa isang JDBC metastore javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory class na pagpapatupad

Hakbang 9: Bilang default, gumagamit ang Hive Derby database. Pasimulan ang database ng Derby.

Utos: bin / schemeatool -initSchema -dbType derby

Hakbang 10 :Ilunsad Pugad.

Utos: pugad

Hakbang 11 :Patakbuhin ang ilang mga query sa Hive shell.

pagkakaiba sa pagitan ng nababago at hindi nababago

Utos: ipakita ang mga database

Utos: lumikha ng talahanayan ng empleyado (id string, pangalan ng string, dept string) na hilera na format na na-winakasan ng ‘‘ naka-imbak bilang textfile

Utos: ipakita ang mga talahanayan

Hakbang 12: Lumabas mula Pugad:

Utos: labasan

Ngayon na tapos ka na sa pag-install ng Hive, ang susunod na hakbang pasulong ay upang subukan ang mga utos ng Hive sa shell ng Hive. Samakatuwid, ang aming susunod na blog na ' Nangungunang Mga Utos ng Hive na may Mga Halimbawa sa HQL 'Ay makakatulong sa iyo upang makabisado ang mga utos ng Hive.

Mga Kaugnay na Post:

Paano patakbuhin ang mga Hive Script?

Mga Utos ng Pugad

Panimula sa Apache Hive