Ang Apache Hive ay isa sa pinakamahalagang mga balangkas sa ecosystem ng Hadoop, na ginagawang napakahalaga nito para sa . Sa blog na ito, malalaman natin ang tungkol sa pag-install ng Apache Hive at Hive sa Ubuntu.
Ano ang Apache Hive?
Apache Hive ay isang imprastraktura ng warehouse ng data na nagpapadali sa pagtatanong at pamamahala ng malalaking mga hanay ng data na naninirahan sa ipinamamahagi na sistema ng pag-iimbak. Ito ay itinayo sa tuktok ng Hadoop at binuo ng Facebook. Pugad nagbibigay ng isang paraan upang magtanong sa data gamit ang tinatawag na SQL na query na wika HiveQL (Wive query Wika).
Sa panloob, nagsasalin ang isang tagatala HiveQL pahayag sa MapReduce mga trabaho, na pagkatapos ay isinumite sa Balangkas ng Hadoop para sa pagpapatupad.
Pagkakaiba sa pagitan ng Hive at SQL:
Pugad mukhang katulad na katulad ng tradisyonal na database na may SQL pag-access Gayunpaman, dahil Pugad ay nakabase sa Hadoop at MapReduce pagpapatakbo, maraming mga pangunahing pagkakaiba:
Tulad ng Hadoop ay inilaan para sa mahabang sunud-sunod na pag-scan at Pugad ay nakabase sa Hadoop , aasahan mong ang mga query ay may napakataas na latency. Ibig sabihin nito ay Pugad ay hindi naaangkop para sa mga application na nangangailangan ng napakabilis na oras ng pagtugon, tulad ng maaari mong asahan sa isang tradisyunal na RDBMS database.
Sa wakas, Pugad read-based at samakatuwid ay hindi naaangkop para sa pagproseso ng transaksyon na karaniwang nagsasangkot ng isang mataas na porsyento ng mga operasyon sa pagsusulat.
malalim na pag-aaral kumpara sa pag-aaral ng makina kumpara sa pagkilala sa pattern
Pag-install ng Hive sa Ubuntu:
Mangyaring sundin ang mga hakbang sa ibaba upang mai-install Apache Hive sa Ubuntu:
Hakbang 1: Mag-download Buwis sa alkitran
Utos: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz
Hakbang 2: Kinuha ang alkitran file
Utos: tar -xzf apache-hive-2.1.0-bin.tar.gz
Utos: ls
Hakbang 3: I-edit ang '.Bashrc' file upang i-update ang mga variable ng kapaligiran para sa gumagamit.
Utos: sudo gedit .bashrc
Idagdag ang sumusunod sa dulo ng file:
# Itakda ang Bahay-bahay_HOME
i-export ang HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
i-export ang PATH = $ PATH: /home/edureka/apache-hive-2.1.0-bin/bin
Gayundin, tiyakin na ang landas ng hadoop ay itinakda din.
Patakbuhin sa ibaba ang utos upang gawin ang mga pagbabago sa parehong terminal.
Utos: pinagmulan .bashrc
Hakbang 4: Suriin ang bersyon ng pugad.
kung paano itakda ang java classpath sa linux command line
Hakbang 5: Lumikha Pugad mga direktoryo sa loob HDFS . Ang direktoryo 'bodega' ay ang lokasyon upang iimbak ang talahanayan o data na nauugnay sa pugad.
Utos:
- hdfs dfs -mkdir -p / user / hive / warehouse
- hdfs dfs -mkdir / tmp
Hakbang 6: Itakda ang mga pahintulot sa pagbasa / pagsulat para sa talahanayan.
Utos:
Sa utos na ito, nagbibigay kami ng pahintulot sa pagsusulat sa pangkat:
- hdfs dfs -chmod g + w / user / hive / warehouse
- hdfs dfs -chmod g + w / tmp
Hakbang 7: Itakda Hadoop landas sa h ive-env.sh
Utos: cd apache-hive-2.1.0-bin /
Utos: gedit conf / hive-env.sh
Itakda ang mga parameter tulad ng ipinakita sa snapshot sa ibaba.
Hakbang 8: I-edit hive-site.xml
Utos: gedit conf / hive-site.xml
javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = true JDBC connect string para sa isang JDBC metastore. Upang magamit ang SSL upang i-encrypt / patunayan ang koneksyon, magbigay ng tukoy sa database na SSL flag sa URL ng koneksyon. Halimbawa, jdbc: postgresql: // myhost / db? Ssl = totoo para sa postgres database. hive.metastore.warehouse.dir / user / hive / warehouse lokasyon ng default database para sa warehouse hive.metastore.uris Thrift URI para sa remote metastore. Ginamit ng metastore client upang kumonekta sa remote metastore. javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.EdemeddedDriver Pangalan ng klase ng driver para sa isang JDBC metastore javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory class na pagpapatupad
Hakbang 9: Bilang default, gumagamit ang Hive Derby database. Pasimulan ang database ng Derby.
Utos: bin / schemeatool -initSchema -dbType derby
Hakbang 10 :Ilunsad Pugad.
Utos: pugad
Hakbang 11 :Patakbuhin ang ilang mga query sa Hive shell.
pagkakaiba sa pagitan ng nababago at hindi nababago
Utos: ipakita ang mga database
Utos: lumikha ng talahanayan ng empleyado (id string, pangalan ng string, dept string) na hilera na format na na-winakasan ng ‘‘ naka-imbak bilang textfile
Utos: ipakita ang mga talahanayan
Hakbang 12: Lumabas mula Pugad:
Utos: labasan
Ngayon na tapos ka na sa pag-install ng Hive, ang susunod na hakbang pasulong ay upang subukan ang mga utos ng Hive sa shell ng Hive. Samakatuwid, ang aming susunod na blog na ' Nangungunang Mga Utos ng Hive na may Mga Halimbawa sa HQL 'Ay makakatulong sa iyo upang makabisado ang mga utos ng Hive.
Mga Kaugnay na Post: