Pagbabarena sa Apache Drill, ang New-Age Query Engine



Binibigyan ka ng tutorial na Apache Drill na ito ng lahat ng impormasyong kailangan mo upang makapagsimula sa Apache Drill query engine, paggamit sa Hadoop, Big Data at Apache Spark.

Ang Apache Drill ay ang unang SQL Engine na walang iskema sa industriya. Ang drill ay hindi ang unang query engine sa mundo, ngunit ito ang una na tumatama sa mahusay na balanse sa pagitan ng kakayahang umangkop at bilis. Ang drill ay idinisenyo upang masukat sa libu-libong mga node at query petabytes ng data sa mga bilis ng interactive na kinakailangan ng mga kapaligiran sa BI / Analytics.





Maaari itong isama sa maraming mga mapagkukunan ng data tulad ng Hive, HBase, MongoDB, file system, RDBMS. Gayundin, ang mga format ng pag-input tulad ng Avro, CSV, TSV, PSV, Parquet, mga file ng Hadoop Sequence, at marami pang iba ay maaaring magamit sa Drill nang madali.

Bakit Apache Drill?

Ang pinakamalaking bentahe ng Apache Drill ay maaari itong matuklasan ang iskema sa mabilis habang nagtatanong ka ng anumang data. Bukod dito, maaari itong gumana sa iyong mga tool sa BI tulad ng Tableau, Qlikview, MicroStrategy atbp para sa mas mahusay na analytics.



Narito ang isang quote mula sa isang analista sa industriya na nagbubuod sa halaga ng Apache Drill:

'Ang drill ay hindi lamang tungkol sa SQL-on-Hadoop. Ito ay tungkol sa SQL-on-medyo-anuman, kaagad, at walang pormalidad. '

- Andrew Burst, Gigaom Research, Enero 2015



Ang Drillbit ay ang daemon ng Apache Drill na tumatakbo sa bawat node sa kumpol. Gumagamit ito ng ZooKeeper para sa lahat ng komunikasyon sa cluster at maintaisn cluster membership. Responsable ito para sa pagtanggap ng mga kahilingan mula sa client, pagproseso ng mga query, at pagbabalik ng mga resulta sa kliyente. Ang drillbit na tumatanggap ng kahilingan mula sa kliyente ay tinatawag na 'foreman'. Bumubuo ito ng plano sa pagpapatupad, ang mga fragment ng pagpapatupad ay ipinadala sa iba pang mga drillbit na tumatakbo sa kumpol.

Drillbits-Apache-Drill

Isa pang kalamangan ay ang pag-install at pag-set up ng drill ay medyo simple. Alamin natin kung paano i-install ang Apache Drill.

Ang unang hakbang ay upang i-download ang drill package.

ay postgraduate at masters pareho

Utos: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Utos: tar -xvf apache-drill-1.5.0.tar.gz

Utos: ls

Susunod, itakda ang mga variable ng kapaligiran sa .bashrc file.

Utos: sudo gedit .bashrc

i-export ang DRILL_HOME = / home / edureka / apache-drill-1.5.0

i-export ang PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

I-a-update ng utos na ito ang mga pagbabago:

Utos: pinagmulan .bashrc

Pumunta ngayon sa direktoryo ng drill conf at i-edit ang drill-override.conf file na may cluster id at zookeeper host & port, tatakbo namin ito sa isang lokal na kumpol.

Utos: cd apache-drill-1.5.0

Utos: sudo gedit conf / drill-override.conf

Bilang default, ang DRILL_MAX_DIRECT_MEMORY ay magiging 8 GB sa drill-env.sh, at kailangan naming panatilihin ito alinsunod sa memorya na mayroon kami.

Utos: sudo gedit conf / drill-env.sh

Upang mai-install lamang ang drill sa isang solong node, maaari mong gamitin ang naka-embed na mode, kung saan tatakbo ito nang lokal. Awtomatiko nitong sisimulan ang drillbit service kapag pinatakbo mo ang utos na ito.

Utos: ./bin/drill-embedded

Maaari kang magpatakbo ng isang simpleng query upang suriin ang pag-install.

Utos: piliin ang * mula sa sys.options WHERE type = 'SYSTEM' at pangalanan tulad ng 'security%'

Upang suriin ang web console ng Apache Drill, kailangan naming pumunta sa localhost: 8047 sa web browser.

Maaari mong patakbuhin ang iyong query mula sa tab na Query din.

kung paano itakda ang classpath sa windows 10

Upang magpatakbo ng drill sa ibinahagi mode, kailangan mong i-edit ang cluster ID at idagdag ang impormasyon ng ZooKeeper sa drill-override.conf tulad ng nasa ibaba.

Pagkatapos ay kailangan naming simulan ang serbisyo ng ZooKeeper sa bawat node. Pagkatapos nito kailangan mong simulan ang serbisyo ng drillbit sa bawat node gamit ang utos na ito.

Utos: ./bin/drillbit.sh magsimula

Utos: jps

Ngayon, ginagamit namin sa ibaba ang utos upang simulan ang drill shell.

Ngayon, maaari naming maisagawa ang aming mga query sa kumpol sa ibinahaging mode.

Ito ang unang post sa blog sa isang dalawang bahagi na serye ng blog ng Apache Drill. Malapit na ang pangalawang blog sa serye.

May tanong ba sa amin? Nabanggit ang mga ito sa seksyon ng komento at babalikan ka namin.

Mga Kaugnay na Post:

Pagbabarena Sa Apache Drill Bahagi 2

Apache Spark Vs Hadoop MapReduce