Apache Flink: Ang Susunod na Gen Big Framework ng Data Analytics Para sa Pagproseso ng Stream At Batch Data



Alamin ang lahat tungkol sa Apache Flink at pagse-set up ng isang kumpol ng Flink sa blog na ito. Sinusuportahan ng Flink ang real-time at pagproseso ng batch at isang kailangang-manuod na teknolohiya ng Big Data para sa Big Data Analytics.

Ang Apache Flink ay isang bukas na platform ng mapagkukunan para sa ipinamamahagi na stream at pagproseso ng data ng batch. Maaari itong tumakbo sa Windows, Mac OS at Linux OS. Sa post sa blog na ito, talakayin natin kung paano i-set up ang Flink cluster nang lokal. Ito ay katulad ng Spark sa maraming paraan - mayroon itong mga API para sa pagpoproseso ng pag-aaral ng Grap at Makina tulad ng Apache Spark - ngunit ang Apache Flink at Apache Spark ay hindi eksaktong pareho.





Upang i-set up ang Flink cluster, dapat kang magkaroon ng java 7.x o mas mataas na naka-install sa iyong system. Dahil mayroon akong naka-install na Hadoop-2.2.0 sa aking dulo sa CentOS (Linux), na-download ko ang Flink package na katugma sa Hadoop 2.x. Patakbuhin sa ibaba ang utos upang i-download ang Flink package.

Utos: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

I-untar ang file upang makuha ang direktoryo ng flink.

Utos: tar -xvf Mga Pag-download / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Utos: ls

Magdagdag ng mga variable ng kapaligiran ng Flink sa .bashrc file.

Utos: sudo gedit .bashrc

Kailangan mong patakbuhin ang utos sa ibaba upang ang mga pagbabago sa .bashrc file ay naaktibo

Utos: pinagmulan .bashrc

Pumunta ngayon sa direktoryo ng flink at simulan ang cluster nang lokal.

Utos: cd mabigat-1.0.0

Utos: bin / start-local.sh

Sa sandaling nasimulan mo ang kumpol, makakakita ka ng isang bagong daemon na JobManager na tumatakbo.

Utos: jps

Buksan ang browser at pumunta sa http: // localhost: 8081 upang makita ang Apache Flink web UI.

pagdaan ng halaga kumpara sa pagdaan ng sanggunian na java

Patakbuhin natin ang isang simpleng halimbawa ng wordcount gamit ang Apache Flink.

Bago patakbuhin ang halimbawa ng pag-install netcat sa iyong system (sudo yum install nc).

Ngayon sa isang bagong terminal patakbuhin ang utos sa ibaba.

Utos: nc -lk 9000

Patakbuhin ang ibinigay na utos sa ibaba sa flink terminal. Nagpapatakbo ang utos na ito ng isang programa kung saan kinukuha ang nai-stream na data bilang pag-input at nagsasagawa ng pagpapatakbo ng wordcount sa na-stream na data.

Utos: halimbawa ng bin / flink run / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Sa web ui, makakakita ka ng isang trabaho sa pagpapatakbo ng estado.

Patakbuhin sa ibaba ang utos sa isang bagong terminal, i-print nito ang data na na-stream at naproseso.

Utos: buntot -f log / flink - * - jobmanager - *. out

Pumunta ngayon sa terminal kung saan nagsimula kang netcat at mag-type ng isang bagay.

pagkakaiba sa pagitan ng chef at nakakain

Sa sandaling pinindot mo ang enter button sa iyong keyword pagkatapos mong mag-type ng ilang data sa netcat terminal, ang pagpapatakbo ng wordcount ay mailalapat sa data na iyon at mai-print ang output dito (log ng jobmanager ng flink) sa loob ng milliseconds!

Sa loob ng napakaliit na haba ng oras, mai-stream, maproseso at mai-print ang data.

Marami pang dapat malaman tungkol sa Apache Flink. Hahawakan namin ang iba pang mga paksa sa Flink sa aming paparating na blog.

May tanong ba sa amin? Nabanggit ang mga ito sa seksyon ng komento at babalikan ka namin.

Mga Kaugnay na Post:

Apache Falcon: Bagong Platform ng Pamamahala ng Data para sa Hadoop Ecosystem