Fuzzy K-Means Clustering sa Mahout



Ang blog na ito ay nagbibigay ng isang pagpapakilala sa Fuzzy K-Means clustering sa Apache Mahout.

Mga tungkulin at responsibilidad ng linux administrator

Ang Fuzzy K-Means ay eksaktong kapareho ng algorithm sa K-ibig sabihin, na isang tanyag na simpleng diskarte sa pag-cluster. Ang kaibahan lamang, sa halip na magtalaga ng isang punto ng eksklusibo sa isang kumpol lamang, maaari itong magkaroon ng isang uri ng pagkasunog o magkakapatong sa pagitan ng dalawa o higit pang mga kumpol. Ang mga sumusunod ay ang mga pangunahing puntos, na naglalarawan sa Fuzzy K-Means:





  • Hindi tulad ng K-Means, na naghahanap ng matitibay na kumpol, kung saan ang bawat isa sa mga puntos ay kabilang sa isang kumpol, ang Fuzzy K-Means ay naghahanap ng mas malambot na mga kumpol para sa magkakapatong.
  • Ang isang solong punto sa isang malambot na kumpol ay maaaring kabilang sa higit sa isang kumpol na may isang tiyak na halaga ng pagkakaugnay sa bawat isa sa mga puntos.
  • Ang pagkakaugnay ay nasa proporsyon sa distansya ng puntong iyon mula sa cluster centroid.
  • Katulad ng K-Means, gumagana ang Fuzzy K-Means sa mga bagay na may tinukoy na sukat ng distansya at maaaring kinatawan sa n- dimensional na puwang ng vector.

Fuzzy K-Nangangahulugan ng MapReduce Flow

Walang maraming pagkakaiba sa pagitan ng daloy ng MapReduce ng K-Means at Fuzzy K-Means. Ang pagpapatupad ng pareho sa Mahout ay pareho.

Ang sumusunod ay ang mahahalagang parameter para sa pagpapatupad ng Fuzzy K-Means:



  • Kailangan mo ng isang hanay ng data ng Vector para sa pag-input.
  • Kailangang magkaroon ng RandomSeedGenerator upang mag-seed ng paunang mga kumpol ng k.
  • Para sa panukalang distansya kinakailangan ang SquaredEuclideanDistanceMeasure.
  • Isang malaking halaga ng koneksyon ng threshold, tulad ng –cd 1.0, kung ginamit ang parisukat na halaga ng panukalang distansya
  • Isang halaga para sa maxIterations ang default na halaga ay -x 10.
  • Ang koepisyent ng normalisasyon o ang kadahilanan ng fuzziness, na may halagang higit sa -m 1.0

May tanong ba sa amin? Nabanggit ang mga ito sa seksyon ng mga komento at babalikan ka namin.

Mga Kaugnay na Post



i-type ang conversion sa c ++

Pinangangasiwaang Pag-aaral sa Apache Mahout