Pinangangasiwaang Pag-aaral Sa Apache Mahout



Ang Pinangangasiwaang Pag-aaral ay isang pamamaraan ng pag-aaral ng makina, kung saan ang isang pagpapaandar ay mahihinuha mula sa mga may label na halimbawa ng data ng pagsasanay.

Ang tutorial ng tutorial ay sunud-sunod

Ang Pinangangasiwaang Pag-aaral ay ang pamamaraan, kung saan kasama sa data ng pagsasanay ang parehong input at nais na mga resulta. Ang pagsasanay sa system na may mga halimbawa ay tinatawag na supervised learning. O kung hindi man, ang pagsasanay sa algorithm sa isang guro ay maaari ding tratuhin bilang pinangangasiwaang pag-aaral. Matapos sanayin ang algorithm sa lahat ng sample na data o may label na data, na mayroong parehong mga tagahula sa variable ng target, maaaring sanayin ng isa ang algorithm at gamitin ang hindi nakikitang halimbawa para sa karagdagang pag-uuri.





Narito ang ilan sa mga mahahalagang tampok ng Pinamahalaang Pag-aaral sa Mahout:

  • Ang pagtatayo ng isang tamang pagsasanay, pagpapatunay at test set (Bok) ay mahalaga.
  • Ang mga pamamaraang ito ay karaniwang mabilis at tumpak.
  • Ang mga pamamaraan ng Pinangangasiwaang Pag-aaral ay kailangang makapag-pangkalahatan.
  • Nagbibigay ang mga ito ng wastong mga resulta, kapag ang bagong data ay ibinibigay sa input nang hindi alam ang aprioritarget
  • Sa ilang mga kaso, ang mga tamang resulta (target) ay kilala at ibinigay bilang input sa modelo habang nasa proseso ng pag-aaral.

Halimbawa ng Pinamamahalaang Pag-aaral

Kung sakali, nais mong sanayin ang isang misyon at bibigyan ka ng dalawang magkakaibang pangkat ng mga imahe kasama ang may label na data, hal. sa larawan sa itaas, ang isang pangkat ay may mga imahe ng isang elepante at ang iba ay mayroong mga ng isang leon. Ang may label na data ay nagpapahiwatig ng bawat set ng data na nagkakaroon ng isang target na halaga. Sa halimbawa sa itaas, ang hanay ng data ay mga imahe ng elepante, habang ang label na ibinigay dito, ibig sabihin, 'Elephant' ay ang target na halaga ng hanay ng data. Ang nasabing naka-label na hanay ng data ay ginagamit para sa proseso ng pagsasanay, upang ang algorithm ng pagsasanay ay maaaring magamit sa hanay ng data na ito at bumuo ng ilang modelo, na maaaring karagdagang magamit upang maiuri ang mga hindi nakikitang halimbawa nang walang naka-label na data, o target na variable.



Kilalanin natin ang mga tampok na makakatulong sa pagkilala ng isang bagay bilang isang elepante o isang leon:

Ang Mga Tampok maaaring maging - laki, kulay, taas, laki ng tainga, baul, tusk

Maaari itong tawaging isang tampok na tampok, na magagamit para sa layunin ng pagsasanay. Ang set ng tampok na ito ay makakaapekto sa pangwakas na variable ng target. Ang mga variable na ito ay kilala bilang mga variable ng hula , sapagkat tinutulungan tayo ng mga ito sa pagtukoy ng pangwakas na variable ng target . Ang pangwakas na variable ay maaari ding tawaging isang label. Ang pangwakas na variable narito ang Elephant / Lion.



ano ang mga namespace sa c ++

table-word

Sa halimbawang ito, ang bawat isa sa mga talaan sa mga kategorya, laki, kulay, taas, laki ng tainga, puno ng kahoy at tusk ay isang variable na hulaan, habang ang Elephant at Lion ang mga target na variable. Ang mga variable na ito ay maaaring tratuhin bilang mga halimbawa ng pagsasanay at pagsasanay datasets ayon sa pagkakabanggit.

Sa gayon, ang Pinangangasiwaang Pag-aaral ay isang paraan, kung saan nagsasanay ka kasama ang mga label, kung saan tatanungin mo ang algorithm na kumuha ng ilang mga tampok dito, at batay dito, sa tuwing makakakita ka ng isang hindi nakikitang halimbawa, maiuuri ito ng algorithm sa tamang klase.

May tanong ba sa amin? Nabanggit ang mga ito sa seksyon ng mga komento at babalikan ka namin.

ay isang masters isang postgraduate degree

Mga Kaugnay na Post: