Mga Istatistika para sa Pag-aaral ng Makina: Isang Gabay sa Baguhan



Ang artikulong ito sa Statistics for Machine Learning ay isang komprehensibong gabay sa iba't ibang mga konsepto ng os na istatistika na may mga halimbawa.

Ang pag-unawa sa data at kakayahang lumikha ng halaga mula rito ay ang kasanayan sa isang dekada. Ang Pag-aaral ng Machine ay isang tulad ng pangunahing kasanayan na tumutulong sa mga kumpanya na matupad ito. Gayunpaman, upang makapagsimula, kailangan mong maitayo nang tama ang iyong mga pundasyon. Kaya, sa artikulong ito, sasakupin ko ang ilang pangunahing mga konsepto at bibigyan ka ng mga alituntunin upang simulan ang iyong paglalakbay sa Pag-aaral ng Machine. Kaya, sa artikulong ito sa mga istatistika para sa pag-aaral ng makina, tatalakayin ang mga sumusunod na paksa:

  1. Ang posibilidad
  2. Mga Istatistika
  3. Linear Algebra

Probabilidad at Istatistika Para sa Pag-aaral ng Makina:





Ano ang Probability?

Kinakalkula ng posibilidad ang posibilidad na maganap ang isang kaganapan. Halimbawa, kung gumulong ka ng patas, walang pinapanigan na mamatay, kung gayon ang posibilidad ng isa ang pag-up ay 1/6 . Ngayon, kung nagtataka ka why? Pagkatapos ang sagot ay medyo simple!

Ito ay dahil mayroong anim na posibilidad at lahat ay pantay ang posibilidad (patas na mamatay). Samakatuwid maaari kaming idagdag 1 + 1 + 1 + 1 + 1 + 1 = 6. Ngunit, dahil interesado kami sa kaganapan kung saan 1 lumiliko . Meron iisa lamang ang paraan na maaaring mangyari ang kaganapan. Samakatuwid,



Ang posibilidad ng 1 pag-up = 1/6

Katulad nito ang kaso sa lahat ng iba pang mga numero dahil ang lahat ng mga kaganapan ay pantay na malamang. Simple, tama ba?

Kaya, ang isang madalas na kahulugan ng posibilidad para sa halimbawang ito ay magiging katulad ng - ang posibilidad ng 1 pag-up ay ang ratio ng bilang ng beses na 1 lumiko hanggang sa kabuuang bilang ng beses na pinagsama ang die kung ang die ay pinagsama ng isang walang katapusang bilang ng mga orasAno ang kahulugan nito?



Gawin itong mas kawili-wili. Isaalang-alang ang dalawang kaso - pinagsama mo ang isang patas na mamatay ng 5 beses. Sa isang kaso ang pagkakasunud-sunod ng mga bilang na paitaas ay - [1,4,2,6,4,3]. Sa ibang kaso, nakukuha namin - [2,2,2,2,2,2]. Alin sa iyong palagay ang mas malamang?

Parehas na malamang. Parang kakaiba di ba?

Ngayon, isaalang-alang ang isa pang kaso kung nasaan ang lahat ng 5 rolyo sa bawat kaso malaya . Ibig sabihin, ang isang rolyo ay hindi nakakaapekto sa iba pa. Sa unang kaso, kapag ang 6 ay lumitaw, wala itong ideya na 2 ang bago bago ito. Samakatuwid, ang lahat ng 5 rolyo ay pantay na malamang.

Katulad nito, ang mga tuwid na 2 sa pangalawang kaso ay maaaring maunawaan bilang isang pagkakasunud-sunod ng mga independiyenteng kaganapan. At lahat ng mga kaganapang ito ay pantay na malamang. Sa pangkalahatan, dahil mayroon kaming parehong dice, ang posibilidad ng isang partikular na bilang na bumaling kung ang isa ay kapareho ng kaso dalawa. Susunod, sa artikulong ito sa mga istatistika para sa pag-aaral ng makina, ipaalam sa amin na maunawaan ang term Pagsasarili.

Pagsasarili

Dalawang pangyayari Sinasabing malaya ang A at B kung ang paglitaw ng A ay hindi nakakaapekto sa kaganapan B . Halimbawa, kung magtapon ka ng isang barya at mag-roll ng die, ang resulta ng mamatay ay walang epekto sa kung ang barya ay nagpapakita ng mga ulo o buntot. Gayundin, para sa dalawang malayang pangyayaring A at B , ang posibilidad na ang A at B ay maaaring mangyari nang magkasama . Kaya halimbawa, kung nais mo ang posibilidad na ang barya ay nagpapakita ng mga ulo at die ay nagpapakita ng 3.

kung paano lumikha ng pabagu-bagong array sa java

P (A at B) = P (A) * P (B)

Samakatuwid P = & frac12 (posibilidad ng pag-up ng mga ulo) * ⅙ (posibilidad ng 3 pag-up) = 1/12

Sa nakaraang halimbawa, para sa parehong mga kaso, P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Ngayon ay pag-usapan natin ang tungkol sa mga kaganapang hindi malaya. Isaalang-alang ang sumusunod na talahanayan:

Napakataba Hindi Napakataba
Mga Problema sa PusoApat limalabinlimang
Walang problema sa puso1030

Isang survey ng 100 katao ang kinuha. 60 ang may mga problema sa puso at 40 wala. Sa 60 na may problema sa puso, 45 ang napakataba. Sa 40 na walang problema sa puso, 10 ang napakataba. Kung may nagtanong sa iyo -

  1. Ano ang posibilidad na magkaroon ng problema sa puso?
  2. Ano ang posibilidad na magkaroon ng problema sa puso at hindi maging napakataba?

Ang sagot sa mga unang katanungan ay madali - 60/100. Para sa pangalawa, magiging 15/100. Isaalang-alang ngayon ang pangatlong katanungan - Ang isang tao ay pinili nang sapalaran. Napag-alaman na may sakit siya sa puso. Ano ang posibilidad na siya ay napakataba?

Ngayon isipin ang tungkol sa impormasyong ibinigay sa iyo - Alam na mayroon siyang sakit sa puso. Samakatuwid hindi siya maaaring mula sa 40 na walang sakit sa puso. Mayroon lamang 60 mga posibleng pagpipilian (ang nangungunang hilera sa talahanayan). Ngayon, kabilang sa mga nabawasang posibilidad, ang posibilidad na siya ay napakataba ay 45/60. Ngayon, na alam mo, kung ano ang mga independiyenteng kaganapan, sa susunod sa artikulong ito para sa istatistika para sa pag-aaral ng makina, ipaalam sa amin na maunawaan ang Mga Pagkakaroon ng Probabilidad

Mga Probabilidad na Probabilidad

Upang maunawaan ang mga kondisyonal na posibilidad, ipagpatuloy natin ang aming talakayan sa halimbawa sa itaas. Ang katayuan ng pagiging napakataba at ang katayuan ng pagdusa mula sa problema sa puso ay hindi malaya. Kung ang pagiging napakataba ay hindi nakakaapekto sa mga problema sa puso, kung gayon ang bilang ng mga napakataba at hindi napakataba na mga kaso para sa mga taong may mga problema sa puso ay magiging pareho.

Gayundin, binigyan kami na ang tao ay may mga problema sa puso at kailangan naming malaman ang posibilidad na siya ay napakataba. Kaya, ang posibilidad, sa kasong ito, ay sinasabing nakakondisyon sa katotohanang mayroon siyang problema sa puso. Kung ang posibilidad ng kaganapan na A na nagaganap ay nakakondisyon sa kaganapan B, kinakatawan namin ito bilang

P (A | B)

Ngayon, mayroong isang teorama na tumutulong sa amin na kalkulahin ang kondisyong ito na posibilidad. Tinawag itong Panuntunan ni Bayes .

P (A | B) = P (A at B) / P (B)

Maaari mong suriin ang teoryang ito sa pamamagitan ng pag-plug ng halimbawa na tinalakay lamang. Kung naintindihan mo sa ngayon, maaari kang magsimula sa mga sumusunod - Naive Bayes . Gumagamit ito ng mga kondisyonal na probabilidad upang maiuri kung ang isang email ay isang spam o hindi. Maaari itong gumanap ng maraming iba pang mga gawain sa pag-uuri. Ngunit mahalagang, ang kondisyonal na posibilidad ay nasa puso ng .

Istatistika:

Ang mga istatistika ay ginamit upang ibuod at gumawa ng mga hinuha tungkol sa isang malaking bilang ng mga puntos ng data. Sa Data Science at Machine Learning, madalas mong malagpasan ang mga sumusunod na terminolohiya

  • Mga hakbang sa sentralidad
  • Mga pamamahagi (lalo na normal)

Mga panukala sa gitna at sukat ng mga pagkalat

Ibig sabihin:

Ang ibig sabihin ay isang average ng mga numero . Upang malaman ang ibig sabihin, kailangan mong ibilang ang mga numero at hatiin ito sa bilang ng mga numero. Halimbawa, ang ibig sabihin ng [1,2,3,4,5] ay 15/5 = 3.

mean-statistics-for-machine-learning

Median:

Median ang gitnang elemento ng isang hanay ng mga numero kapag sila ay nakaayos sa pataas na pagkakasunud-sunod. Halimbawa, ang mga bilang [1,2,4,3,5] ay nakaayos sa isang pataas na pagkakasunud-sunod [1,2,3,4,5]. Ang gitna ng mga ito ay 3. Samakatuwid ang panggitna ay 3. Ngunit paano kung ang bilang ng mga numero ay pantay at samakatuwid ay walang gitnang numero? Sa kasong iyon, kinukuha mo ang average ng dalawang gitnang pinakamaraming bilang. Para sa isang pagkakasunud-sunod ng 2n na numero sa pataas na pagkakasunud-sunod, average ang nth at (n + 1)ikanumero upang makuha ang panggitna. Halimbawa - [1,2,3,4,5,6] ang may panggitna (3 + 4) / 2 = 3.5

Mode:

Ang mode ay simpleng ang pinaka-madalas na bilang sa isang hanay ng mga numero . Halimbawa, ang mode ng [1,2,3,3,4,5,5,5] ay 5.

Pagkakaiba-iba:

Ang pagkakaiba-iba ay hindi isang panukalang batas. Sumusukat ito kung paano kumalat ang iyong data sa paligid ng mean . Ito ay nabibilang bilang

xay ang ibig sabihin ng mga numero ng N. Kumuha ka ng isang punto, ibawas ang ibig sabihin, kunin ang parisukat ng pagkakaiba na ito. Gawin ito para sa lahat ng mga numero ng N at average ang mga ito. Ang square root ng pagkakaiba-iba ay tinatawag na karaniwang paglihis. Susunod, sa artikulong ito sa mga istatistika para sa pag-aaral ng makina, ipaunawa sa amin ang Karaniwang Pamamahagi.

bilog doble sa int java

Karaniwang Pamamahagi

Nakakatulong sa atin ang pamamahagi maunawaan kung paano kumalat ang aming data . Halimbawa, sa isang sample ng edad, maaari kaming magkaroon ng mga kabataan na higit sa mga matatandang matatanda at samakatuwid ay mas maliit ang mga halagang edad na higit sa mas malalaking mga halaga. Ngunit paano namin tinutukoy ang isang pamamahagi? Isaalang-alang ang halimbawa sa ibaba

Ang y-axis ay kumakatawan sa density. Ang mode ng pamamahagi na ito ay 30 dahil ito ang rurok at samakatuwid ay madalas. Maaari rin nating hanapin ang median. Ang Median ay namamalagi sa punto sa x-axis kung saan natatakpan ang kalahati ng lugar sa ilalim ng curve. Ang lugar sa ilalim ng anumang normal na pamamahagi ay 1 dahil ang kabuuan ng mga posibilidad ng lahat ng mga kaganapan ay 1. Halimbawa,

Median sa nabanggit na kaso ay nasa paligid ng 4. Ito ay nangangahulugan na ang lugar sa ilalim ng curve bago ang 4 ay pareho sa na pagkatapos 4. Isaalang-alang ang isa pang halimbawa

Nakakakita kami ng tatlong normal na pamamahagi. Ang mga asul at pula ay may parehong kahulugan. Ang pula ay may higit na pagkakaiba-iba. Samakatuwid, ito ay higit na kumalat kaysa sa asul. Ngunit dahil ang lugar ay dapat na 1, ang tuktok ng pulang kurba ay mas maikli kaysa sa asul na kurba, upang mapanatili ang lugar na pare-pareho.

Inaasahan kong naintindihan mo ang pangunahing mga istatistika at normal na pamamahagi. Ngayon, sa susunod sa artikulong ito para sa pag-aaral ng makina, alamin natin ang tungkol sa Linear Algebra.

Linear Algebra

Hindi posible ang modernong AI kung wala ang Linear Algebra. Ito ang bumubuo sa core ng Malalim na Pag-aaral at ginamit kahit sa mga simpleng algorithm tulad . Nang walang anumang karagdagang pagkaantala, magsimula na tayo.

Dapat pamilyar ka sa mga vector. Ang mga ito ay isang uri ng mga geometrical na representasyon sa kalawakan. Halimbawa, ang isang vector [3,4] ay may 3 mga yunit kasama ang x-axis at 4 na mga yunit kasama ang y-axis. Isaalang-alang ang sumusunod na imahe -

Ang Vector d1 ay may 0.707 na mga yunit kasama ang x-axis at 0.707 na mga yunit kasama ang y-axis. Ang isang vector ay may 1 dimensyon. Ito ay kinakailangang mayroong isang magnitude at isang direksyon. Halimbawa,

Ang imahe sa itaas ay may isang vector (4,3). Ang lakas nito ay 5 at gumagawa ito ng 36.9 degree na may x-axis.

Ngayon, ano ang isang matrix? Ang Matrix ay isang multi-dimensional na hanay ng mga numero. Para saan ito Makikita natin sa unahan. Ngunit una, tingnan natin kung paano ito ginagamit.

Matrix

Ang isang matrix ay maaaring magkaroon ng maraming mga sukat. Isaalang-alang natin ang isang 2-dimensional matrix. Mayroon itong mga hilera (m) at mga haligi (n). Samakatuwid mayroon itong mga elemento ng m * n.

Halimbawa,

Ang matrix na ito ay may 5 mga hilera at 5 mga haligi. Tawagin natin itong A. Samakatuwid A (2,3) ang entry sa pangalawang hilera at pangatlong haligi na 8.

Ngayon, na alam mo kung ano ang isang matrix, hinayaan kaming tumingin sa iba't ibang mga pagpapatakbo ng matrix.

Mga Pagpapatakbo ng Matrix

Dagdag ng Matrices

Dalawang matrices ng pareho sukat ay maaaring idagdag. Nangyayari ang pagdaragdag nang ayon sa elemento.

Pagpaparami ng Scalar

Ang isang matrix ay maaaring maparami ng isang scalar dami. Ang gayong pagdaragdag ay humahantong sa bawat pagpasok sa matrix na nagpaparami ng scalar. Ang isang scalar ay isang numero lamang

Transpose ng Matrix

Ang matrix transpose ay simple. Para sa isang matrix A (m, n), hayaan ang A ’na maging transpose nito. Tapos

A '(i, j) = A (j, i)

Halimbawa,

Pagpaparami ng Matrix

Marahil ay medyo mahirap ito kaysa sa iba pang mga operasyon. Bago tayo sumisid dito, tukuyin natin ang tuldok na produkto sa pagitan ng dalawang mga vector.

Isaalang-alang ang vector X = [1,4,6,0] at vector Y = [2,3,4,5]. Pagkatapos ang tuldok na produkto sa pagitan ng X at Y ay tinukoy bilang

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Kaya, ito ay isang elemento na may kaalamang pagpaparami at karagdagan. Ngayon,isaalang-alang natin ang dalawang matris na A (m, n) at B (n, k), kung saan ang m, n, k ay mga sukat at samakatuwid ay mga integer. Tinutukoy namin ang pagpaparami ng matrix bilang

Sa halimbawa sa itaas, ang unang elemento ng produkto (44) ay nakuha ng tuldok na produkto ng unang hilera ng kaliwang matrix na may unang haligi ng kanang matrix. Katulad nito, ang 72 ay nakuha ng tuldok na produkto ng unang hilera ng kaliwang matrix na may pangalawang haligi ng kanang matrix.

qtp vs selenium alin ang mas mabuti

Tandaan na para sa kaliwang matrix, ang bilang ng mga haligi ay dapat na katumbas ng bilang ng mga hilera sa kanang haligi. Sa aming kaso, ang produktong AB ay mayroon ngunit hindi BA dahil ang m ay hindi katumbas ng k. Para sa dalawang matrices A (m, n) at B (n, k), ang produktong AB ay tinukoy at ang sukat ng produkto ay (m, k) (ang panlabas na karamihan sa mga sukat ng (m, n), (n, k )). Ngunit ang BA ay hindi tinukoy maliban kung m = k.

Sa pamamagitan nito, natapos na kami sa artikulong ito sa Statistics for Machine Learning. Inaasahan kong mayroon kang ilang naiintindihan na ilan sa Machine Learning Jargon. Hindi pa rin nagtatapos dito. Upang matiyak na handa ka sa industriya, maaari mong suriin ang mga kurso ni Edureka sa Data Science at AI. Maaari silang matagpuan