LINEAR REGRESSION PARA SA PAG-AARAL NG MAKINA | PANIMULA SA ML ALGORITHMS

Ang pokus ng umiikot sa mga variable ng pag-input at output gamit ang isang algorithm upang mahulaan ang kinalabasan. Kung ang isang bagong variable ng pag-input ay dumating sa larawan. Ang linear regression algorithm sa ay isang pinangangasiwaang diskarte sa pag-aaral upang tantyahin ang pagpapaandar sa pagmamapa upang makuha ang pinakamahusay na mga hula. Sa artikulong ito, matututunan natin ang tungkol sa linear regression para sa machine machine. Ang mga sumusunod na paksa ay tinalakay sa blog na ito.

Ano ang Regression?
Mga Uri ng Pag-urong
Ano ang Linear Regression?
Mga Terminolohiya sa Linear Regression
Mga Kalamangan At Disadentahe ng Linear Regression
Mga Kaso sa Paggamit ng Linear Regression
Gumamit ng kaso - Pagpapatupad ng Linear Regression

Ano ang Regression?

Ang pangunahing layunin ng pagbabalik ay ang pagbuo ng isang mahusay na modelo upang mahulaan ang mga umaasa na mga katangian mula sa isang bungkos ng mga variable ng katangian. Ang isang problema sa pagbabalik ay kapag ang variable ng output ay alinman sa tunay o isang tuluy-tuloy na halaga ie suweldo, timbang, lugar, atbp.

Maaari rin nating tukuyin ang pagbabalik bilang isang statistic na paraan na ginagamit sa mga application tulad ng pabahay, pamumuhunan, atbp. Ginagamit ito upang hulaan ang ugnayan sa pagitan ng isang umaasang variable at isang bungkos ng mga independiyenteng variable. Tingnan natin ang iba't ibang mga uri ng mga diskarte sa pagbabalik.

Mga Uri Ng Pag-urong

Ang mga sumusunod ay mga uri ng pagbabalik.

Simpleng Linear Regression
Polynomial Regression
Suportahan ang Pag-urong ng Vector
Desisyon ng Pag-urong ng Puno
Random na Pag-urong sa Kagubatan

Simpleng Linear Regression

Ang isa sa mga pinaka-kagiliw-giliw at karaniwang pamamaraan ng pagbabalik ay simpleng linear regression. Sa ito, hinuhulaan namin ang kinalabasan ng isang umaasang variable batay sa mga independiyenteng variable, ang ugnayan sa pagitan ng mga variable ay linear. Samakatuwid, ang salitang linear regression.

Polynomial Regression

Sa diskarteng pagbabalik na ito, binago namin ang mga orihinal na tampok sa mga tampok na polynomial ng isang naibigay na degree at pagkatapos ay nagsasagawa ng pagbabalik dito.

Suportahan ang Pag-urong ng Vector

Para kay pagbabalik o SVR, kinikilala namin ang isang hyperplane na may maximum margin tulad na ang maximum na bilang ng mga puntos ng data ay nasa loob ng mga margin na iyon. Medyo katulad ito sa algorithm ng pag-uuri ng vector machine ng suporta.

Desisyon ng Pag-urong ng Puno

SA maaaring magamit para sa parehong pagbabalik at . Sa kaso ng pag-urong, ginagamit namin ang ID3 algorithm (Iterative Dichotomiser 3) upang makilala ang split node sa pamamagitan ng pagbawas ng karaniwang paglihis.

Random na Pag-urong sa Kagubatan

Sa random na pag-urong sa kagubatan, pinagsasama-sama namin ang mga hula ng ilang mga pagpapasya sa pag-urong ng puno. Ngayong alam na natin ang tungkol sa iba't ibang uri ng pag-urong suriin natin nang detalyado ang simpleng linear na pag-urong.

Ano ang Linear Regression?

Ang simpleng linear regression ay isang diskarte sa pagbabalik kung saan ang independiyenteng variable ay may isang linear na relasyon sa dependant variable. Ang tuwid na linya sa diagram ay ang pinakamahusay na linya na magkasya. Ang pangunahing layunin ng simpleng linear regression ay upang isaalang-alang ang mga ibinigay na puntos ng data at balangkas ang pinakamahusay na linya na magkasya upang magkasya ang modelo sa pinakamahusay na paraang posible.

Bago magpatuloy sa kung paano gumagana ang linear regression algorithm, tingnan muna natin ang ilang mahahalagang terminolohiya sa simpleng linear regression.

Mga Terminolohiya sa Linear Regression

Ang mga sumusunod na terminolohiya ay mahalaga upang maging pamilyar ka bago lumipat sa linear regression algorithm.

Pag-andar ng Gastos

Ang pinakamagandang linya ng fit ay maaaring batay sa linear equation na ibinigay sa ibaba.

Ang umaasa na variable na hinuhulaan ay tinukoy ni Y.
Ang isang linya na humipo sa y-axis ay tinukoy ng intercept b₀.
b_isaay ang slope ng linya, x kumakatawan sa mga independiyenteng variable na tumutukoy sa hula ng Y.
Ang error sa nagresultang prediksyon ay tinukoy ng e.

Ang pagpapaandar sa gastos ay nagbibigay ng pinakamahusay na mga posibleng halaga para sa b₀at b_isaupang gawin ang pinakamahusay na linya na magkasya para sa mga puntos ng data. Ginagawa namin ito sa pamamagitan ng pag-convert sa problemang ito sa isang problema sa pag-minimize upang makuha ang pinakamahusay na mga halaga para sa b₀at b_isa. Ang error ay nai-minimize sa problemang ito sa pagitan ng aktwal na halaga at ng hinulaang halaga.

Pinipili namin ang pagpapaandar sa itaas upang i-minimize ang error. Nilalagay namin ang pagkakaiba sa error at binubuo ang error sa lahat ng mga puntos ng data, ang paghahati sa pagitan ng kabuuang bilang ng mga puntos ng data. Pagkatapos, ang nagawa na halaga ay nagbibigay ng average na parisukat na error sa lahat ng mga puntos ng data.

Kilala rin ito bilang MSE (Mean Squared Error), at binabago namin ang mga halaga ng b₀at b_isaupang ang halaga ng MSE ay naayos sa minimum.

Gradient Descent

Ang susunod na mahalagang terminolohiya upang maunawaan ang linear regression ay galing sa gradient. Ito ay isang paraan ng pag-update ng b₀at b_isamga halagang mabawasan ang MSE. Ang ideya sa likod nito ay upang mapanatili ang pag-ulit ng b₀at b_isahalaga hanggang sa bawasan namin ang MSE sa minimum.

Upang mai-update b₀at b_isa, kumukuha kami ng mga gradient mula sa pagpapaandar ng gastos. Upang hanapin ang mga gradient na ito, kumukuha kami ng bahagyang derivatives na patungkol sa b₀at b_isa. Ang mga bahagyang derivatives na ito ay ang gradients at ginagamit upang i-update ang mga halaga ng b₀at b_isa.

Ang isang mas maliit na rate ng pagkatuto ay tumatagal ng malapit sa minimum, ngunit tumatagal ng mas maraming oras at sa kaso ng isang mas malaking rate ng pag-aaral. Ang oras na ginugol ay mas maaga ngunit may pagkakataon na ma-overshoot ang minimum na halaga. Ngayon na natapos namin ang mga terminolohiya sa linear regression, tingnan natin ang ilang mga kalamangan at dehado ng linear regression para sa pag-aaral ng makina.

Mga Kalamangan At Disbentahe

Mga kalamangan	Mga Dehado
Ang Linear regression ay mahusay na gumaganap para sa linearly separable data	Ang palagay ng linearity sa pagitan ng umaasa at independiyenteng mga variable
Mas madaling ipatupad, bigyang kahulugan at mahusay na sanayin	Ito ay madalas na madaling kapitan ng sakit sa ingay at overfitting
Humahawak ito ng overfitting nang maayos gamit ang mga diskarte ng dimensyonal na pagbawas, regularisasyon, at pag-validate ng cross	Ang Linear regression ay lubos na sensitibo sa mga outliers
Ang isa pang kalamangan ay ang extrapolation na lampas sa isang tukoy na hanay ng data	Ito ay madaling kapitan ng sakit sa multicollinearity

Mga Kaso sa Paggamit ng Linear Regression

Pagtataya sa Pagbebenta
Pagsusuri sa Panganib
Mga Application sa Pabahay Upang Hulaan ang mga presyo at iba pang mga kadahilanan
Mga Aplikasyon sa Pananalapi Upang Hulaan ang Mga presyo ng stock, pagsusuri sa pamumuhunan, atbp.

Ang pangunahing ideya sa likod ng linear regression ay upang mahanap ang ugnayan sa pagitan ng mga umaasa at independiyenteng mga variable. Ginagamit ito upang makuha ang pinakamahusay na linya na umaangkop na mahuhulaan ang kinalabasan na may pinakamaliit na error. Maaari naming gamitin ang linear regression sa simpleng mga sitwasyon sa totoong buhay, tulad ng paghula sa mga marka ng SAT tungkol sa bilang ng mga oras ng pag-aaral at iba pang mapagpasyang kadahilanan.

Sa pag-iisip na ito, tingnan natin ang isang kaso ng paggamit.

Gumamit ng Kaso - Pagpapatupad ng Linear Regression

Ang proseso ay nagaganap sa mga sumusunod na hakbang:

Nilo-load ang Data
Paggalugad sa Data
Paghiwa ng Data
Tren at Hatiin ang Data
Bumuo ng Model
Suriin ang kawastuhan

Makilala natin ang mga detalye ng bawat hakbang upang maipatupad ang linear regression.

1. Nilo-load ang Data

Maaari kaming magsimula sa pangunahing hanay ng data ng diyabetis na naroroon sa sklearn (scikit-malaman) na module ng mga set ng data upang simulan ang aming paglalakbay sa linear regression.

mula sa sklearn import datasets disease = datasets.load_diabetes () print (sakit)

Output:

2. Pagtuklas sa Data

Matapos naming matapos ang pag-load ng data, maaari naming simulan ang paggalugad sa pamamagitan ng simpleng pag-check sa mga label sa pamamagitan ng paggamit ng sumusunod na code.

java ano ang scanner

print (disease.keys ())

Output:

Ibinibigay ng code sa itaas ang lahat ng mga label mula sa hanay ng data, pagkatapos nito, maaari naming hiwain ang data upang mailagay namin ang linya sa huli. Gagamitin din namin ang lahat ng mga puntos ng data, sa ngayon, hahatiin namin ang haligi 2 mula sa data.

i-import ang numpy bilang np disease_X = disease.data [:, np.newaxis, 2] print (disease_X)

Output:

Matapos ang hakbang na ito, hahatiin namin ang data sa tren at set ng pagsubok.

3. Paghahati sa Data

sakit_X_train = sakit_X [: - 30] sakit_X_test = sakit_X [-20:] sakit_Y_train = sakit.target [: - 30] sakit_Y_test = sakit.target [-20:]

Ang susunod na bahagi ay nagsasangkot ng pagbuo ng modelo, na kung saan ay isasama ang pag-import ng linear_model mula sa sklearn.

4. Bumubuo ng modelo

mula sa sklearn import linear_model reg = linear_model.LinearRegression () reg.fit (disease_X_train, disease_Y_train) y_predict = reg.predict (disease_X_test)

Upang suriin ang kawastuhan ng modelo, gagamitin namin ang ibig sabihin ng parisukat na error mula sa scikit-malaman.

5. Pagsusuri

kawastuhan = mean_squared_error (disease_Y_test, y_predict,) print (katumpakan) timbang = reg.coef_ intercept = reg.intercept_ print (weights, intercept)

Output:

Upang mas maging malinaw sa kung paano ang hitsura ng mga puntos ng data sa grapiko, balangkasin din natin ang mga graph.

i-import ang matplotlib.pyplot bilang plt plt.scatter (disease_X_test, disease_Y_test) plt.plot (disease_X_test, y_predict) plt.show ()

Output:

Upang makakuha ng isang mas tumpak na modelo sa senaryong ito, maaari naming gamitin ang buong data sa halip na ang haligi lamang 2. Magbibigay iyon ng isang kawastuhan tulad ng ipinakita sa ibaba:

#gumawa ng kaunting pagbabago sa code sa itaas, at alisin ang balangkas na code upang maiwasan ang mga error sa sakit_X = disease.data

Output:

Dinadala tayo nito sa katapusan ng artikulong ito kung saan natutunan ang tungkol sa Linear Regression para sa Pag-aaral ng Makina. Inaasahan kong malinaw ka sa lahat ng naibahagi sa iyo sa tutorial na ito.

Kung nakita mo ang artikulong ito sa 'Linear Regression for Machine Learning' na may kaugnayan, tingnan ang isang pinagkakatiwalaang kumpanya sa online na pag-aaral na may isang network ng higit sa 250,000 nasiyahan na mga nag-aaral na kumalat sa buong mundo.

Kung mahahanap mo ang anumang mga katanungan, huwag mag-atubiling itanong ang lahat ng iyong mga katanungan sa seksyon ng mga komento ng 'Linear Regression for Machine Learning' at ang aming koponan ay nalulugod na sagutin.

Paano Maipatupad ang Linear Regression para sa Pag-aaral ng Makina?

Saklaw ng artikulong ito ang konsepto ng linear regression para sa pag-aaral ng makina na may iba't ibang mga terminolohiya at isang kaso ng paggamit upang ipatupad ang linear regression.

Ano ang Regression?

Mga Uri Ng Pag-urong

Simpleng Linear Regression

Polynomial Regression

Suportahan ang Pag-urong ng Vector

Desisyon ng Pag-urong ng Puno

Random na Pag-urong sa Kagubatan

Ano ang Linear Regression?

Mga Terminolohiya sa Linear Regression

Pag-andar ng Gastos

Gradient Descent

Mga Kalamangan At Disbentahe

Mga Kaso sa Paggamit ng Linear Regression

Gumamit ng Kaso - Pagpapatupad ng Linear Regression

Mga Kategorya

Popular Articles

Ano ang Kinabukasan ng AI? Malaman ang tungkol sa mga Saklaw at Ideya

Paano Lumikha ng isang Checkbox sa Angular8?

Lahat Tungkol sa Iba`t ibang Paraan Upang Gumamit ng Mga Dual Axis Chart sa Tableau

Mga Klase sa Python At Mga Bagay - Pag-ooriya ng Programa ng Bagay

Demystifying Partitioning sa Spark

Git bisect: Paano makilala ang isang bug sa iyong code?

Infographic - Nangungunang 10 Mga Wika sa Programming na Matutunan sa 2020

Truffle Ethereum Tutorial - Pagbubuo ng Ethereum DApps na may Truffle

Paano Maipatupad ang Pakikinig sa Aksyon sa Java

Paano Ipapatupad ang Mga Argumento ng Command Line sa Java

Ito ba ang Tamang Oras Para Malaman Ko ang Hadoop?

#IndiaITRepublic - Nangungunang 10 Katotohanan tungkol sa Wipro