Ang Pinakamahusay na Python Library Para sa Data Science At Machine Learning



Ang blog na ito sa mga aklatan ng Python para sa Data Science at Machine Learning ay makakatulong sa iyo na maunawaan ang mga nangungunang aklatan upang ipatupad ang Data Science & Machine Learning.

Mga aklatan ng Python para sa Data Science at Machine Learning:

Agham sa Data at ay ang pinaka-in-demand na teknolohiya ng panahon. Ang hiling na ito ay nagtulak sa bawat isa na alamin ang iba't ibang mga silid aklatan at mga pakete upang ipatupad ang Data Science at Machine Learning. Ang post sa blog na ito ay makatuon sa mga aklatan ng Python para sa Data Science at Machine Learning. Ito ang mga aklatan na dapat mong malaman upang makabisado ang dalawang pinaka-hyped na kasanayan sa merkado.

Upang makakuha ng malalim na kaalaman sa Artipisyal na Katalinuhan at Pag-aaral ng Makina, maaari kang magpatala nang live ni Edureka na may suporta na 24/7 at habang-buhay na pag-access.





Narito ang isang listahan ng mga paksa na sasakupin sa blog na ito:

  1. Panimula sa Data Science And Machine Learning
  2. Bakit Gumagamit ng Python Para sa Data Science And Machine Learning?
  3. Mga Python Library para sa Data Science And Machine Learning
    1. Mga aklatan ng Python para sa Statistics
    2. Mga aklatan ng Python para sa Paggunita
    3. Mga aklatan ng Python para sa Pag-aaral ng Machine
    4. Mga aklatan ng Python para sa Deep Learning
    5. Mga aklatan ng Python para sa Pagproseso ng Likas na Wika

Panimula sa Data Science And Machine Learning

Nang sinimulan ko ang aking pagsasaliksik sa Agham sa Data at Pag-aaral ng Makina, palaging may ganitong katanungang pinaka-abala sa akin! Ano ang humantong sa buzz sa paligid ng Machine Learning at Data Science?



Ang buzz na ito ay maraming kinalaman sa dami ng data na binubuo namin. Ang data ay ang fuel na kinakailangan upang humimok ng mga modelo ng Pag-aaral ng Machine at dahil nasa panahon kami ng Malaking Data malinaw kung bakit ang Agham sa Aghas ay itinuturing na pinaka-promising tungkulin sa trabaho ng panahon!

Panimula sa Data Science And Machine Learning - Data Science and Machine Learning - Python Library For Data Science And Machine Learning - EdurekaSasabihin ko na ang Data Science at Machine Learning ay mga kasanayan, at hindi lamang mga teknolohiya. Ang mga ito ang mga kasanayang kinakailangan upang makuha ang kapaki-pakinabang na pananaw mula sa data at malutas ang mga problema sa pamamagitan ng pagbuo ng mga hulang modelo.

Pormal na pagsasalita, ito ay kung paano tinukoy ang Agham ng Data at Pag-aaral ng Makina:



Ang Data Science ay ang proseso ng pagkuha ng kapaki-pakinabang na impormasyon mula sa data upang malutas ang mga problema sa totoong mundo.

Ang Machine Learning ay ang proseso ng paggawa ng isang machine na matutunan kung paano malutas ang mga problema sa pamamagitan ng pagpapakain nito ng maraming data.

pag-uuri ng paraan c ++

Ang dalawang mga domain na ito ay mabigat na magkakaugnay. Ang Machine Learning ay isang bahagi ng Data Science na gumagamit ng mga algorithm ng Machine Learning at iba pang mga diskarte sa istatistika upang maunawaan kung paano nakakaapekto ang data at lumalaki ang isang negosyo.

Upang matuto nang higit pa tungkol sa Data Science at Machine Learning maaari kang dumaan sa mga sumusunod na blog:

  1. Data Science Tutorial - Alamin ang Data Science mula sa Scratch!

Ngayon ay unawain natin kung saan ang mga aklatan ng Python ay umaangkop sa Data Science at Machine Learning.

Bakit Gumagamit ng Python Para sa Data Science & Machine Learning?

ay niraranggo sa numero 1 para sa pinakapopular na wika ng programa na ginagamit upang ipatupad ang Machine Learning at Data Science. Unawain natin kung bakit napakaraming Data Scientists at Machine Learning Engineers ang mas gusto ang Python kaysa sa anumang iba pang wika sa pagprograma.

  • Dali ng pag-aaral: Gumagamit ang Python ng isang napaka-simpleng syntax na maaaring magamit upang magpatupad ng mga simpleng pagkalkula tulad ng, ang pagdaragdag ng dalawang mga string sa mga kumplikadong proseso tulad ng pagbuo ng mga kumplikadong mga modelo ng Pag-aaral ng Machine.
  • Mas kaunting Code: Ang pagpapatupad ng Agham sa Data at Pag-aaral ng Makina ay may kasamang tonelada at toneladang mga algorithm. Salamat sa suporta ng Pythons para sa paunang natukoy na mga pakete, hindi namin kailangang i-code ang mga algorithm. At upang gawing mas madali ang mga bagay, nagbibigay ang Python ng pamamaraan na 'suriin bilang iyong code' na binabawasan ang pasanin ng pagsubok sa code.
  • Prebuilt Library: Ang Python ay mayroong 100 ng mga paunang built na aklatan upang magpatupad ng iba't ibang mga algorithm ng Pag-aaral ng Makina at Deep Learning. Kaya't sa tuwing nais mong magpatakbo ng isang algorithm sa isang hanay ng data, ang kailangan mo lang gawin ay i-install at i-load ang mga kinakailangang mga pakete sa isang solong utos. Ang mga halimbawa ng mga paunang built na aklatan ay kasama ang NumPy, Keras, Tensorflow, Pytorch, at iba pa.
  • Independent ng Platform: Ang Python ay maaaring tumakbo sa maraming mga platform kabilang ang Windows, macOS, Linux, Unix, at iba pa. Habang naglilipat ng code mula sa isang platform patungo sa isa pa maaari kang gumamit ng mga package tulad ng PyInstaller na mag-aalaga ng anumang mga isyu sa pagpapakandili.
  • Napakalaking Suporta ng Komunidad: Bukod sa isang sumusunod na malaking tagahanga, ang Python ay may maraming mga komunidad, grupo, at forum kung saan nai-post ng mga programmer ang kanilang mga pagkakamali at nagtutulungan.

Ngayon alam mo na kung bakit ang Python ay itinuturing na isa sa pinakamahusay na mga wika sa pagprograma para sa Data Science at Machine Learning, unawain natin ang iba't ibang mga aklatan ng Python para sa Data Science at Learning ng Machine.

Mga Python Library Para sa Data Science And Machine Learning

Ang nag-iisang pinakamahalagang dahilan para sa katanyagan ng Python sa larangan ng AI at Machine Learning ay ang katunayan na ang Python ay nagbibigay ng 1000s ng mga built na aklatan na may built-in na pag-andar at pamamaraan upang madaling maisagawa ang pagtatasa ng data, pagproseso, pag-aaway, pagmomodelo at iba pa sa Sa seksyon sa ibaba tatalakayin namin ang mga aklatan ng Data Science at Machine Learning para sa mga sumusunod na gawain:

  1. Pagsusuri sa Istatistika
  2. Pagpapakita sa Data
  3. Pagmomodelo ng Data at Pag-aaral ng Makina
  4. Malalim Pag-aaral
  5. Pagproseso ng Likas na Wika (NLP)

Mga Python Library Para sa Pagsusuri ng Istatistika

Ang Istatistika ay isa sa mga pinaka pangunahing batayan ng Agham ng Data at Pag-aaral ng Makina. Ang lahat ng mga Pag-aaral ng Makina at malalim na Pag-aaral ng mga algorithm, diskarte, atbp ay binuo sa mga pangunahing prinsipyo at konsepto ng Istatistika.

Upang matuto nang higit pa tungkol sa Statistics for Data Science, maaari kang dumaan sa mga sumusunod na blog:

Ang Python ay may mga toneladang aklatan para sa nag-iisang layunin ng pagsusuri sa istatistika. Sa blog na 'Python para sa Data Science at Machine Learning' na blog, magtutuon kami sa mga nangungunang mga pakete ng istatistika na nagbibigay ng mga built-in na pag-andar upang maisagawa ang pinaka-kumplikadong mga pagkalkula sa istatistika.

Narito ang isang listahan ng mga nangungunang aklatan ng Python para sa pagtatasa ng istatistika:

  1. NumPy
  2. SciPy
  3. Pandas
  4. Mga StatsModel

NumPy

o Numerical Python ay isa sa mga pinaka-karaniwang ginagamit na aklatan ng Python. Ang pangunahing tampok ng library na ito ay ang suporta nito para sa multi-dimensional arrays para sa matematika at lohikal na mga operasyon. Ang mga pagpapaandar na ibinigay ng NumPy ay maaaring magamit para sa pag-index, pag-uuri, muling pagbuo at paghahatid ng mga imahe at mga sound wave bilang isang hanay ng mga totoong numero sa multi-dimension.

Narito ang isang listahan ng mga tampok ng NumPy:

  1. Gumawa ng simple hanggang sa kumplikadong matematika at pang-agham na pagkalkula
  2. Malakas na suporta para sa mga multi-dimensional na bagay ng array at isang koleksyon ng mga pag-andar at pamamaraan upang maproseso ang mga elemento ng array
  3. Fourier na mga pagbabago at gawain para sa pagmamanipula ng data
  4. Magsagawa ng mga linear na pagkalkula ng algebra, na kinakailangan para sa mga algorithm ng Pagkatuto ng Machine tulad ng Linear Regression, Logistic Regression, Naive Bayes at iba pa.

SciPy

Itinayo sa tuktok ng NumPy, ang library ng SciPy ay isang kolektibong mga sub-package na makakatulong sa paglutas ng pinaka-pangunahing mga problema na nauugnay sa pagsusuri sa istatistika. Ginamit ang silid aklatan ng sciPy upang maproseso ang mga elemento ng array na tinukoy gamit ang library ng NumPy, kaya't madalas itong ginagamit upang makalkula ang mga equation ng matematika na hindi maaaring gawin gamit ang NumPy.

Narito ang isang listahan ng mga tampok ng SciPy:

  • Gumagana ito kasama ang mga arrays ng NumPy upang magbigay ng isang platform na nagbibigay ng maraming mga pamamaraan sa matematika tulad ng, pagsasama sa bilang at pag-optimize.
  • Mayroon itong koleksyon ng mga sub-package na maaaring magamit para sa dami ng vector, Fourier transformation, pagsasama, interpolation at iba pa.
  • Nagbibigay ng isang ganap na stack ng mga pagpapaandar ng Linear Algebra na ginagamit para sa mas advanced na mga pagkalkula tulad ng clustering gamit ang k-ibig sabihin ng algorithm at iba pa.
  • Nagbibigay ng suporta para sa pagpoproseso ng signal, mga istruktura ng data at mga numerong algorithm, lumilikha ng kalat-kalat na mga matrice, at iba pa.

Pandas

Pandas ay isa pang mahalagang istatistika ng aklatan na pangunahing ginagamit sa isang malawak na hanay ng mga larangan kabilang ang, mga istatistika, pananalapi, ekonomiya, pagtatasa ng data at iba pa. Ang library ay umaasa sa array ng NumPy para sa layunin ng pagproseso ng mga object ng data ng pandas. Ang NumPy, Pandas, at SciPy ay lubos na umaasa sa bawat isa para sa pagsasagawa ng mga pang-agham na pagkalkula, pagmamanipula ng data at iba pa.

Madalas akong tatanungin na pumili ng pinakamahusay sa mga Pandas, NumPy at SciPy, gayunpaman, mas gusto kong gamitin ang lahat sa kanila sapagkat sila ay lubos na umaasa sa bawat isa. Ang Pandas ay isa sa mga pinakamahusay na aklatan para sa pagproseso ng malalaking tipak ng data, samantalang ang NumPy ay may mahusay na suporta para sa mga multi-dimensional na arrays at ang Scipy, sa kabilang banda, ay nagbibigay ng isang hanay ng mga sub-package na nagsasagawa ng karamihan ng mga gawain sa pag-aaral ng istatistika.

Narito ang isang listahan ng mga tampok ng Pandas:

  • Lumilikha ng mabilis at mabisang mga bagay ng DataFrame na may paunang natukoy at na-customize na pag-index.
  • Maaari itong magamit upang manipulahin ang malalaking mga hanay ng data at magsagawa ng subsetting, paghihiwa ng data, pag-index at iba pa.
  • Nagbibigay ng mga built-in na tampok para sa paglikha ng mga tsart ng Excel at pagsasagawa ng mga kumplikadong gawain sa pagtatasa ng data, tulad ng mapaglarawang istatistika na pagtatasa, pagtatalo ng data, pagbabago, pagmamanipula, visualisasyon at iba pa.
  • Nagbibigay ng suporta para sa pagmamanipula ng data ng Serye ng Oras

Mga StatsModel

Itinayo sa tuktok ng NumPy at SciPy, ang StatsModels Python package ang pinakamahusay para sa paglikha ng mga modelong pang-istatistika, paghawak ng data at pagsusuri sa modelo. Kasabay ng paggamit ng mga NumPy array at pang-agham na modelo mula sa silid aklatan ng sciPy, isinasama din ito sa Pandas para sa mabisang paghawak ng data. Ang aklatan na ito ay kilalang kilala sa mga pagkalkula ng istatistika, pagsusuri sa istatistika, at paggalugad ng data.

Narito ang isang listahan ng mga tampok ng StatsModels:

  • Pinakamahusay na silid-aklatan upang magsagawa ng mga pagsusuri sa istatistika at pagsubok sa teorya na hindi matatagpuan sa mga aklatan ng NumPy at sciPy.
  • Nagbibigay ng pagpapatupad ng mga formula na R-style para sa mas mahusay na pagsusuri sa istatistika. Mas kaakibat ito sa wikang R na madalas gamitin ng mga istatistika.
  • Kadalasang ginagamit ito upang ipatupad ang mga modelo ng Pangkalahatang Linear Models (GLM) at Ordinary na hindi gaanong-square na modelo ng Linear Regression (OLM) dahil malawak itong suporta para sa mga pagkalkula ng istatistika.
  • Ang pagsusuri sa istatistika kasama ang pagsubok sa teorya (Null Theory) ay ginagawa gamit ang library ng StatsModels.

Kaya ito ang pinaka karaniwang ginagamit at ang pinaka-mabisang mga aklatan ng Python para sa pagsusuri sa istatistika. Ngayon ay makarating tayo sa bahagi ng visualization ng data sa Data Science at Machine Learning.

Mga Python Library Para sa Paggunita ng Data

Ang isang larawan ay nagsasalita ng higit sa isang libong mga salita. Narinig nating lahat ang quote na ito sa mga tuntunin ng sining, gayunpaman, totoo rin ito para sa Data Science at Learning ng Machine. Ang kilalang mga Siyentipiko ng Data at Engine Learning Engineer ay nakakaalam ng lakas ng visualization ng data, kaya't nagbibigay ang Python ng mga toneladang aklatan para sa nag-iisang layunin ng visualization.

Ang Visualization ng Data ay tungkol sa pagpapahayag ng mga pangunahing pananaw mula sa data, na epektibo sa pamamagitan ng mga grapikong representasyon. Kabilang dito ang pagpapatupad ng mga graph, tsart, mind map, heat-map, histograms, density plot, atbp, upang pag-aralan ang mga ugnayan sa pagitan ng iba't ibang mga variable ng data.

Sa blog na ito, magtutuon kami sa pinakamahusay na mga pakete ng pagpapakita ng data ng Python na nagbibigay ng mga built-in na pag-andar upang pag-aralan ang mga dependency sa pagitan ng iba't ibang mga tampok sa data.

pinakamahusay na software para sa java programming

Narito ang isang listahan ng mga nangungunang aklatan ng Python para sa visualization ng data:

  1. Matplotlib
  2. Seaborn
  3. Plotly
  4. Bokeh

Matplotlib

ay ang pinaka pangunahing pakete ng visualization ng data sa Python. Nagbibigay ito ng suporta para sa isang malawak na pagkakaiba-iba ng mga graph tulad ng histograms, mga chart ng bar, power spectra, mga error chart, at iba pa. Ito ay isang 2 Dimensional na graphic na aklatan na gumagawa ng malinaw at maigsi na mga graph na mahalaga para sa Exploratory Data Analysis (EDA).

Narito ang isang listahan ng mga tampok ng Matplotlib:

  • Ginagawang madali ng Matplotlib na magplano ng mga grap sa pamamagitan ng pagbibigay ng mga pag-andar upang pumili ng naaangkop na mga istilo ng linya, mga istilo ng font, pag-format ng mga palakol at iba pa.
  • Ang mga grap na nilikha ay tumutulong sa iyo na makakuha ng isang malinaw na pag-unawa sa mga uso, pattern, at upang makagawa ng mga ugnayan. Karaniwan silang mga instrumento para sa pangangatuwiran tungkol sa dami ng impormasyon.
  • Naglalaman ito ng module ng Pyplot na nagbibigay ng isang interface na halos katulad sa interface ng gumagamit ng MATLAB. Ito ang isa sa mga pinakamahusay na tampok ng matplotlib package.
  • Nagbibigay ng isang module na API na nakatuon sa object para sa pagsasama ng mga grap sa mga application na gumagamit ng mga tool ng GUI tulad ng Tkinter, wxPython, Qt, atbp.

Seaborn

Ang silid-aklatan ng Matplotlib ang bumubuo sa base ng Seaborn silid aklatan. Sa paghahambing sa Matplotlib, ang Seaborn ay maaaring magamit upang lumikha ng mas nakakaakit at naglalarawang mga statistikal na grap. Kasama ng malawak na mga suporta para sa visualization ng data, ang Seaborn ay may kasamang isang built-in na data set oriented API para sa pag-aaral ng mga ugnayan sa pagitan ng maraming mga variable.

Narito ang isang listahan ng mga tampok ng Seaborn:

  • Nagbibigay ng mga pagpipilian para sa pag-aaral at pag-visualize ng univariate at bivariate mga puntos ng data at para sa paghahambing ng data sa iba pang mga subset ng data.
  • Suporta para sa awtomatikong pagtatantya ng istatistika at graphic na representasyon ng mga modelo ng linear regression para sa iba't ibang mga uri ng variable na target.
  • Bumubuo ng mga kumplikadong visualization para sa pagbubuo ng mga multi-plot grid sa pamamagitan ng pagbibigay ng mga pagpapaandar na nagsasagawa ng mga high-level na abstraction.
  • Ay may maraming mga built-in na tema para sa estilo at paglikha ng mga matplotlib na mga graph

Plotly

Ang Ploty ay isa sa pinaka alam na mga graphic na aklatan ng Python. Nagbibigay ito ng mga interactive na grap para sa pag-unawa sa mga dependency sa pagitan ng mga variable ng target at tagahula. Maaari itong magamit upang pag-aralan at mailarawan ang istatistika, pampinansyal, komersyo at pang-agham na data upang makagawa ng malinaw at maigsi na mga graph, sub-plot, heatmap, 3D chart at iba pa.

Narito ang isang listahan ng mga tampok na ginagawang isa sa pinakamagagaling na aklatan ng visualization ang Ploty:

  • Dumating ito ng higit sa 30 mga uri ng tsart, kasama ang mga 3D chart, mga pang-agham at istatistikal na grapiko, mga mapa ng SVG, at iba pa para sa isang mahusay na natukoy na visualization.
  • Sa Ploty's Python API, maaari kang lumikha ng mga pampubliko / pribadong dashboard na binubuo ng mga plot, grap, teksto at mga imaheng web.
  • Ang mga visualization na nilikha gamit ang Ploty ay naka-serialize sa format na JSON, dahil kung saan madali mong mai-access ang mga ito sa iba't ibang mga platform tulad ng R, MATLAB, Julia, atbp.
  • Dumating ito sa isang built-in na API na tinatawag na Plotly Grid na nagbibigay-daan sa iyo upang direktang mag-import ng data sa kapaligiran ng Ploty.

Bokeh

Ang isa sa mga pinaka interactive na aklatan sa Python, maaaring magamit ang Bokeh upang bumuo ng mga naglalarawang graphic na representasyon para sa mga web browser. Madali nitong mapoproseso ang mga nakakatawang mga dataset at bumuo ng maraming nalalaman na mga grap na makakatulong sa pagganap ng malawak na EDA. Nagbibigay ang Bokeh ng pinaka-mahusay na natukoy na pag-andar upang makabuo ng mga interactive na plot, dashboard, at application ng data.

Narito ang isang listahan ng mga tampok ng Bokeh:

  • Tumutulong sa iyo na mabilis na makalikha ng mga kumplikadong statistiko na grap sa paggamit ng mga simpleng utos
  • Sinusuportahan ang mga output sa anyo ng HTML, notebook, at server. Sinusuportahan din nito ang maraming mga bindings ng wika kabilang ang, R, Python, lua, Julia, atbp.
  • Ang flask at django ay isinama din sa Bokeh, kaya maaari mo ring ipahayag ang mga visualization sa mga app na ito din
  • Nagbibigay ito ng suporta upang ibahin ang visualization na nakasulat sa iba pang mga silid-aklatan tulad ng matplotlib, seaborn, ggplot, atbp

Kaya't ito ang pinaka-kapaki-pakinabang na mga library ng Python para sa visualization ng data. Talakayin natin ngayon ang nangungunang mga aklatan ng Python para sa pagpapatupad ng buong proseso ng Pag-aaral ng Machine.

Mga Python Library Para sa Pag-aaral ng Makina

Ang paglikha ng mga modelo ng Pag-aaral ng Machine na maaaring tumpak na mahulaan ang kinalabasan o malutas ang isang tiyak na problema ang pinakamahalagang bahagi ng anumang proyekto sa Data Science.

Ang pagpapatupad ng Machine Learning, Deep Learning, atbp, ay nagsasangkot ng pag-cod ng 1000 ng mga linya ng code at maaari itong maging mas mahirap kapag nais mong lumikha ng mga modelo na malulutas ang mga kumplikadong problema sa pamamagitan ng Neural Networks. Ngunit sa kabutihang palad hindi namin kailangang mag-code ng anumang mga algorithm dahil ang Python ay may kasamang maraming mga pakete para lamang sa pagpapatupad ng mga diskarte at algorithm sa Pag-aaral ng Machine.

Sa blog na ito, magtutuon kami sa mga nangungunang mga package sa Pag-aaral ng Machine na nagbibigay ng mga built-in na pag-andar upang ipatupad ang lahat ng mga algorithm ng Pagkatuto ng Machine.

Narito ang isang listahan ng mga nangungunang aklatan ng Python para sa Pag-aaral ng Machine:

  1. Scikit-matuto
  2. XGBoost
  3. Eli5

Scikit-matuto

Isa sa mga pinaka kapaki-pakinabang na aklatan ng Python, Scikit-matuto ay ang pinakamahusay na silid-aklatan para sa pagmomodelo ng data at pagsusuri ng modelo. Ito ay may mga tonelada at tonelada ng mga pagpapaandar para sa nag-iisang layunin ng paglikha ng isang modelo. Naglalaman ito ng lahat ng mga algorithm na Pinangangasiwaan at Hindi sinusuportahan ng Machine Learning at mayroon din itong mahusay na natukoy na mga pag-andar para sa Pag-aaral ng ensemble at pagpapalakas ng Pag-aaral ng Makina.

Narito ang isang listahan ng mga tampok ng Scikit-alamin:

  • Nagbibigay ng isang hanay ng mga karaniwang dataset upang matulungan kang makapagsimula sa Pag-aaral ng Machine. Halimbawa, ang bantog na dataset ng Iris at ang dataset ng Mga Bahay ng Mga Bahay sa bahay ay bahagi ng aklatan na natutunan ng Scikit.
  • Mga built-in na pamamaraan upang maisakatuparan ang parehong Pinangangasiwaan at Walang suportadong Pag-aaral ng Makina. Kasama rito ang mga problema sa paglutas, pag-cluster, pag-uuri, pagbabalik, at mga anomalya na pagkakita ng mga problema.
  • May mga built-in na pag-andar para sa tampok na pagkuha at tampok na pagpipilian na makakatulong sa pagtukoy ng mga makabuluhang katangian sa data.
  • Nagbibigay ito ng mga pamamaraan upang maisagawa ang cross-validation para sa pagtantya sa pagganap ng modelo at mayroon ding mga pag-andar para sa pag-tune ng parameter upang mapabuti ang pagganap ng modelo.

XGBoost

Ang XGBoost na nangangahulugang Extreme Gradient Boosting ay isa sa mga pinakamahusay na pakete ng Python para sa pagganap ng Boosting Machine Learning. Ang mga aklatan tulad ng LightGBM at CatBoost ay pantay din na nilagyan ng mahusay na natukoy na mga pag-andar at pamamaraan. Ang library na ito ay pangunahing itinayo para sa layunin ng pagpapatupad ng mga gradient boosting machine na ginagamit upang mapagbuti ang pagganap at kawastuhan ng Mga Modelong Pag-aaral ng Machine.

Narito ang ilan sa mga pangunahing tampok nito:

python def __init__
  • Ang silid-aklatan ay orihinal na nakasulat sa C ++, ito ay itinuturing na isa sa pinakamabilis at mabisang aklatan upang mapagbuti ang pagganap ng mga modelo ng Pag-aaral ng Machine.
  • Ang pangunahing XGBoost algorithm ay parallelizable at maaari itong epektibo na gamitin ang lakas ng mga multi-core computer. Ginagawa din nito ang library na sapat na malakas upang maproseso ang napakalaking mga hanay ng data at gumana sa isang network ng mga hanay ng data.
  • Nagbibigay ng panloob na mga parameter para sa pagsasagawa ng cross-validation, pag-tune ng parameter, regularisasyon, paghawak ng mga nawawalang halaga, at nagbibigay din ng mga katapat na natutunan na API.
  • Ang library na ito ay madalas na ginagamit sa mga nangungunang kumpetisyon sa Data Science at Machine Learning dahil palagi itong napatunayan na mas mahusay kaysa sa iba pang mga algorithm.

ElI5

Ang ELI5 ay isa pang library ng Python na pangunahing nakatuon sa pagpapabuti ng pagganap ng mga modelo ng Pag-aaral ng Machine. Ang library na ito ay medyo bago at karaniwang ginagamit kasama ng XGBoost, LightGBM, CatBoost at iba pa upang mapalakas ang kawastuhan ng mga modelo ng Pag-aaral ng Machine.

Narito ang ilan sa mga pangunahing tampok nito:

  • Nagbibigay ng pagsasama sa Scikit-natutunan na pakete upang ipahayag ang mga importasyon ng tampok at ipaliwanag ang mga hula ng mga puno ng pagpapasya at mga ensemble na nakabatay sa puno.
  • Sinusuri at ipinapaliwanag nito ang mga hula na ginawa ng XGBClassifier, XGBRegressor, LGBMClassifier, LGBMRegressor, CatBoostClassifier, CatBoostRegressor at catboost.CatBoost.
  • Nagbibigay ito ng suporta para sa pagpapatupad ng maraming mga algorithm upang siyasatin ang mga modelo ng mga itim na kahon na kasama ang module na TextExplainer na nagbibigay-daan sa iyo upang ipaliwanag ang mga hula na ginawa ng mga pinag-uuri ng teksto.
  • Nakakatulong ito sa pagsusuri mga timbang at hula ng scikit-alamin ang Mga Pangkalahatang Linya ng Modelo (GLM) na kasama ang mga linear regressor at classifier.

Mga Python Library Para sa Malalim na Pag-aaral

Ang pinakamalaking pag-unlad sa Pag-aaral ng Machine at Artipisyal na Katalinuhan ay sa pamamagitan ng Deep Learning. Sa pagpapakilala sa Deep Learning, posible na ngayon na bumuo ng mga kumplikadong modelo at iproseso ang mga nakakahiyang mga hanay ng data. Sa kabutihang palad, ang Python ay nagbibigay ng pinakamahusay na mga package sa Deep Learning na makakatulong sa pagbuo ng mabisang Neural Networks.

Sa blog na ito, magtutuon kami sa nangungunang mga package sa Deep Learning na nagbibigay ng mga built-in na pag-andar upang magpatupad ng magkakaugnay na Neural Networks.

Narito ang isang listahan ng mga nangungunang aklatan ng Python para sa Deep Learning:

  1. TensorFlow
  2. Pytorch
  3. Mahirap

Tensorflow

Ang isa sa mga pinakamahusay na aklatan ng Python para sa Deep Learning, ang TensorFlow ay isang open-source na aklatan para sa programa ng dataflow sa iba't ibang mga gawain. Ito ay isang simbolikong library ng matematika na ginagamit para sa pagbuo ng malakas at tumpak na mga neural network. Nagbibigay ito ng isang intuitive multiplatform na interface ng programa na lubos na nasusukat sa isang malawak na domain ng mga patlang.

Narito ang ilang pangunahing tampok ng TensorFlow:

  • Pinapayagan kang bumuo at magsanay ng maraming mga neural network na makakatulong upang mapaunlakan ang mga malalaking proyekto at hanay ng data.
  • Kasabay ng suporta para sa Neural Networks, nagbibigay din ito ng mga pag-andar at pamamaraan upang maisagawa ang pagsusuri sa istatistika. Halimbawa, kasama ang mga built-in na pag-andar para sa paglikha ng mga probabilistic na modelo at Bayesian Networks tulad ng Bernoulli, Chi2, Uniform, Gamma, atbp.
  • Nagbibigay ang silid-aklatan ng mga layered na bahagi na nagsasagawa ng mga layered na pagpapatakbo sa mga timbang at bias at pinapabuti rin ang pagganap ng modelo sa pamamagitan ng pagpapatupad ng mga diskarteng regularisasyon tulad ng normalisasyon ng batch, dropout, atbp.
  • Dumating ito sa isang Visualizer na tinatawag na TensorBoard na lumilikha ng mga interactive na grap at visual upang maunawaan ang mga dependency ng mga tampok sa data.

Pytorch

ay isang open-source, pakete sa pag-compute ng pang-agham na batay sa Python na ginagamit upang ipatupad ang mga diskarte sa Deep Learning at Neural Networks sa malalaking mga dataset. Ang library na ito ay aktibong ginagamit ng Facebook upang makabuo ng mga neural network na makakatulong sa iba't ibang mga gawain tulad ng pagkilala sa mukha at auto-tagging.

Narito ang ilang mga pangunahing tampok ng Pytorch:

  • Nagbibigay ng madaling gamitin na mga API upang isama sa iba pang mga framework ng agham ng data at Pag-aaral ng Machine.
  • Tulad ng NumPy, ang Pytorch ay nagbibigay ng mga multi-dimensional na arrays na tinatawag na Tensors, na hindi tulad ng NumPy, maaari pa ring magamit sa isang GPU.
  • Hindi lamang ito magagamit upang mag-modelo ng malakihang mga neural network nagbibigay din ito ng isang interface, na may higit sa 200+ pagpapatakbo ng matematika para sa pagsusuri sa istatistika.
  • Lumikha ng Mga Dynamic na Computation Graph na nagtataguyod ng mga pabuong graphic sa bawat punto ng pagpapatupad ng code. Ang mga grap na ito ay makakatulong sa pagtatasa ng serye ng oras habang tinataya ang mga benta sa real-time.

Mahirap

Ang Keras ay itinuturing na isa sa pinakamahusay na mga aklatan ng Deep Learning sa Python. Nagbibigay ito ng buong suporta para sa pagbuo, pagsusuri, pagsusuri at pagpapabuti ng Neural Networks. Ang Keras ay itinayo sa tuktok ng mga aklatan ng Theano at TensorFlow Python na nagbibigay ng mga karagdagang tampok upang makabuo ng mga kumplikado at malakihang mga modelo ng Deep Learning.

Narito ang ilang mga pangunahing tampok ng Keras:

  • Nagbibigay ng suporta upang mabuo ang lahat ng mga uri ng Neural Networks, ibig sabihin, ganap na konektado, convolutional, pooling, paulit-ulit, pag-embed, atbp. Para sa malalaking hanay ng data at mga problema, ang mga modelong ito ay maaaring karagdagang pagsamahin upang lumikha ng isang buong Neural Network
  • Mayroon itong mga built-in na pag-andar upang maisagawa ang mga compute ng neural network tulad ng pagtukoy ng mga layer, layunin, pagpapaandar ng pag-aktibo, mga optimizer at isang host ng mga tool upang gawing mas madali ang pagtatrabaho sa data ng imahe at teksto.
  • Ito ay may kasamang maraming paunang pagproseso mga dataset at may kasanayang mga modelo kabilang ang, MNIST, VGG, Inception, SqueezeNet, ResNet, atbp.
  • Madali itong mapalawak at nagbibigay ng suporta upang magdagdag ng mga bagong module na may kasamang mga pagpapaandar at pamamaraan.

Mga Aklatan ng Python Para sa Pagproseso ng Likas na Wika

Naisip mo ba kung paano maayos na hinulaan ng Google kung ano ang iyong hinahanap? Ang teknolohiya sa likod ng Alexa, Siri, at iba pang Chatbots ay Likas na Pagproseso ng Wika. Malaki ang papel ng NLP sa pagdidisenyo ng mga sistemang nakabatay sa AI na makakatulong sa paglalarawan ng pakikipag-ugnayan sa pagitan ng wika ng tao at mga computer.

Sa blog na ito, magtutuon kami sa nangungunang mga pakete sa Pagproseso ng Likas na Wika na nagbibigay ng mga built-in na pag-andar upang magpatupad ng mga mataas na antas na mga sistemang nakabatay sa AI.

Narito ang isang listahan ng mga nangungunang aklatan ng Python para sa Pagproseso ng Likas na Wika:

  1. NLTK
  2. SpaCy
  3. Gensim

NLTK (Likas na Wika ToolKit)

Ang NLTK ay itinuturing na pinakamahusay na pakete ng Python para sa pagsusuri ng wika at pag-uugali ng tao. Ginusto ng karamihan ng mga Data Scientist, ang library ng NLTK ay nagbibigay ng mga madaling gamiting interface na naglalaman ng higit sa 50 corpora at mga mapagkukunan ng leksikal na makakatulong sa paglalarawan ng mga pakikipag-ugnayan ng tao at pagbuo ng mga sistemang Batay sa AI tulad ng mga engine ng rekomendasyon.

Narito ang ilang pangunahing tampok sa library ng NLTK:

  • Nagbibigay ng isang hanay ng mga pamamaraan ng pagproseso ng data at teksto para sa pag-uuri, tokenisasyon, pagbubuo, pag-tag, pag-parse, at pangangatwirang semantiko para sa pagtatasa ng teksto.
  • Naglalaman ng mga pambalot para sa mga aklatan sa antas ng pang-industriya na NLP upang makabuo ng mga nagkakaugnay na system na makakatulong sa pag-uuri ng teksto at paghanap ng mga kaugaliang pang-asal at pattern sa pagsasalita ng tao
  • Dumating ito sa isang komprehensibong patnubay na naglalarawan sa pagpapatupad ng computational linguistics at isang kumpletong gabay sa dokumentasyon ng API na tumutulong sa lahat ng mga baguhan upang makapagsimula sa NLP.
  • Mayroon itong isang malaking pamayanan ng mga gumagamit at propesyonal na nagbibigay ng komprehensibong mga tutorial at mabilis na gabay upang malaman kung paano maisagawa ang computational linguistics gamit ang Python.

spaCy

Ang spaCy ay isang libre, open-source na silid-aklatan ng Python para sa pagpapatupad ng mga advanced na diskarte sa Likas na Wika (NLP). Kapag nagtatrabaho ka sa maraming teksto mahalaga na maunawaan mo ang kahulugan ng morphological ng teksto at kung paano ito maiuri upang maunawaan ang wika ng tao. Ang mga gawaing ito ay maaaring madaling makamit sa pamamagitan ng spaCY.

Narito ang ilang pangunahing tampok sa spaCY library:

  • Kasabay ng mga pagkwenta sa wika, ang spaCy ay nagbibigay ng magkakahiwalay na mga module upang bumuo, sanayin at subukan ang mga modelong pang-istatistika na mas makakatulong sa iyo na maunawaan ang kahulugan ng isang salita.
  • May kasamang iba't ibang mga built-in na lingguwistiko na anotasyon upang matulungan kang pag-aralan ang istruktura ng gramatika ng isang pangungusap. Hindi lamang ito nakakatulong sa pag-unawa sa pagsubok, ngunit tumutulong din ito sa paghahanap ng mga ugnayan sa pagitan ng iba't ibang mga salita sa isang pangungusap.
  • Maaari itong magamit upang mag-apply ng tokenization sa mga kumplikado, naka-pugad na mga token na naglalaman ng mga pagdadaglat at maraming mga bantas.
  • Kasabay ng pagiging lubos na matatag at mabilis, nagbibigay ang spaCy ng suporta para sa 51+ mga wika.

Gensim

Ang Gensim ay isa pang open-source na pakete ng Python na na-modelo upang makuha ang mga paksa ng semantiko mula sa malalaking mga dokumento at teksto upang maproseso, pag-aralan at hulaan ang pag-uugali ng tao sa pamamagitan ng mga modelong pang-istatistika at pagkalkula ng wika. Ito ay may kakayahang iproseso ang nakakapangit na data, hindi alintana kung ang data ay hilaw at hindi nakaayos.

Narito ang ilang pangunahing tampok ng Genism:

  • Maaari itong magamit upang makabuo ng mga modelo na maaaring mabisang maiuri ang mga dokumento sa pamamagitan ng pag-unawa sa statistic semantiko ng bawat salita.
  • Dumarating ito sa mga algorithm sa pagproseso ng teksto tulad ng Word2Vec, FastText, Latent Semantic Analysis, atbp na pinag-aaralan ang mga pattern ng pagsasama-sama sa istatistika sa dokumento upang ma-filter ang mga hindi kinakailangang salita at bumuo ng isang modelo na may mga makabuluhang tampok lamang.
  • Nagbibigay ng I / O wrappers at mga mambabasa na maaaring mag-import at suportahan ang isang malawak na hanay ng mga format ng data.
  • Ito ay may mga simple at madaling gamitin na interface na madaling magamit ng mga nagsisimula. Ang curve ng pag-aaral ng API ay medyo mababa din na nagpapaliwanag kung bakit maraming mga developer ang gusto ng library na ito.

Ngayong alam mo na ang nangungunang mga aklatan ng Python para sa Data Science at Machine Learning, sigurado akong interesado kang malaman ang higit pa. Narito ang ilang mga blog na makakatulong sa iyong makapagsimula:

Kung nais mong magpatala para sa isang kumpletong kurso sa Artipisyal na Katalinuhan at Pag-aaral ng Makina, ang Edureka ay may espesyal na na-curate iyon ay magpapasikat sa iyo sa mga diskarteng tulad ng Pinangangasiwaang Pag-aaral, Hindi Pinapamahalaang Pag-aaral, at Pagproseso ng Likas na Wika. Kabilang dito ang pagsasanay sa pinakabagong mga pagsulong at panteknikal na diskarte sa Artipisyal na Pag-intelektuwal at Pag-aaral ng Makina tulad ng Deep Learning, Mga Modelong Grapiko at Pag-aaral ng Patatag.