Tutorial sa Python Pandas: Alamin ang Pandas para sa Pagsusuri ng Data



Sa tutorial na ito ng Python Pandas, malalaman mo ang iba't ibang mga pagpapatakbo ng Pandas. Nagsasama rin ito ng isang use-case, kung saan maaari mong pag-aralan ang data gamit ang Pandas.

Sa blog na ito, tatalakayin namin ang pagtatasa ng data gamit ang Pandas sa Python.Ngayon, ay isang mainit na kasanayan sa industriya na nalampasan ang PHP noong 2017 at C # sa 2018 sa mga tuntunin ng pangkalahatang kasikatan at paggamit.Bago pag-usapan ang tungkol sa Pandas, dapat na maunawaan ng isa ang konsepto ng mga Numpy arrays. Bakit? Dahil ang Pandas ay isang bukas na mapagkukunan ng software library na kung saan ay itinayo sa tuktok ng . Sa Tutorial ng Python Pandas na ito, dadalhin kita sa mga sumusunod na paksa, na magsisilbing batayan para sa paparating na mga blog:

Magsimula na tayo. :-)





Ano ang Python Pandas?

Ginagamit ang pandas para sa pagmamanipula ng data, pagsusuri at paglilinis. Ang mga Python pandas ay angkop para sa iba't ibang mga uri ng data, tulad ng:

  • Tabular na data na may mga haligi na nai-type nang magkakaiba
  • Nag-order at hindi naayos ang data ng serye ng oras
  • Arbitrary data ng matrix na may mga label ng row at haligi
  • Hindi naka-label na data
  • Anumang iba pang anyo ng mga hanay ng data ng pagmamasid o statistic

Paano i-install ang Pandas?

Upang mai-install ang Python Pandas, pumunta sa iyong linya ng utos / terminal at i-type ang 'pip install pandas' o kung hindi man, kung mayroon kang naka-install na anaconda sa iyong system, i-type lamang ang 'conda install pandas'. Kapag nakumpleto na ang pag-install, pumunta sa iyong IDE (Jupyter, PyCharm atbp.) At i-import lamang ito sa pamamagitan ng pagta-type: 'import pandas as pd'



Sumusulong sa tutorial ng Python pandas, tingnan natin ang ilan sa mga operasyon nito:

Mga Pagpapatakbo ng Python Pandas

Gamit ang Python pandas, maaari kang magsagawa ng maraming mga operasyon na may serye, mga frame ng data, nawawalang data, pangkat ayon sa iba pa. Ang ilan sa mga karaniwang operasyon para sa pagmamanipula ng data ay nakalista sa ibaba:



Mga PandasOperasyon - Tutorial sa Python Pandas - Edureka

Ngayon, ipaunawa sa amin ang lahat ng mga pagpapatakbo na ito isa-isa.

Paghiwa ng Data Frame

Upang maisagawa ang pagpipiraso sa data, kailangan mo ng isang frame ng data. Huwag magalala, ang frame ng data ay isang 2-dimensional na istraktura ng data at isang pinakakaraniwang object ng pandas. Kaya muna, gumawa tayo ng isang frame ng data.

Sumangguni sa ibaba code para sa pagpapatupad nito sa PyCharm:

talahanayan sa loob ng isang talahanayan html
i-import ang mga pandas bilang pd XYZ_web = {'Araw': [1,2,3,4,5,6], 'Mga Bisita': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

Paglabas :

Mga Bisita ng Bounce_Rate Day 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

Ang code sa itaas ay babaguhin ang isang diksyunaryo sa isang pandas Data Frame kasama ang index sa kaliwa. Ngayon, hayain natin ang isang partikular na haligi mula sa frame ng data na ito. Sumangguni sa imahe sa ibaba:

print (df.head (2))

Output:

Mga Bisita ng Bounce_Rate Day 0 20 1 1000 1 20 2 700

Katulad nito, kung nais mo ang huling dalawang hilera ng data, i-type ang utos sa ibaba:

print (df.tail (2))

Output:

Mga Bisita ng Bounce_Rate Day 4 10 5 400 5 34 6 350

Susunod sa tutorial ng Python Pandas, ipaalam sa amin ang pagsasama at pagsali.

Pagsasama-sama at Pagsali

Sa pagsasama, maaari mong pagsamahin ang dalawang mga frame ng data upang bumuo ng isang solong frame ng data. Maaari ka ring magpasya kung aling mga haligi ang nais mong gawing karaniwan. Hayaan mong ipatupad ko iyon nang praktikal, unang lilikha ako ng tatlong mga frame ng data, na mayroong ilang mga pares ng key-halaga at pagkatapos ay pagsamahin ang mga frame ng data. Sumangguni sa code sa ibaba:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Output:

mag-import ng mga pandas bilang pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, index = [2005, 2006,2007,2008]) pinagsama = pd.merge (df1, df2) naka-print (pinagsama)

Tulad ng nakikita mo sa itaas, ang dalawang mga frame ng data ay nagsama sa isang solong frame ng data. Ngayon, maaari mo ring tukuyin ang haligi na nais mong gawing karaniwan. Halimbawa, gusto kong maging pangkaraniwan ang haligi na 'HPI' at para sa lahat, gusto ko ng magkakahiwalay na mga haligi. Kaya, hayaan mo akong ipatupad iyon praktikal:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) pinagsama = pd.merge (df1, df2, on = 'HPI') naka-print (pinagsama)

Output:

IND_GDP Int_Rate Low_Tier_HPI Kawalan ng trabaho 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

Susunod, intindihin natin pagsali sa tutorial ng sawa pandas. Ito ay isa pang maginhawang pamamaraan upang pagsamahin ang dalawang magkakaibang nai-index na mga dataframe sa isang solong resulta ng dataframe. Ito ay halos kapareho sa pagpapatakbo na 'pagsasama', maliban sa pagsasama ng operasyon ay nasa 'index' sa halip na 'mga haligi'. Ipatupad natin ito nang praktikal.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Walang trabaho': [1,3,5,6]}, index = [2001, 2003,2004,2004]) sumali = df1. sumali (df2) mag-print (sumali)

Output:

IND_GDP Int_Rate Low_Tier_HPI Kawalan ng trabaho 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

Tulad ng napapansin mo sa output sa itaas, sa taong 2002 (index), walang halaga na nakakabit sa mga haligi na 'low_tier_HPI' at 'kawalan ng trabaho', samakatuwid ito ay nai-print NaN (Hindi isang Numero). Mamaya sa 2004, ang parehong mga halaga ay magagamit, samakatuwid ito ay naka-print ang kani-kanilang mga halaga.

Maaari kang dumaan sa pag-record na ito ng tutorial ng Python Pandas kung saan ipinaliwanag ng aming tagapagturo ang mga paksa sa isang detalyadong pamamaraan na may mga halimbawa na makakatulong sa iyo na maunawaan ang konsepto na ito nang mas mahusay.

Python Para sa Pagsusuri ng Data | Tutorial sa Python Pandas | Pagsasanay sa Python | Edureka


Patuloy sa tutorial ng Python pandas, ipaunawa sa amin kung paano pagsamahin ang dalawang mga frame ng data ng data.

Pagtatapos

Karaniwang pagdidikit ng pagdudugtong ang mga dataframe nang magkasama. Maaari mong piliin ang sukat kung saan mo nais na magsama. Para doon, gamitin lamang ang 'pd.concat' at ipasa sa listahan ng mga dataframe upang magkakasama. Isaalang-alang ang halimbawa sa ibaba.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Output:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Tulad ng nakikita mo sa itaas, ang dalawang mga dataframe ay nakadikit sa isang solong dataframe, kung saan nagsisimula ang index mula 2001 hanggang sa 2008. Susunod, maaari mo ring tukuyin ang axis = 1 upang sumali, pagsamahin o kanselahin kasama ang mga haligi. Sumangguni sa code sa ibaba:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axis = 1) print (concat)

Output:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN NaN 2003 70.0 45.0 2.0 NaN NaN NaN 2004 60.0 67.0 3.0 NaN NaN NaN 2005 NaN NaN NaN 80.0 50.0 2.0 2006 NaN NaN NaN 90.0 45.0 1.0 2007 NaN NaN NaN 70.0 45.0 2.0 2008 NaN NaN NaN 60.0 67.0 3.0

Tulad ng maaari mo sa itaas, maraming mga nawawalang halaga. Nangyayari ito dahil walang mga halaga ang mga dataframe para sa lahat ng mga index na nais mong pagsamahin. Samakatuwid, dapat mong siguraduhin na mayroon ka ng lahat ng impormasyon na lining up nang tama kapag sumali ka o nagsama sa axis.

Palitan ang index

Susunod sa tutorial ng python pandas, mauunawaan namin kung paano baguhin ang mga halaga ng index sa isang dataframe. Halimbawa, gumawa tayo ng isang dataframe na may ilang mga pangunahing halaga ng mga pares sa isang diksyunaryo at baguhin ang mga halaga ng index. Isaalang-alang ang halimbawa sa ibaba:

Tingnan natin kung paano ito talagang nangyayari:

i-import ang mga pandas bilang pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Mga Bisita': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Day', inplace = True) print (df)

Output:

Mga Bounce_Rate Visitors Day 1 20 200 2 45 100 3 60 230 4 10 300

Tulad ng mapapansin mo sa output sa itaas, ang halaga ng index ay binago patungkol sa haligi na 'Araw'.

Baguhin ang Mga Header ng Column

Baguhin natin ngayon ang mga header ng haligi sa tutorial na ito ng python pandas. Gawin natin ang parehong halimbawa, kung saan ko babaguhin ang header ng haligi mula sa 'Mga Bisita' patungo sa 'Mga Gumagamit'. Kaya, hayaan mo akong ipatupad ito nang praktikal.

i-import ang mga pandas bilang pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Mga Bisita': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (mga haligi = {'Mga Bisita': 'Mga Gumagamit'}) naka-print (df)

Output:

Mga Gumagamit ng Bounce_Rate Day 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Tulad ng nakikita mo sa itaas, ang header ng hanay na 'Mga Bisita' ay binago sa 'Mga Gumagamit'. Susunod sa python pandas tutorial, magsagawa tayo ng data munging.

Data Munging

Sa Data munging, maaari mong mai-convert ang isang partikular na data sa isang iba't ibang format. Halimbawa, kung mayroon kang isang .csv file, maaari mo itong i-convert sa .html o anumang iba pang format ng data. Kaya, hayaan mo akong ipatupad ito nang praktikal.

mag-import ng pandas bilang pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-kabataan-kawalan ng trabahoAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Sa sandaling patakbuhin mo ang code na ito, isang HTML file ay malilikha na pinangalanang 'edu.html'. Maaari mong direktang kopyahin ang landas ng file at i-paste ito sa iyong browser na nagpapakita ng data sa isang format na HTML. Sumangguni sa screenshot sa ibaba:


Susunod sa tutorial ng python pandas, tingnan natin ang isang use-case na nagsasalita tungkol sa pandaigdigang kawalan ng trabaho ng kabataan.

Tutorial sa Python Pandas: Gumamit ng Kaso upang Pag-aralan ang Data ng Kawalan ng Trabaho ng Kabataan

Pahayag ng Suliranin :Bibigyan ka ng isang dataset na binubuo ng porsyento ng mga walang trabaho na kabataan sa buong mundo mula 2010 hanggang 2014. Kailangan mong gamitin ang dataset na ito at hanapin ang pagbabago sa porsyento ng kabataan para sa bawat bansa mula 2010-2011.

Una, ipaunawa sa amin ang dataset na naglalaman ng mga haligi bilang Pangalan ng Bansa, Country Code at ang taon mula 2010 hanggang 2014. Ngayon gamit ang pandas, gagamitin namin ang 'pd.read_csv' upang basahin ang .csv file format file.
Sumangguni sa screenshot sa ibaba:

Tayo ay magpatuloy at magsagawa ng pagtatasa ng data kung saan malalaman natin ang porsyento ng pagbabago sa mga walang trabaho na kabataan sa pagitan ng 2010 hanggang 2011. Pagkatapos ay makikita natin ang parehong paggamit silid-aklatan, na kung saan ay isang malakas na silid-aklatan para sa pagpapakita sa Python. Maaari itong magamit sa mga script ng Python, shell, web application server at iba pang mga toolkit ng GUI. Maaari mong gamitin ang magbasa nang higit pa dito:

Ngayon, ipatupad natin ang code sa PyCharm:

import pandas bilang pd import matplotlib.pyplot bilang plt mula sa matplotlib import style style.use ('fivethirtyeight') bansa = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-kabataan-kawalan ng trabahoAPI_ILO_country_YU.csv', index_col = 0) df = bansa. ulo (5) df = df.set_index (['Country Code']) sd = sd.reindex (mga haligi = ['2010', '2011']) db = sd.diff (axis = 1) db.plot (mabait = 'bar') plt.show ()

Tulad ng nakikita mo sa itaas, isinagawa ko ang pagsusuri sa nangungunang 5 mga hilera ng dataframe ng bansa. Susunod, tinukoy ko ang isang halaga ng index na 'Country Code' at pagkatapos ay muling i-index ang haligi sa 2010 at 2011. Pagkatapos, mayroon kaming isa pang dataframe db, na naglilimbag ng pagkakaiba sa pagitan ng dalawang haligi o ng porsyento ng pagbabago ng mga walang trabaho na kabataan mula 2010 hanggang 2011. Sa wakas, nagplano ako ng isang barplot gamit ang Matplotlib library sa Python.


Ngayon kung napansin mo sa balangkas sa itaas, sa Afghanistan (AFG) sa pagitan ng 2010 hanggang 2011, nagkaroon ng pagtaas sa mga walang trabaho na kabataan na tinatayang. 0.25%. Pagkatapos sa Angola (AGO), mayroong isang negatibong kalakaran na nangangahulugang nabawasan ang porsyento ng mga walang trabaho na kabataan. Katulad nito, maaari mong maisagawa ang pagtatasa sa iba't ibang mga hanay ng data.

Inaasahan kong ang aking blog sa 'Python Pandas Tutorial' ay nauugnay para sa iyo. Upang makakuha ng malalim na kaalaman sa sawa kasama ang iba't ibang mga application nito, maaari kang magpatala nang live ni Edureka na may suporta na 24/7 at habang-buhay na pag-access.

May tanong ba sa amin? Mangyaring banggitin ito sa seksyon ng mga komento ng 'Python Pandas tutorial' blog na ito at babalikan ka namin sa lalong madaling panahon.