Pandas

Pandas Library๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ์ •๋ฆฌํ•˜๋Š”๋ฐ ์ตœ์ ํ™”๋œ ๋„๊ตฌ์ด๋ฉฐ, ์˜คํ”ˆ์†Œ์Šค์ด๋‹ค. Pandas๋ฅผ ์ด์šฉํ•˜๋ฉด ๋ฐ์ดํ„ฐ๊ณผํ•™์˜ 80% ~ 90% ์—…๋ฌด๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์†Œ์Šค๋กœ๋ถ€ํ„ฐ ์ˆ˜์ง‘ํ•˜๋Š” ๋ฐ์ดํ„ฐ๋Š” ํ˜•ํƒœ์™€ ์†์„ฑ์ด ๋งค์šฐ ๋‹ค์–‘ํ•˜๋‹ค. ์„œ๋กœ ๋‹ค๋ฅธ ํ˜•์‹์„ ๊ฐ–๋Š” ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋™์ผํ•œ ํ˜•์‹์„ ๊ฐ–๋Š” ๊ตฌ์กฐ๋กœ ํ†ตํ•ฉํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

Pandas Library๋Š” ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ class์™€ ๋‚ด์žฅ ํ•จ์ˆ˜๋กœ ๊ตฌ์„ฑ๋˜์–ด์žˆ๋‹ค.

ํ™˜๊ฒฝ์„ค์ •

Mac OS์—์„œ pyenv, virtual-env ๊ฐ€์ƒ ํ™˜๊ฒฝ์— ํ™˜๊ฒฝ์„ค์ •์„ ํ•  ๊ฒƒ์ด๋‹ค.

  • virtual-env ์ƒ์„ฑ ๋ฐ local ์„ค์ •

$ pyenv virtualenv 3.7.1 pandas
$ pyenv local panda
  • ๊ด€๋ จ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋“ค์„ ์„ค์น˜ํ•˜๊ธฐ ์ด์ „์— pip๋ฅผ upgradeํ•ด์ค€๋‹ค.

$ pip install --upgrade pip
  • pandas : ๋ฐ์ดํ„ฐ ๋ถ„์„์šฉ

$ pip install pandas
  • numpy : Numerical Python์˜ ์•ฝ์ž๋กœ ํŒŒ์ด์ฌ ๊ธฐ๋ฐ˜ ์ˆ˜์น˜ ํ•ด์„ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ

$ pip install numpy
  • matplotlib : ๊ทธ๋ž˜ํ”„๋‚˜ ์ฐจํŠธ ๋“ฑ ๊ทธ๋ž˜ํ”ฝ์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š”๋ฐ ์‚ฌ์šฉํ•˜๋Š” ํŒŒ์ด์ฌ ๊ธฐ๋ฐ˜ 2D ์‹œ๊ฐํ™” ๋„๊ตฌ

$ pip install matplotlib
  • scipy : ๊ณผํ•™์šฉ ์—ฐ์‚ฐ(๋ฏธ์ ๋ถ„, ์„ ํ˜•๋Œ€์ˆ˜, ํ–‰๋ ฌ ์—ฐ์‚ฐ, ๋ฐฉ์ •์‹ ๊ณ„์‚ฐ ๋“ฑ)์— ํ•„์š”ํ•œ ํŒจํ‚ค์ง€๋ฅผ ๋ชจ์•„ ๋†“์€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ

$ pip install scipy
  • scikit-learn : ๋จธ์‹ ๋Ÿฌ๋‹ ํ•™์Šต์„ ์œ„ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์ด๋‹ค. numpy์™€ scipy๊ฐ€ ์„ค์น˜๋œ ์ƒํƒœ์—ฌ์•ผํ•œ๋‹ค.

$ pip install -U scikit-learn
  • seaborn : Matplotlib์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ์ƒ‰์ƒ ํ…Œ๋งˆ์™€ ํ†ต๊ณ„์šฉ ์ฐจํŠธ ๋“ฑ์˜ ๊ธฐ๋Šฅ์„ ์ถ”๊ฐ€ํ•œ ์‹œ๊ฐํ™” ํŒจํ‚ค์ง€์ด๋‹ค. (Seaborn Data)

$ pip install seaborn
  • BeautifulSoup4 : Beautiful Soup์€ HTML ๋ฐ XML ๋ฌธ์„œ๋ฅผ ๊ตฌ๋ฌธ ๋ถ„์„ํ•˜๊ธฐ์œ„ํ•œ Python ํŒจํ‚ค์ง€(์›น ์Šคํฌ๋ž˜ํ•‘์— ์‚ฌ์šฉ)

$ pip install beautifulsoup4
  • requests : Python์—์„œ HTTP ์š”์ฒญ์„ ๋ณด๋‚ด๋Š” ๋ชจ๋“ˆ

$ pip install requests
$ pip list

Package         Version
--------------- ------------
beautifulsoup4  4.9.0
certifi         2020.4.5.1
chardet         3.0.4
cycler          0.10.0
et-xmlfile      1.0.1
idna            2.9
jdcal           1.4.1
joblib          0.14.1
kiwisolver      1.2.0
lxml            4.5.0
matplotlib      3.2.1
numpy           1.18.3
openpyxl        3.0.3
pandas          1.0.3
pip             20.0.2
pyparsing       2.4.7
python-dateutil 2.8.1
pytz            2019.3
requests        2.23.0
scikit-learn    0.22.2.post1
scipy           1.4.1
seaborn         0.10.1
setuptools      39.0.1
six             1.14.0
soupsieve       2.0
urllib3         1.25.9
xlrd            1.2.0

์„ค์น˜๋ฅผ ์™„๋ฃŒํ•˜๊ณ  ํ›„์— requirements.txt๋กœ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋ฒ„์ „์„ ๊ด€๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค.

$ pip freeze > requirements.txt

DataSet

๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ณต๋ถ€ ์‹œ์— ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•˜๋Š” ๊ณณ์„ ์•Œ์•„๋‘๋ฉด ์ข‹๋‹ค.

  • scikit-learn, seaborn ๋“ฑ python ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์ œ๊ณต ๋ฐ์ดํ„ฐ์…‹

  • ๊ณต๊ณต ๋ฐ์ดํ„ฐ

    • ํ•ด์™ธ : WorldBank, WTO๋“ฑ ๊ตญ์ œ๊ธฐ๊ตฌ

    • ๊ตญ๋‚ด : ๊ณต๊ณต๋ฐ์ดํ„ฐ ํฌํƒˆ, ๊ตญ๊ฐ€ํ†ต๊ณ„ํฌํ„ธ

Last updated