Pandas

Pandas Library는 데이터를 수집하고 정리하는데 최적화된 도구이며, 오픈소스이다. Pandas를 이용하면 데이터과학의 80% ~ 90% 업무를 처리할 수 있다.

데이터 분석을 위해 다양한 소스로부터 수집하는 데이터는 형태와 속성이 매우 다양하다. 서로 다른 형식을 갖는 여러 종류의 데이터를 컴퓨터가 이해할 수 있도록 동일한 형식을 갖는 구조로 통합할 필요가 있다.

Pandas Library는 여러 종류의 class와 내장 함수로 구성되어있다.

환경설정

Mac OS에서 pyenv, virtual-env 가상 환경에 환경설정을 할 것이다.

virtual-env 생성 및 local 설정

$ pyenv virtualenv 3.7.1 pandas
$ pyenv local panda

관련 라이브러리들을 설치하기 이전에 pip를 upgrade해준다.

$ pip install --upgrade pip

pandas : 데이터 분석용

$ pip install pandas

numpy : Numerical Python의 약자로 파이썬 기반 수치 해석 라이브러리

$ pip install numpy

matplotlib : 그래프나 차트 등 그래픽으로 표현하는데 사용하는 파이썬 기반 2D 시각화 도구

$ pip install matplotlib

scipy : 과학용 연산(미적분, 선형대수, 행렬 연산, 방정식 계산 등)에 필요한 패키지를 모아 놓은 라이브러리

$ pip install scipy

scikit-learn : 머신러닝 학습을 위한 라이브러리이다. numpy와 scipy가 설치된 상태여야한다.

$ pip install -U scikit-learn

seaborn : Matplotlib을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지이다. (Seaborn Data)

$ pip install seaborn

BeautifulSoup4 : Beautiful Soup은 HTML 및 XML 문서를 구문 분석하기위한 Python 패키지(웹 스크래핑에 사용)

$ pip install beautifulsoup4

requests : Python에서 HTTP 요청을 보내는 모듈

$ pip install requests

$ pip list

Package         Version
--------------- ------------
beautifulsoup4  4.9.0
certifi         2020.4.5.1
chardet         3.0.4
cycler          0.10.0
et-xmlfile      1.0.1
idna            2.9
jdcal           1.4.1
joblib          0.14.1
kiwisolver      1.2.0
lxml            4.5.0
matplotlib      3.2.1
numpy           1.18.3
openpyxl        3.0.3
pandas          1.0.3
pip             20.0.2
pyparsing       2.4.7
python-dateutil 2.8.1
pytz            2019.3
requests        2.23.0
scikit-learn    0.22.2.post1
scipy           1.4.1
seaborn         0.10.1
setuptools      39.0.1
six             1.14.0
soupsieve       2.0
urllib3         1.25.9
xlrd            1.2.0

설치를 완료하고 후에 requirements.txt로 라이브러리 버전을 관리할 수 있다.

$ pip freeze > requirements.txt

DataSet

데이터 분석과 머신러닝 공부 시에 데이터셋을 제공하는 곳을 알아두면 좋다.

scikit-learn, seaborn 등 python 라이브러리 제공 데이터셋
kaggle
UCI 머신러닝 저장소
공공 데이터
- 해외 : WorldBank, WTO등 국제기구
- 국내 : 공공데이터 포탈, 국가통계포털

PreviousWarning-Could not import the lzma module NextPandas 자료구조

Last updated 4 years ago

hashtag환경설정

hashtagDataSet

환경설정

DataSet