시각화 도구 - Matplotlib
Matplotlib
데이터 분석시 다루는 데이터의 종류는 매우 다양하며, 크기 또한 방대한 경우가 많다. 시각화를 통해 데이터의 구조와 패턴을 파악하기 용이하며, 다양한 관점에서 데이터에 대한 통찰력을 제공한다.
Matplotlib은 파이썬 표준 시각화 도구라고 부를 수 있을 정도로 2D 평면 그래프에 대한 다양한 포맷과 기능을 제공하고 있다.
필요 라이브러리 import
import matplotlib as mlp
import matplotlib.pyplot as plt데이터 시각화에 사용할 matplotlib.pyplot 모듈을 import해 사용한다.
한글 출력 오류
numpy를 이용해 임의로 데이터를 생성해서 그래프를 그려볼 것이다.
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
mpl.rcParams['axes.unicode_minus'] = False # minus 깨짐 설정
data = np.random.randint(-100,100,50).cumsum() # cumsum : 배열 원소들의 누적 합을 계산
print(data)
array([ -68, 10, 90, 172, 132, 56, 21, 59, 9, -60, -48,
23, 68, -7, -21, 75, 30, -58, -102, -141, -51, 42,
108, 63, -31, -87, -171, -244, -171, -271, -234, -209, -284,
-252, -177, -191, -249, -162, -199, -106, -152, -234, -232, -178,
-270, -171, -128, -181, -195, -129])
plt.plot(range(50), data, 'r')
[<matplotlib.lines.Line2D object at 0x11a3bb358>]
plt.ylabel('주식 가격')
Text(0, 0.5, '주식 가격')
plt.xlabel('시간(분)')
Text(0.5, 0, '시간(분)')
plt.show()
차트 제목과 축 이름을 한글로 설정해 출력하는 경우 다음 오류메시지와 함께 깨지는 경우가 발생할 수 있다.
우선 시스템에 설정된 폰트를 확인할 수 있다.
fontlis-v310.json에 현재 사용할 수 있는 폰트들이 있는 것을 확인할 수 있다.
fontmanager로 현재 시스템에 설정된 폰트들을 확인할 수 있다. 설정할 폰트명을 다음과 같이 가져올 수 있다.
3가지 방법으로 폰트를 설정할 수 있다.
FontProperties 사용하기 : 그래프의 폰트가 필요한 항목마다 지정
matplotlib.rcParams[]로 전역글꼴 설정 방법 - 그래프에 설정을 해주면 적용
2번 방법을 mpl.matplotlib_fname()로 읽어지는 설정 파일에 직접 해주는 방법.
설정 파일에서 font.famliy를 cumstom 설정해주면 재 실행할 때마다 다시 설정하지 않아도 된다.

마이너스 폰트 출력 설정
그래프에서 마이너스 폰트가 깨지는 문제에 대해 대처할 수 있다.
KOSIS의 시도별 전출입 인구수 데이터를 시각화해볼 것이다.
NaN 데이터가 들어 있는 것을 확인할 수 있다. 누락 데이터는 method=ffill 옵션을 사용하면 누락데이터가 들어있는 행의 바로 앞에 위치한 행의 데이터 값을 채울 수 있다.
서울에서 다른 지역으로 이동한 데이터만 추출하여 데이터를 정리할 수 있다.
선 그래프
그 중 경기도로 이동한 데이터를 추출해 그래프로 그리면 다음과 같다.

다음과 같이 객체를 전달해도 똑같은 결과를 얻을 수 있다.
차트 제목, 축 이름 추가

그래프 꾸미기
그래프 가로, 세로 사이즈 설정하기
x축/y축 범위 지정(최소/최대)
x축/y축 라벨 설정
범례
loc는 범례를 어느 위치에 노출시킬 것인지 지정하는 옵션이다. loc='best'는 자동으로 최적의 위치를 계산하여 노출시킨다.
Location String
Location Code
'best'
0
'upper right'
1
'upper left'
2
'lower left'
3
'lower right'
4
'right'
5
'center left'
6
'center right'
7
'lower center'
8
'upper center'
9
'center'
10

스타일 서식 지정
색, 폰트 등 디자인 요소를 변경할 수 있는데, 이는 Matplotlib 실행 환경 설정을 변경하는 것이므로, 다른 파일을 실행할 때도 계속 적용되는 점에 유의한다.
테마 설정하기
이때 어떤 종류가 있는지 확인 할 수 있다.
https://matplotlib.org/gallery/style_sheets/style_sheets_reference.html 에서 어떻게 적용되는지 확인할 수 있다.
마커 설정
옵션
설명
'o'
선 그래프가 아닌 점 그래프로 표현
marker='o'
마커 모양('o', '+', '*', '.')
markerfacecolor='color'
마커 배경색
markersize=n
마커 크기
color='color'
선 색상
linewidth=n
선 두께
label='text'
라벨 지정
사용할 수 있는 색의 종류는 다음 방법으로 확인할 수 있다.

그래프 주석

화면을 분할해 그래프 여러 개 그리기
화면을 여러개로 분할하고 분할된 각 화면에 서로 다른 그래프를 그릴 수 있다. 한 화면에서 여러개의 그래프를 비교하거나 다양한 정보를 동시에 보여줄 때 사용하면 좋다.
figure() 함수를 사용해 그래프를 그리는 그림틀을 만들고, 그림틀 객체에 add_subplot() 메소드를 적용하여 그림틀을 여러개로 분할할 수 있다. 이때 나눠진 각 부분을 axe 객체라고 부른다.

동일한 그래프에 여러 개의 그래프 그리기
같은 axe 객체에 plot()으로 그래프 여러 개를 동시에 그릴 수 있다.

면적 그래프(area plot)
면적 그래프는 각 열의 데이터를 선 그래프로 구현하며, 선 그래프와 x축 사이의 공간이 색으로 채워진다. 색의 투명도(alpha)는 기본값 0.5로 투과되어 보인다.
이때 그래프를 누적할지 여부를 stacked=True 옵션으로 설정할 수 있다. stacked=False 로 옵션을 지정하면 각 열의 선 그래프들은 누적되지 않고 서로 겹치도록 표신된다.


참고
Last updated
Was this helpful?