Vue.js
1.0.0
1.0.0
  • README
  • Git
    • Basic
    • Remote Repository
    • Log & Diff
    • Rebase&Cherri-Pick
    • git-flow
  • DevOps
    • Monolithic vs MSA
    • Jenkins 시작하기
    • Airflow 시작하기
    • Airflow 시작하기
    • Build Tools
      • maven
  • 개발 방법론
    • TDD
  • Spring
    • IoC
    • Is Spring Bean Thread-Safe?
    • Spring Singleton
    • Component Scan
    • Spring Annotation
    • 의존 관계 주입(DI)
    • Lombok 활용하기
    • Bean 생명주기와 콜백
    • Bean Scope
    • AOP(1) - AOP란
    • AOP(2) - Aop Proxy
    • AOP(3) - Dynamic Proxy
    • AOP(4) - AspectJ
    • POJO
    • Spring 서비스 구조
    • Transaction
    • JPA란?
    • JPA Entity
    • Spring Data JPA
    • Spring Data Specification
    • Model Mapping
    • Cache
    • restTemplate
    • YAML 파일 설정
    • Spring Boot
      • H2 DB 설정
      • 다중 데이터베이스 설정
      • Mybatis 연동하기
    • Spring Batch
      • Batch 시작해보기
      • Batch Job Flow
      • Job
      • Step
      • Batch Scope & Job Parameter
      • JobRepository와 메타테이블
      • Chunk 지향 프로그래밍
      • ItemReader
      • ItemProcessor
      • ItemWriter
      • Batch Schedular
      • Job별 Bean등록하기
      • Batch 구현시 발생한 오류 정리
      • Spring Batch Scaling
        • Multithread Job구현시 이슈사항
    • Spring test
      • Junit5
        • 테스트 이름 표기
        • 테스트 그룹 사이의 관계
        • 태그와 필터링
        • 동적 테스트
        • 테스트 LifeCycle
        • 테스트 메서드
        • 테스트 순서
        • AssertJ
        • 테스트 병렬 실행
        • AssertJ
        • Mock
      • Spring Boot Test DB 분리
      • Spring Batch Test
  • Web Application
    • Web Server & WAS
    • 관련 개념 - HTTP API, HTML, CSR, SSR
    • Servlet
    • JSP
    • Cookie And Session
    • 예외페이지
    • Java Bean
    • JDBC
    • Connection Pool
    • 파일 업로드
    • Expression Language
    • JSTL
    • FrontController패턴 Command 패턴
    • Forwarding
    • MVC
    • 회원가입예제
    • 참고
      • 개발환경설정
  • Java+
    • SOAP/WSDL vs REST
    • WSDL을 JAVA로 변환하기
    • SOAP 통신 OPEN API로 개발해보기
  • Java
    • Basic
      • 변수와 타입
      • 연산자
      • 조건문과 반복문
      • 참조 타입
      • 클래스
      • 상속(Inheritance)
      • 인터페이스(Interface)
      • 중첩 클래스와 중첩 인터페이스
      • 예외 처리
      • API - Object, System, Class, Math, Wrapper
      • API - String, StringBuffer, StringBuilder
      • Thread
      • Generic
      • Lambda
      • Collection - List, Set
      • Collection - Map
      • Collection - Tree
      • Collection - Stack, Queue
      • Stream
      • Reflection
      • 정규표현식
      • GUI
      • UML
      • Serializable
    • Advanced
      • OutOfMemoryError
      • AutoValue
      • meta-annotation
        • @Retention
        • @Target
        • @Repeatable
    • Effective Java 3/E
      • ITEM 1: Static Factory Method(정적 메소드)
      • ITEM 2: Builder Pattern
      • ITEM 3: Singleton
      • ITEM 4: Private Constructor
      • ITEM 5: Dependency Injection
      • ITEM 6: Avoid Unnecessary Object
      • ITEM 7: Eliminate Object Reference
      • ITEM 8: Avoid finalizer and cleaner
      • ITEM 9: try-with-resources
      • ITEM 10: The gerneral contract when overriding equlas
      • ITEM 11: Overriding hashCode
      • ITEM 12: overriding toString
      • ITEM 13: overriding clone judiciously
      • ITEM 14: Consider implementing comparable
      • ITEM 15: 클래스와 멤버의 접근을 최소화해라
      • ITEM 16: Use Accessor methods
      • ITEM 17: 변경 가능성을 최소화해라(불변 클래스)
      • ITEM 18: 상속보단 컴포지션을 사용해라
      • ITEM 19: 상속을 고려해 설계하고 문서화해라
      • ITEM 20: 추상 클래스보다 인터페이스를 우선하라
      • ITEM 21: 인터페이스는 구현하는 쪽을 생각해 설계해라.
      • ITEM 22: 인터페이스는 타입을 정의하는 용도로만 사용해라
      • ITEM 23: 태그 달린 클래스보다 클래스 계층구조를 활용해라
      • ITEM 24: 멤버 클래스는 되도록 static으로 구현해라
      • ITEM 25: 톱레벨 클래스는 한 파일에 하나만 생성해라.
      • ITEM 26: Raw type은 사용하지 마라
      • ITEM 27: 비검사 경고를 제거해라
      • ITEM 28: 배열보다는 리스트를 사용해라
      • ITEM 29: 이왕이면 제네릭 타입으로 만들어라
      • ITEM 30: 이왕이면 제네릭 메서드로 만들어라
      • ITEM 31 : 한정적 와일드카드를 사용해 API 유연성을 높여라
      • ITEM 32: 제네릭과 가변인수를 함께 쓸 때는 신중해라
      • ITEM 33: 타입 안전 이종 컨테이너를 고려해라
      • ITEM 34: int 상수 대신 열거 타입을 사용해라
      • ITEM 35: ordinal 메서드 대신 인스턴스 필드를 사용해라
      • ITEM 36: 비트 필드 대신 EnumSet을 사용해라
      • ITEM 37: ordinal 인덱싱 대신 EnumMap을 사용해라
      • TEM 38 : 확장할 수 있는 열거타입이 필요하면 인터페이스를 사용해라
      • ITEM 39: 명명 패턴보다 애너테이션을 사용해라
      • ITEM 40: @Override 어노테이션을 일관되게 사용해라
      • ITEM 41: 정의하려는 것이 타입이라면 마커 인터페이스를 사용해라
      • ITEM 42: 익명 클래스보다는 람다를 사용해라
      • ITEM 43: 람다보다는 메서드 참조를 사용해라
      • ITEM 44: 표준 함수형 인터페이스를 사용해라
      • ITEM 45: 스트림은 주의해서 사용해라
      • ITEM 46: 스트림에서 부작용 없는 함수를 사용해라
      • ITEM 47: 반환 타입으로는 스트림보다 컬렉션이 낫다.
      • ITEM 48: 스트림 병렬화는 주의해서 사용해라
      • ITEM 49: 매개변수가 유효한지 검사해라
      • ITEM 50: 적시에 방어적 복사본을 만들어라
      • ITEM 51: 메서드 시그니처를 신중히 설계해라
      • ITEM 52: 다중정의는 신중히 사용해라
      • ITEM 53: 가변인수는 신중히 사용해라
      • ITEM 54: null이 아닌, 빈 컬렉션이나 배열을 반환해라
      • ITEM 55: Optional 반환은 신중하게 해라
      • ITEM 56: 공개된 API 요소에는 항상 주석을 작성해라
      • ITEM 57: 지역변수의 범위를 최소화해라
      • ITEM 58: 전통적인 for 문보다는 for-each문을 사용해라
      • ITEM 59: 라이브러리를 익히고 사용해라
      • ITEM 60: 정확한 답이 필요하다면 float와 double은 피해라
      • ITEM 61: 박싱된 기본 타입보다는 기본 타입을 사용해라
      • ITEM 62: 다른 타입이 적절하다면 문자열 사용을 피해라
      • ITEM 63: 문자열 연결은 느리니 주의해라
      • ITEM 64: 객체는 인터페이스를 사용해 참조해라
      • ITEM 65: 리플렉션보다는 인터페이스를 사용해라
      • ITEM 66: 네이티브 메서드는 신중히 사용해라
      • ITEM 67: 최적화는 신중히 해라
      • ITEM 68: 일반적으로 통용되는 명명 규칙을 따라라
    • 객체지향 설계 원칙(SOLID)
    • 디자인패턴
      • Strategy Pattern
      • Template Method Pattern
      • Factory Method Pattern
      • Singleton
      • Delegation
      • Proxy
      • Adapter Pattern
    • 실습
      • 인터페이스 실습 - Vehicle
      • 인터페이스 실습 - Remote
      • GUI 실습 - Calculator
      • GUI 실습 - button
      • GUI 실습 - lotto
      • Thread 실습 - 좌석예약, 메세지보내기
    • Jar vs War
  • 데이터베이스
    • KEY
    • Index
    • Transaction
    • Trigger
    • Procedure / Function
    • Package
    • 데이터베이스 배움터
      • 데이터베이스 시스템
      • 관계데이터 모델
      • 관계대수와 SQL
    • MySQL
      • Database란
      • MySQL 시작하기
      • MySQL Database
      • MySQL Table
      • CRUD
      • 관계형 데이터베이스
      • Server와 Client
    • PostgreSQL
    • NoSQL
      • Install Cassandra on mac
      • Cassandra란?
      • NiFi란
  • Algorithm
    • String
    • Recursion
    • Dynamic Programming
    • Array, Struct, Pointer
    • Math
    • Sort
    • List
    • Stack
    • Queue
    • Graph
    • Tree
    • Maze
    • AVL
    • 이진탐색트리(Binary Search Tree)
    • DFS와 BFS
    • 다익스트라 알고리즘(Dijkstra's Algorithm)
    • Red-Black 트리
    • A* 알고리즘
    • Heap
    • Huffman Coding
    • Priority Queue
    • Bellman-Ford 알고리즘
    • C++
      • Class
      • STL
        • STL pair
        • STL Container - Associate Container
        • STL Container - Sequence Container
        • STL Container - Container Adapter
  • JavaScript
    • JABASCRIPT BASIC
    • Shallow Copy vs Deep Copy
    • OBJECT MODEL
    • NODE
    • 동기 처리 vs 비동기 처리
    • AJAX
    • CALLBACK
    • PROMISE
    • DEFERRER
    • UNDERSCORE
    • WEBPACK
    • SCOPE
    • EXECUTION CONTEXT
    • Image Object
    • BFCache란?
    • history.scrollRestoration
    • Intersection Observer
    • JWT - JSON Web Token
    • HTML vs JSON
  • Vue.js
    • 환경설정
    • Vue.js란?
    • Vue Instance
    • Vue Component
    • Vue Router
    • HTTP 통신
    • Template
    • Single File Component
    • Vue Animation
    • Vuex
    • Djnago와 연동하기
  • Backbone.js
    • Model
    • Collection
    • Sync
    • view
  • Node.js
    • Doit! - 노드로 만들 수 있는 대표적인 서버와 용도
    • Doit! - 노드에 대해 알아보고 개발 도구 설치하기
    • Doit! - 노드 간단하게 살펴보기
    • Doit! - 노드의 자바스크립트와 친해지기
    • Doit! - 노드의 기본 기능 알아보기
    • Doit! - 웹 서버 만들기
    • Doit! - 데이터베이스 사용하기
    • Doit! - 익스프레스 프로젝트를 모듈화하기
    • Doit! - 뷰 템플릿 적용하기
    • Doit! - 패스포트로 사용자 인증하기
    • Doit! - 채팅서버 만들기
    • Doit! - JSON-RPC 서버 만들기
  • Python
    • Warning-Could not import the lzma module
    • Pandas
      • Pandas 자료구조
      • Pandas 데이터 입출력
      • DataFrame Data 살펴보기
      • 시각화 도구 - Matplotlib
  • ML
    • 추천 시스템
      • Collaborative Filtering
      • Matrix Factorization
  • Django
    • Basic
      • 환경설정
      • About Django
      • Start Django Project
      • Secret Key 관리하기
      • Settings 분리하기
      • Django App
      • Django View & URL (1)
      • Django Model
        • MySQL 연동
      • Django Admin
      • Django View & URL (2)
      • Django Template
      • Django Template & View & URL
      • Django Static
      • Django form
    • Advanced
      • Django Generic View
      • Django Automated Testing
      • Django Extenstion Template
      • Django Model Package
      • Django OpenSSL setting
    • REST framework
      • Rest API
      • Serializers
      • ViewSet
    • Error
      • 환경설정 zlib 오류발생
      • ModuleNotFoundError
    • 패키지
      • django-debug-toolbar
    • Vue.js 연동하기
  • Ruby
    • variable & input/output
    • 조건문
    • 반복문
    • Array & Hash
    • Method
    • Proc&Lamda
    • Class
  • Ruby on Rails
    • Scaffolding
    • Controller
    • Model
    • Model-M:N relation
    • Model Validation
    • 멋사 10주차 수업(Tip)
  • HTML/CSS
    • Udacity - Intro to HTML/CSS
    • Udacity - Responsive Web Design
    • Udacity - Responsive Images
    • HTML Basic
    • CSS Basic
    • HTML5 Sementic Tag
    • HTML 텍스트 관련 태그들
    • HTML5 멀티미디어
    • HTML 폼 관련 태그들
    • 텍스트 관련 스타일
    • 색상과 배경을 위한 스타일
    • 레이아웃을 위한 스타일
    • CSS 포지셔닝
    • 다재다능한 CSS3 선택자
    • CSS와 애니메이션
    • 반응형 웹이란?
  • OS(운영체제)
    • Linux
      • Daemon
      • Cron
      • 프로세스 관련 명령어
      • 텍스트 파일 명령어
  • Network
    • 네트워크 기본 개념
    • 네트워크 기본 규칙
    • 물리 계층
    • 데이터 링크 계층
    • 네트워크 계층
    • 전송 계층
    • 응용 계층
    • 네트워크 전체 흐름
    • 무선 랜
  • IT 기타지식
    • NAS란
Powered by GitBook
On this page
  • DataFrame 구조
  • DataFrame 정보 확인하기
  • 요약 정보 확인하기
  • 데이터 개수 확인
  • 통계 함수
  • 평균값
  • 중간값
  • 최대값
  • 최소값
  • 표준편차
  • 상관계수
  • 내장 그래프 도구
  • 선 그래프
  • 막대 그래프
  • 히스토그램
  • 산점도
  • 참고

Was this helpful?

  1. Python
  2. Pandas

DataFrame Data 살펴보기

DataFrame 구조

DataFrame 정보 확인하기

  • 앞,뒤 부분 데이터 미리보기

df.head(n)
df.tail(n)

첫 n행과 마지막 n행을 출력하고 내용과 구조를 살펴볼 수 있다. 이때 n을 입력하지 않으면 default 5행을 출력한다.

>>> print(df.head(6))
    mpg  cylinders  displacement horsepower  weight  acceleration  model year  origin                         name
0  18.0          8         307.0      130.0    3504          12.0          70       1  "chevrolet chevelle malibu"
1  15.0          8         350.0      165.0    3693          11.5          70       1          "buick skylark 320"
2  18.0          8         318.0      150.0    3436          11.0          70       1         "plymouth satellite"
3  16.0          8         304.0      150.0    3433          12.0          70       1              "amc rebel sst"
4  17.0          8         302.0      140.0    3449          10.5          70       1                "ford torino"
5  15.0          8         429.0      198.0    4341          10.0          70       1           "ford galaxie 500"
>>> print(df.tail())
      mpg  cylinders  displacement horsepower  weight  acceleration  model year  origin               name
393  27.0          4         140.0      86.00    2790          15.6          82       1  "ford mustang gl"
394  44.0          4          97.0      52.00    2130          24.6          82       2        "vw pickup"
395  32.0          4         135.0      84.00    2295          11.6          82       1    "dodge rampage"
396  28.0          4         120.0      79.00    2625          18.6          82       1      "ford ranger"
397  31.0          4         119.0      82.00    2720          19.4          82       1       "chevy s-10"

요약 정보 확인하기

  • DataFrame의 크기(행, 열)

df.shape

df에 저장된 DataFrame의 크기(행의 개수, 열의 개수)를 확인할 수 있다.

>>> df.shape
(398, 9)
  • DataFrame의 기본 정보

df.info()

클래스 유형, 행 인덱스의 구성, 열 이름의 종류와 수, 각 열의 자료형과 개수, 메모리 할당량에 대한 기본 정보를 출력한다.

>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object
 4   weight        398 non-null    int64
 5   acceleration  398 non-null    float64
 6   model year    398 non-null    int64
 7   origin        398 non-null    int64
 8   name          398 non-null    object
dtypes: float64(3), int64(4), object(2)
memory usage: 28.1+ KB
  • 열의 자료형 확인

df.dtypes
df.colum명.dtypes
>>> df.dtypes
mpg             float64
cylinders         int64
displacement    float64
horsepower       object
weight            int64
acceleration    float64
model year        int64
origin            int64
name             object
dtype: object
>>> df.mpg.dtypes
dtype('float64')
  • 기술 통계 정보 요약

df.describe()

산술 데이터를 갖는 열에 대한 주요 기술 통계 정보(평균, 표준편차, 최대값, 최소값, 중간값 등)를 요약 출력한다.

>>> df.describe()
              mpg   cylinders  displacement       weight  acceleration  model year      origin
count  398.000000  398.000000    398.000000   398.000000    398.000000  398.000000  398.000000
mean    23.514573    5.454774    193.425879  2970.424623     15.568090   76.010050    1.572864
std      7.815984    1.701004    104.269838   846.841774      2.757689    3.697627    0.802055
min      9.000000    3.000000     68.000000  1613.000000      8.000000   70.000000    1.000000
25%     17.500000    4.000000    104.250000  2223.750000     13.825000   73.000000    1.000000
50%     23.000000    4.000000    148.500000  2803.500000     15.500000   76.000000    1.000000
75%     29.000000    8.000000    262.000000  3608.000000     17.175000   79.000000    2.000000
max     46.600000    8.000000    455.000000  5140.000000     24.800000   82.000000    3.000000

만약 산술 데이터가 아닌 열에 대한 정보를 포함하고 싶을 떄는 include='all' 옵션을 추가하면된다.

>>> df.describe(include='all')
               mpg   cylinders  displacement horsepower       weight  acceleration  model year      origin          name
count   398.000000  398.000000    398.000000        398   398.000000    398.000000  398.000000  398.000000           398
unique         NaN         NaN           NaN         94          NaN           NaN         NaN         NaN           305
top            NaN         NaN           NaN      150.0          NaN           NaN         NaN         NaN  "ford pinto"
freq           NaN         NaN           NaN         22          NaN           NaN         NaN         NaN             6
mean     23.514573    5.454774    193.425879        NaN  2970.424623     15.568090   76.010050    1.572864           NaN
std       7.815984    1.701004    104.269838        NaN   846.841774      2.757689    3.697627    0.802055           NaN
min       9.000000    3.000000     68.000000        NaN  1613.000000      8.000000   70.000000    1.000000           NaN
25%      17.500000    4.000000    104.250000        NaN  2223.750000     13.825000   73.000000    1.000000           NaN
50%      23.000000    4.000000    148.500000        NaN  2803.500000     15.500000   76.000000    1.000000           NaN
75%      29.000000    8.000000    262.000000        NaN  3608.000000     17.175000   79.000000    2.000000           NaN
max      46.600000    8.000000    455.000000        NaN  5140.000000     24.800000   82.000000    3.000000           NaN

문자열 데이터가 들어가 있는 열의 unique(고유값 개수), top(최빈값), freq(빈도수) 정보가 추가된다.

데이터 개수 확인

  • 각 열의 데이터 수

df.count()

각 열이 가지고 있는 데이터 개수를 Series 객체로 반환한다. 이때 유효한 값의 개수만을 계산하는 점을 주의해야한다.

>>> df.count()
mpg             398
cylinders       398
displacement    398
horsepower      398
weight          398
acceleration    398
model year      398
origin          398
name            398
dtype: int64
  • 각 열의 고유값 수

df.["열 이름"].value_counts()

Series 객체의 고유값 개수를 세는데 사용한다.

dropna=True 옵션을 설정하면, 데이터 값 중에서 NaN을 제외한 개수를 계산한다.

>>> df['origin'].value_counts()
1    249
3     79
2     70
Name: origin, dtype: int64

통계 함수

전체 열 메소드
특정 열 메소드

평균값

df.mean()

df["열 이름"].mean()

중간값

df.median()

df["열 이름"].median()

최대값

df.max()

df["열 이름"].max()

최소값

df.min()

df["열 이름"].min()

표준편차

df.std()

df["열 이름"].std()

상관계수

df.corr()

df[열 이름 리스트].corr()

평균값

df.mean() 						# 모든 열의 평균값
df["열 이름"].mean()	# 특정 열의 평균값
>>> df.mean()
mpg               23.514573
cylinders          5.454774
displacement     193.425879
weight          2970.424623
acceleration      15.568090
model year        76.010050
origin             1.572864
dtype: float64
>>> df['mpg'].mean()
23.514572864321607

중간값

df.median()							# 모든 열의 중간값
df['열 이름'].median()	# 특정 열의 중간값
>>> df.median()
mpg               23.0
cylinders          4.0
displacement     148.5
weight          2803.5
acceleration      15.5
model year        76.0
origin             1.0
dtype: float64
>>> df['mpg'].median()
23.0

최대값

df.max()
df["열 이름"].max()

산술 데이터를 가진 열에 대해서는 가장 큰 숫자를 찾아서 최대값으로 반환한다. 문자열 데이터를 가진 열에 대해서는 문자열을. ASCII 숫자로 변환해 크고 작음을 비교한다.

>>> df.max()
mpg                    46.6
cylinders                 8
displacement            455
horsepower      ?
weight                 5140
acceleration           24.8
model year               82
origin                    3
name            "vw rabbit"
dtype: object
>>> df['mpg'].max()
46.6

최소값

df.min()
df["열 이름"].min()

산술 데이터를 가진 열에 대해서는 가장 작은 숫자를 찾아서 최소값으로 반환한다. 문자열 데이터를 가진 열에 대해서는 문자열을. ASCII 숫자로 변환해 크고 작음을 비교한다.

>>> df.min()
mpg                                     9
cylinders                               3
displacement                           68
horsepower                          100.0
weight                               1613
acceleration                            8
model year                             70
origin                                  1
name            "amc ambassador brougham"
dtype: object
>>> df['mpg'].min()
9.0

표준편차

df.std()
df["열 이름"].std()

산술 데이터를 갖는 열의 표준편차를 계산해 Series 객체로 변환한다.

>>> df.std()
mpg               7.815984
cylinders         1.701004
displacement    104.269838
weight          846.841774
acceleration      2.757689
model year        3.697627
origin            0.802055
dtype: float64
>>> df['mpg'].std()
7.815984312565782

로 정의된다.

표준 편차는 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근으로 정의한다.

상관계수

df.corr()
df[열 이름 리스트].corr()

corr()는 두 열 간의 상관계수를 계산한다. 산술 데이터를 갖는 모든 열에 대해 2개씩 서로 짝을 짓고, 각각의 경우에 대해 상관계수를 계산한다.

>>> df.corr()
                   mpg  cylinders  displacement    weight  acceleration  model year    origin
mpg           1.000000  -0.775396     -0.804203 -0.831741      0.420289    0.579267  0.563450
cylinders    -0.775396   1.000000      0.950721  0.896017     -0.505419   -0.348746 -0.562543
displacement -0.804203   0.950721      1.000000  0.932824     -0.543684   -0.370164 -0.609409
weight       -0.831741   0.896017      0.932824  1.000000     -0.417457   -0.306564 -0.581024
acceleration  0.420289  -0.505419     -0.543684 -0.417457      1.000000    0.288137  0.205873
model year    0.579267  -0.348746     -0.370164 -0.306564      0.288137    1.000000  0.180662
origin        0.563450  -0.562543     -0.609409 -0.581024      0.205873    0.180662  1.000000
>>> df[['mpg','weight']].corr()
             mpg    weight
mpg     1.000000 -0.831741
weight -0.831741  1.000000

상관계수란? 두 변수 x,y 사이의 상관관계의 정도를 나타내는 수치이다.

  1. 상관계수 r은 항상 -1과 1 사이에 있다.

  2. 상관계수의 절대값의 크기는 직선관계에 가까운 정도를 나타내고, 부호는 직선관계의 방향을 나타낸다. 상관계수의 절대값이 클수록, 즉 상관계수의 값이 1 또는 -1에 가까울 수록 두 변수 사이의 연관성이 크고, 0에 가까울 수록 매우 약함을 의미한다.

  3. r > 0 - 양의 상관관계 : 산점도에서 점들이 우상향방향으로 띠를 형성한다. 즉, 한 변수의 값이 작으면 다른 변수의 값도 작고, 한 변수의 값이 크면 다른 변수의 값도 크다. 이러한 경향을 하나의 직선으로 나타냈을 때 그 직선의 기울기는 양수가 된다.

  4. r < 0 - 음의 상관관계 : 산점도에서 점들이 우하향방향으로 띠를 형성한다. 즉, 한 변수의 값이 작으면 다른 변수의 값은 크다. 이러한 경향을 하나의 직선으로 나타냈을 때 그 직선의 기울기는 음수가 된다.

  5. r = +1 : 모든 점이 정확히 기울기가 양수인 직선 위에 위치한다.

  6. r = -1 : 모든 점이 정확히 기울기가 음수인 직선 위에 위치한다.

  7. 상관계수의 단위는 없다. 따라서 단위가 다른 여러 쌍의 변수에서 직선관계의 정도를 비교할 수 있다.

내장 그래프 도구

그래프를 이용한 시각화 방법은 데이터의 분포와 패턴을 파악하는데 크게 도움이 된다. Pandas는 matplotlib 라이브러리의 기능을 일부 내장하고 있어, 별도로 import를 하지 않고도 간단한 그래프를 그릴 수 있다.

Series 혹은 DataFrame 객체에 plot() 메소드를 적용해 그래프를 그릴 수 있으며, kind 옵션으로 그래프 종류를 선택할 수 있다.

kind option
설명
kind option
설명

line

선 그래프(default)

kde

커널 밀도 그래프

bar

수직 막대 그래프

area

면적 그래프

barh

수평 막대 그래프

pie

파이 그래프

his

히스토그램

scatter

산점도 그래프

box

박스 플롯

hexbin

고밀도 산점도 그래프

선 그래프

df.plot()

mac terminer에서 plot() 으로 그래프를 그려도 다음과 같이 보여지지 않는다.

>>> df_ns.plot()
<matplotlib.axes._subplots.AxesSubplot object at 0x10e9c5710>

이때는 matplotlib.pyplot 을 import하고 show()메소드로 보이게 할 수 있다.

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_excel('./korea_20200506120515.xlsx')
df_ns = df.iloc[[1,2],3:]
df_ns.index = ['North','South']
df_ns.columns = df_ns.columns.map(int)
print(df_ns.tail())
df_ns.plot()
plt.show()

시간의 흐름에 따른 연도별 발전량 변화 추이를 보기 위해서는 연도 값을 x축에 표시하는 것이 적절하다. 행렬을 전치하여 변경할 수 있다.

tdf_ns = df_ns.T
>>> print(tdf_ns.head())
     North South
1992   247  1310
1993   221  1444
1994   231  1650
1995   230  1847
1996   213  2055
>>> tdf_ns.plot()
<matplotlib.axes._subplots.AxesSubplot object at 0x114a61eb8>
>>> plt.show()

막대 그래프

df.plot(kind='bar')
tdf_ns.plot(kind='bar')
plt.show()

히스토그램

df.plot(kind='hist')

히스토그램의 x축은 발전량을 일정한 간격을 갖는 여러 구간으로 나눈 것이며, y축은 연간 발전량이 x축에서 나눈 발전량 구간에 속하는 연도의 수를 빈도로 나타낸 것이다.

산점도

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('./auto-mpg.csv')
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name']
df.plot(x='weight', y='mpg', kind='scatter')
<matplotlib.axes._subplots.AxesSubplot object at 0x11a76c358>
plt.show()

x축(weight)과 y축(mpg)의 관계는 차량의 무게가 클수록 mpg(연비)가 전반적으로 낮아지는 경향을 보이며, 역 상관관계를 갖는다고 해석할 수 있다.

박스 플롯

박스 플롯은 특정 변수의 데이터 분포와 분산 정도에 대한 정보를 제공한다.

>>> df[['mpg','cylinders']].plot(kind='box')
<matplotlib.axes._subplots.AxesSubplot object at 0x11a7ecb70>
>>> plt.show()

각 변수들의 데이터가 퍼져있는 정도를 확인할 때 사용한다.

참고

PreviousPandas 데이터 입출력Next시각화 도구 - Matplotlib

Last updated 3 years ago

Was this helpful?

표준 편차 는

출처 :

위키피디아
슈퍼짱짱
https://stackoverflow.com/questions/35594501/pandas-plotting-in-windows-terminal
위키피디아
슈퍼짱짱
파이썬 머신러닝 판다스 데이터 분석
{\displaystyle \sigma _{X}}
image-20200506141537932
image-20200506141420617
image-20200506141810796
image-20200506143324513
image-20200506140022407
image-20200506143819819