📚
TIL
  • README
  • Git
    • Basic
    • Remote Repository
    • Log & Diff
    • Rebase&Cherri-Pick
    • git-flow
  • DevOps
    • Monolithic vs MSA
    • Jenkins 시작하기
    • Airflow 시작하기
    • Airflow 시작하기
    • Build Tools
      • maven
  • 개발 방법론
    • TDD
  • Spring
    • IoC
    • Is Spring Bean Thread-Safe?
    • Spring Singleton
    • Component Scan
    • Spring Annotation
    • 의존 관계 주입(DI)
    • Lombok 활용하기
    • Bean 생명주기와 콜백
    • Bean Scope
    • AOP(1) - AOP란
    • AOP(2) - Aop Proxy
    • AOP(3) - Dynamic Proxy
    • AOP(4) - AspectJ
    • POJO
    • Spring 서비스 구조
    • Transaction
    • JPA란?
    • JPA Entity
    • Spring Data JPA
    • Spring Data Specification
    • Model Mapping
    • Cache
    • restTemplate
    • YAML 파일 설정
    • Spring Boot
      • H2 DB 설정
      • 다중 데이터베이스 설정
      • Mybatis 연동하기
    • Spring Batch
      • Batch 시작해보기
      • Batch Job Flow
      • Job
      • Step
      • Batch Scope & Job Parameter
      • JobRepository와 메타테이블
      • Chunk 지향 프로그래밍
      • ItemReader
      • ItemProcessor
      • ItemWriter
      • Batch Schedular
      • Job별 Bean등록하기
      • Batch 구현시 발생한 오류 정리
      • Spring Batch Scaling
        • Multithread Job구현시 이슈사항
    • Spring test
      • Junit5
        • 테스트 이름 표기
        • 테스트 그룹 사이의 관계
        • 태그와 필터링
        • 동적 테스트
        • 테스트 LifeCycle
        • 테스트 메서드
        • 테스트 순서
        • AssertJ
        • 테스트 병렬 실행
        • AssertJ
        • Mock
      • Spring Boot Test DB 분리
      • Spring Batch Test
  • Web Application
    • Web Server & WAS
    • 관련 개념 - HTTP API, HTML, CSR, SSR
    • Servlet
    • JSP
    • Cookie And Session
    • 예외페이지
    • Java Bean
    • JDBC
    • Connection Pool
    • 파일 업로드
    • Expression Language
    • JSTL
    • FrontController패턴 Command 패턴
    • Forwarding
    • MVC
    • 회원가입예제
    • 참고
      • 개발환경설정
  • Java+
    • SOAP/WSDL vs REST
    • WSDL을 JAVA로 변환하기
    • SOAP 통신 OPEN API로 개발해보기
  • Java
    • Basic
      • 변수와 타입
      • 연산자
      • 조건문과 반복문
      • 참조 타입
      • 클래스
      • 상속(Inheritance)
      • 인터페이스(Interface)
      • 중첩 클래스와 중첩 인터페이스
      • 예외 처리
      • API - Object, System, Class, Math, Wrapper
      • API - String, StringBuffer, StringBuilder
      • Thread
      • Generic
      • Lambda
      • Collection - List, Set
      • Collection - Map
      • Collection - Tree
      • Collection - Stack, Queue
      • Stream
      • Reflection
      • 정규표현식
      • GUI
      • UML
      • Serializable
    • Advanced
      • OutOfMemoryError
      • AutoValue
      • meta-annotation
        • @Retention
        • @Target
        • @Repeatable
    • Effective Java 3/E
      • ITEM 1: Static Factory Method(정적 메소드)
      • ITEM 2: Builder Pattern
      • ITEM 3: Singleton
      • ITEM 4: Private Constructor
      • ITEM 5: Dependency Injection
      • ITEM 6: Avoid Unnecessary Object
      • ITEM 7: Eliminate Object Reference
      • ITEM 8: Avoid finalizer and cleaner
      • ITEM 9: try-with-resources
      • ITEM 10: The gerneral contract when overriding equlas
      • ITEM 11: Overriding hashCode
      • ITEM 12: overriding toString
      • ITEM 13: overriding clone judiciously
      • ITEM 14: Consider implementing comparable
      • ITEM 15: 클래스와 멤버의 접근을 최소화해라
      • ITEM 16: Use Accessor methods
      • ITEM 17: 변경 가능성을 최소화해라(불변 클래스)
      • ITEM 18: 상속보단 컴포지션을 사용해라
      • ITEM 19: 상속을 고려해 설계하고 문서화해라
      • ITEM 20: 추상 클래스보다 인터페이스를 우선하라
      • ITEM 21: 인터페이스는 구현하는 쪽을 생각해 설계해라.
      • ITEM 22: 인터페이스는 타입을 정의하는 용도로만 사용해라
      • ITEM 23: 태그 달린 클래스보다 클래스 계층구조를 활용해라
      • ITEM 24: 멤버 클래스는 되도록 static으로 구현해라
      • ITEM 25: 톱레벨 클래스는 한 파일에 하나만 생성해라.
      • ITEM 26: Raw type은 사용하지 마라
      • ITEM 27: 비검사 경고를 제거해라
      • ITEM 28: 배열보다는 리스트를 사용해라
      • ITEM 29: 이왕이면 제네릭 타입으로 만들어라
      • ITEM 30: 이왕이면 제네릭 메서드로 만들어라
      • ITEM 31 : 한정적 와일드카드를 사용해 API 유연성을 높여라
      • ITEM 32: 제네릭과 가변인수를 함께 쓸 때는 신중해라
      • ITEM 33: 타입 안전 이종 컨테이너를 고려해라
      • ITEM 34: int 상수 대신 열거 타입을 사용해라
      • ITEM 35: ordinal 메서드 대신 인스턴스 필드를 사용해라
      • ITEM 36: 비트 필드 대신 EnumSet을 사용해라
      • ITEM 37: ordinal 인덱싱 대신 EnumMap을 사용해라
      • TEM 38 : 확장할 수 있는 열거타입이 필요하면 인터페이스를 사용해라
      • ITEM 39: 명명 패턴보다 애너테이션을 사용해라
      • ITEM 40: @Override 어노테이션을 일관되게 사용해라
      • ITEM 41: 정의하려는 것이 타입이라면 마커 인터페이스를 사용해라
      • ITEM 42: 익명 클래스보다는 람다를 사용해라
      • ITEM 43: 람다보다는 메서드 참조를 사용해라
      • ITEM 44: 표준 함수형 인터페이스를 사용해라
      • ITEM 45: 스트림은 주의해서 사용해라
      • ITEM 46: 스트림에서 부작용 없는 함수를 사용해라
      • ITEM 47: 반환 타입으로는 스트림보다 컬렉션이 낫다.
      • ITEM 48: 스트림 병렬화는 주의해서 사용해라
      • ITEM 49: 매개변수가 유효한지 검사해라
      • ITEM 50: 적시에 방어적 복사본을 만들어라
      • ITEM 51: 메서드 시그니처를 신중히 설계해라
      • ITEM 52: 다중정의는 신중히 사용해라
      • ITEM 53: 가변인수는 신중히 사용해라
      • ITEM 54: null이 아닌, 빈 컬렉션이나 배열을 반환해라
      • ITEM 55: Optional 반환은 신중하게 해라
      • ITEM 56: 공개된 API 요소에는 항상 주석을 작성해라
      • ITEM 57: 지역변수의 범위를 최소화해라
      • ITEM 58: 전통적인 for 문보다는 for-each문을 사용해라
      • ITEM 59: 라이브러리를 익히고 사용해라
      • ITEM 60: 정확한 답이 필요하다면 float와 double은 피해라
      • ITEM 61: 박싱된 기본 타입보다는 기본 타입을 사용해라
      • ITEM 62: 다른 타입이 적절하다면 문자열 사용을 피해라
      • ITEM 63: 문자열 연결은 느리니 주의해라
      • ITEM 64: 객체는 인터페이스를 사용해 참조해라
      • ITEM 65: 리플렉션보다는 인터페이스를 사용해라
      • ITEM 66: 네이티브 메서드는 신중히 사용해라
      • ITEM 67: 최적화는 신중히 해라
      • ITEM 68: 일반적으로 통용되는 명명 규칙을 따라라
    • 객체지향 설계 원칙(SOLID)
    • 디자인패턴
      • Strategy Pattern
      • Template Method Pattern
      • Factory Method Pattern
      • Singleton
      • Delegation
      • Proxy
      • Adapter Pattern
    • 실습
      • 인터페이스 실습 - Vehicle
      • 인터페이스 실습 - Remote
      • GUI 실습 - Calculator
      • GUI 실습 - button
      • GUI 실습 - lotto
      • Thread 실습 - 좌석예약, 메세지보내기
    • Jar vs War
  • 데이터베이스
    • KEY
    • Index
    • Transaction
    • Trigger
    • Procedure / Function
    • Package
    • 데이터베이스 배움터
      • 데이터베이스 시스템
      • 관계데이터 모델
      • 관계대수와 SQL
    • MySQL
      • Database란
      • MySQL 시작하기
      • MySQL Database
      • MySQL Table
      • CRUD
      • 관계형 데이터베이스
      • Server와 Client
    • PostgreSQL
    • NoSQL
      • Install Cassandra on mac
      • Cassandra란?
      • NiFi란
  • Algorithm
    • String
    • Recursion
    • Dynamic Programming
    • Array, Struct, Pointer
    • Math
    • Sort
    • List
    • Stack
    • Queue
    • Graph
    • Tree
    • Maze
    • AVL
    • 이진탐색트리(Binary Search Tree)
    • DFS와 BFS
    • 다익스트라 알고리즘(Dijkstra's Algorithm)
    • Red-Black 트리
    • A* 알고리즘
    • Heap
    • Huffman Coding
    • Priority Queue
    • Bellman-Ford 알고리즘
    • C++
      • Class
      • STL
        • STL pair
        • STL Container - Associate Container
        • STL Container - Sequence Container
        • STL Container - Container Adapter
  • JavaScript
    • JABASCRIPT BASIC
    • Shallow Copy vs Deep Copy
    • OBJECT MODEL
    • NODE
    • 동기 처리 vs 비동기 처리
    • AJAX
    • CALLBACK
    • PROMISE
    • DEFERRER
    • UNDERSCORE
    • WEBPACK
    • SCOPE
    • EXECUTION CONTEXT
    • Image Object
    • BFCache란?
    • history.scrollRestoration
    • Intersection Observer
    • JWT - JSON Web Token
    • HTML vs JSON
  • Vue.js
    • 환경설정
    • Vue.js란?
    • Vue Instance
    • Vue Component
    • Vue Router
    • HTTP 통신
    • Template
    • Single File Component
    • Vue Animation
    • Vuex
    • Djnago와 연동하기
  • Backbone.js
    • Model
    • Collection
    • Sync
    • view
  • Node.js
    • Doit! - 노드로 만들 수 있는 대표적인 서버와 용도
    • Doit! - 노드에 대해 알아보고 개발 도구 설치하기
    • Doit! - 노드 간단하게 살펴보기
    • Doit! - 노드의 자바스크립트와 친해지기
    • Doit! - 노드의 기본 기능 알아보기
    • Doit! - 웹 서버 만들기
    • Doit! - 데이터베이스 사용하기
    • Doit! - 익스프레스 프로젝트를 모듈화하기
    • Doit! - 뷰 템플릿 적용하기
    • Doit! - 패스포트로 사용자 인증하기
    • Doit! - 채팅서버 만들기
    • Doit! - JSON-RPC 서버 만들기
  • Python
    • Warning-Could not import the lzma module
    • Pandas
      • Pandas 자료구조
      • Pandas 데이터 입출력
      • DataFrame Data 살펴보기
      • 시각화 도구 - Matplotlib
  • ML
    • 추천 시스템
      • Collaborative Filtering
      • Matrix Factorization
  • Django
    • Basic
      • 환경설정
      • About Django
      • Start Django Project
      • Secret Key 관리하기
      • Settings 분리하기
      • Django App
      • Django View & URL (1)
      • Django Model
        • MySQL 연동
      • Django Admin
      • Django View & URL (2)
      • Django Template
      • Django Template & View & URL
      • Django Static
      • Django form
    • Advanced
      • Django Generic View
      • Django Automated Testing
      • Django Extenstion Template
      • Django Model Package
      • Django OpenSSL setting
    • REST framework
      • Rest API
      • Serializers
      • ViewSet
    • Error
      • 환경설정 zlib 오류발생
      • ModuleNotFoundError
    • 패키지
      • django-debug-toolbar
    • Vue.js 연동하기
  • Ruby
    • variable & input/output
    • 조건문
    • 반복문
    • Array & Hash
    • Method
    • Proc&Lamda
    • Class
  • Ruby on Rails
    • Scaffolding
    • Controller
    • Model
    • Model-M:N relation
    • Model Validation
    • 멋사 10주차 수업(Tip)
  • HTML/CSS
    • Udacity - Intro to HTML/CSS
    • Udacity - Responsive Web Design
    • Udacity - Responsive Images
    • HTML Basic
    • CSS Basic
    • HTML5 Sementic Tag
    • HTML 텍스트 관련 태그들
    • HTML5 멀티미디어
    • HTML 폼 관련 태그들
    • 텍스트 관련 스타일
    • 색상과 배경을 위한 스타일
    • 레이아웃을 위한 스타일
    • CSS 포지셔닝
    • 다재다능한 CSS3 선택자
    • CSS와 애니메이션
    • 반응형 웹이란?
  • OS(운영체제)
    • Linux
      • Daemon
      • Cron
      • 프로세스 관련 명령어
      • 텍스트 파일 명령어
  • Network
    • 네트워크 기본 개념
    • 네트워크 기본 규칙
    • 물리 계층
    • 데이터 링크 계층
    • 네트워크 계층
    • 전송 계층
    • 응용 계층
    • 네트워크 전체 흐름
    • 무선 랜
  • IT 기타지식
    • NAS란
Powered by GitBook
On this page
  • Pandas 자료구조
  • Series
  • DataFrame
  • Index
  • 산술연산
  • 참고

Was this helpful?

  1. Python
  2. Pandas

Pandas 자료구조

Pandas 자료구조

데이터의 형태나 속성은 매우 다양하다. 이때 서로 다른 형식을 갖는 데이터를 컴퓨터가 이해할 수 있도록 동일한 형식을 갖는 구조로 통합할 필요가 있다. 이때 pandas의 Series와 DataFrame을 사용하여 공통의 포맷으로 정리할 수 있다.

Series

순차적으로 나열된 1차원 배열의 형태를 갖는다. python dictionary와 비슷한 구조이기 때문에 dictionary를 series로 변환하는 방법을 많이 사용한다.

pandas.Series(dictionary)
# dictionary
dict_data = {'a': 11, 'b': 2, 'c': 3}

# dictionary to Series
sr = pd.Series(dict_data)

print(type(sr))
print(sr)
<class 'pandas.core.series.Series'>


a    11
b     2
c     3
dtype: int64

index 속성을 이용해 인덱스 배열(.index)을 따로 선택할 수 있으며, 데이터 값(.values) 배열도 따로 가져올 수 있다.

print(sr.index) # Index(['a', 'b', 'c'], dtype='object')
print(sr.values)

만약 인덱스를 따로 지정하지 않는다면, default로 정수형 위치 인덱스가 자동으로 지정된다.

>>> list_data = ['20190428', 3.14, 'ABC', 100, True]
>>> sr = pd.Series(list_data)
>>> print(sr)
0    20190428
1        3.14
2         ABC
3         100
4        True
dtype: object
>>> print(sr.index)
RangeIndex(start=0, stop=5, step=1)

0에서 4까지 RangeIndex가 생성된 것을 확인할 수 있다.

이때 특정 범위의 Series Data를 가져올 수도 있다. [] 안에 가져오고 싶은 특정 index위치를 입력하면된다. 만약 정수형 인덱스가 아니라면 '' 혹은 ""로 불러 올 수 있다.

>>> sr[1:4]
1    3.14
2     ABC
3     100
dtype: object

Default로 정수형 인덱스를 생성할 수도 있지만, 특정 인덱스를 지정해서 생성할 수도 있다.

>>> tup_data= ('다혜', '2020', 'W', True)
>>> sr = pd.Series(tup_data, index=['이름', '연도', '성별', '직장여부'])
>>> print(sr)
이름        다혜
연도      2020
성별         W
직장여부    True
dtype: object

다음과 같이 index=[] 로 특정 인덱스를 리스트 형태로 전달해 생성할 수 있다. 만약 다수의 데이터를 가져오고 싶은 경우에는 다음과 같이 불러올 수 있다.

>>> sr[[1,3]]
연도      2020
직장여부    True
dtype: object

DataFrame

DataFrame은 2차원 배열 구조로, R의 Dataframe에서 유래됐다. Dataframe의 각 열은 각각의 Series 객체이다. Series를 열벡터(vector)라고 하면, DataFrame은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 혹은 행렬(matrix)이다.

DataFrame의 열은 공통의 속성을 갖는 일련의 데이터를 나타내교, 행은 개별 관측대상에 대한 다양한 속성 데이터들의 모음인 레코드(record)가 된다.

pandas.DataFrame(dictionary)

다음과 같이 DataFrame을 생성할 수 있다.

>>> dict_data = {'c0': [1,2,3], 'c1':[4,5,6], 'c2': [7,8,9]}
>>> df = pd.DataFrame(dict_data)
>>> print(type(df))
<class 'pandas.core.frame.DataFrame'>
>>> print(df)
   c0  c1  c2
0   1   4   7
1   2   5   8
2   3   6   9

행 인덱스, 열 이름

2차원 배열을 DataFrame() 함수 인자로 전달해 DataFrame으로 변환할 때 행 인덱스와 열 이름 속성을 사용자가 직접 지정할 수도 있다.

pandas.DataFrame(2차원배열, index=행 인덱스 배열, columns=열 이름 배열)
>>> df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '서원고']], index=['준서', '예은'], columns=['나이', '성별', '학교'])
>>> print(df)
    나이 성별   학교
준서  15  남  덕영중
예은  17  여  서원고

행 인덱스와 열 이름을 변경할 수도 있다.

df.index = 새로운 행 인덱스 배열
df.values = 새로운 열 이름 배열
df.index = ['학생1', '학생2']
>>> df.columns=['연령','남녀','소속']
>>> print(df)
     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  서원고

특정 인덱스와 열만 변경하고 싶은 경우 rename() 메소드를 사용하면된다.

df.rename(index={기존인덱스:새인덱스, ...})
df.rename(columns={기존이름:새이름, ...})

이때 원본 객체를 직접 수정하는 것이 아니라 새로운 DataFrame 객체를 반환한다. 만약 원본 객체를 변경하려면 inplace=True 옵션을 지정하면된다.

>>> df.rename(index={'학생1':'S1', '학생2':'S2'}, inplace=True)
>>> print(df)
    연령 남녀   소속
S1  15  남  덕영중
S2  17  여  서원고

행/열 삭제

df.drop(행 인덱스 or 배열, axis=0) # axis=0 default
df.drop(열 이름 or 배열, axis=1)

drop() 메소드를 이용해 행 혹은 열을 삭제할 수 있다. 이때, 원복 객체를 변경하지 않고 새로운 객체를 반환한다. 만약 원본 객체를 직접 변경하고 싶은 경우 inplace=True 옵션을 주면된다.

>>> df2 = df.drop('소속', axis=1)
>>> print(df2)
    연령 남녀
S1  15  남
S2  17  여
>>> df2.drop('S1', inplace=True)
>>> print(df2)
    연령 남녀
S2  17  여

행/열/원소 선택

  • 행 선택

구분

loc

iloc

탐색 대상

인덱스 이름(index label)

정수형 위치 인덱스(interger position)

범위 지정

가능(범위의 끝 포함) ex) ['a':'c']

가능(범위의 끝 제외) ex) [3:7] -> 3,4,5,6

>>> df.loc['상혁']
수학     90
영어     98
사회     70
과학    100
Name: 상혁, dtype: int64
>>> df.iloc[0]
수학     90
영어     98
사회     70
과학    100
Name: 상혁, dtype: int64

>>> df.loc[['상혁','우찬']]
    수학  영어  사회   과학
상혁  90  98  70  100
우찬  70  95  80   90

>>> df.iloc[0:1]
    수학  영어  사회   과학
상혁  90  98  70  100

범위지정으로 데이터를 가져오는 경우 슬라이싱 간격을 지정해서 가져올 수 있다.

>>> df.iloc[::2]
    수학  영어  사회   과학
상혁  90  98  70  100
우찬  70  95  80   90

역순으로 인덱싱 하려면 [::-1] 을 하면된다.

>>> df.iloc[::-1]
    수학  영어  사회   과학
우찬  70  95  80   90
상호  80  89  85   90
상혁  90  98  70  100
  • 열 선택

df["열 이름"]
df.열이름

단일 열을 가져올 때는 다음과 같이 가져올 수 있다. 두 번째 방법(.)은 열 이름이 문자열인 경우에만 가능하다. 단일 열을 가져오는 경우 Series 객체를 반환한다.

df[[열1,열2, ..., 열n]]

[[]] 를 사용해 열을 여러개 선택할 수 있다. [[]] 로 여러개의 열을 가져오는 경우 DataFrame 객체를 반환하며, [[열1]] 로 가져오는 경우에도 DataFrame 객체를 반환한다.

>>> df.수학
상혁    90
상호    80
우찬    70
Name: 수학, dtype: int64
>>> df['영어']
상혁    98
상호    89
우찬    95
Name: 영어, dtype: int64
>>> df[['영어','수학']]
    영어  수학
상혁  98  90
상호  89  80
우찬  95  70
  • 원소 선택

df.loc[행인덱스, 열 이름]
df.iloc[행번호, 열번호]
>>> df.loc['상혁', '수학']
90
>>> df.loc['상혁', ['수학', '과학']]
수학     90
과학    100
Name: 상혁, dtype: int64
>>> df.iloc[1,[1,3]]
영어    89
과학    90
Name: 상호, dtype: int64
>>> df.iloc[1,1:]
영어    89
사회    85
과학    90
Name: 상호, dtype: int64
>>> df.iloc[0:2,1:]
    영어  사회   과학
상혁  98  70  100
상호  89  85   90
>>> df.iloc[0:2,1:3]
    영어  사회
상혁  98  70
상호  89  85

값 추가

  • 열 추가

df['새로운 열 이름'] = 데이터 값
>>> df['국어'] = [100,80,90,70,80]
>>> print(df)
     수학  영어  사회   과학   국어
상혁  100  98  70  100  100
상호   80  89  85   90   80
우찬   70  95  80   90   90
진성   93  93  80   86   70
창동   70  80  90  100   80
  • 행추가

df.loc['새로운 행 이름'] = 데이터 값 or 배열

하나의 데이터 값을 입력하게 되면 행의 모든 원소에 동일한 값이 추가되며, 후자의 경우 배열의 순서대로 열 위치에 값이 하나씩 추가된다.

>>> df.loc['진성'] = 0
>>> print(df)
    수학  영어  사회   과학
상혁  90  98  70  100
상호  80  89  85   90
우찬  70  95  80   90
진성   0   0   0    0
>>> df.loc['창동'] = [70,80,90,100]
>>> print(df)
    수학  영어  사회   과학
상혁  90  98  70  100
상호  80  89  85   90
우찬  70  95  80   90
진성   0   0   0    0
창동  70  80  90  100
  • 원소 값 변경

>>> df.iloc[0][0]=100
>>> print(df)
     수학  영어  사회   과학
상혁  100  98  70  100
상호   80  89  85   90
우찬   70  95  80   90
진성    0   0   0    0
창동   70  80  90  100
>>> df.loc['진성',['수학','영어']] = 93
>>> print(df)
     수학  영어  사회   과학
상혁  100  98  70  100
상호   80  89  85   90
우찬   70  95  80   90
진성   93  93   0    0
창동   70  80  90  100
>>> df.loc['진성',['사회','과학']] = 80,86
>>> print(df)
     수학  영어  사회   과학
상혁  100  98  70  100
상호   80  89  85   90
우찬   70  95  80   90
진성   93  93  80   86
창동   70  80  90  100

행 열 위치 변경

df.transpose()
df.T
>>> print(df)
     수학  영어  사회   과학   국어
상혁  100  98  70  100  100
상호   80  89  85   90   80
우찬   70  95  80   90   90
진성   93  93  80   86   70
창동   70  80  90  100   80
>>> print(df.T)
     상혁  상호  우찬  진성   창동
수학  100  80  70  93   70
영어   98  89  95  93   80
사회   70  85  80  80   90
과학  100  90  90  86  100
국어  100  80  90  70   80

Index

  • 특정 열을 행 인덱스로 설정

df.set_index(['열 이름'])
df.set_index('열 이름')

특정 열을 행 인덱스로 사용할 수 있다. 이때 원본 객체를 변경하지 않고 새로운 객체를 반환한다. 만약 원본 객체에 할당하고 싶은 경우 inplace=True 옵션을 주면된다.

이때 행 인덱스를 여러개를 줄 수도 있으며, 이런 경우 MulitiIndex라고 하며, set_index() 로 새로 인덱스를 지정하면, 기존 행 인덱스는 삭제된다.

>>> df.set_index('수학')
     영어  사회   과학   국어
수학
100  98  70  100  100
80   89  85   90   80
70   95  80   90   90
93   93  80   86   70
70   80  90  100   80
>>> df.set_index(['수학','영어'])
        사회   과학   국어
수학  영어
100 98  70  100  100
80  89  85   90   80
70  95  80   90   90
93  93  80   86   70
70  80  90  100   80
  • 행 인덱스 재배열

df.reindex(새로운 인덱스 배열, fill_value=값)

기존 데이터프레임에 존재하지 않는 행 인덱스가 새롭게 추가되는 경우 NaN(Not a Number) 값이 입력된다. NaN대신 유효한 값을 채우려면 fill_value 옵션에 원하는 값을 입력하면된다.

>>> new_index = ['상혁','상호','우찬','진성','창동', 'NN']
>>> df.reindex(new_index)
       수학    영어    사회     과학     국어
상혁  100.0  98.0  70.0  100.0  100.0
상호   80.0  89.0  85.0   90.0   80.0
우찬   70.0  95.0  80.0   90.0   90.0
진성   93.0  93.0  80.0   86.0   70.0
창동   70.0  80.0  90.0  100.0   80.0
NN    NaN   NaN   NaN    NaN    NaN
>>> df.reindex(new_index, fill_value=0)
     수학  영어  사회   과학   국어
상혁  100  98  70  100  100
상호   80  89  85   90   80
우찬   70  95  80   90   90
진성   93  93  80   86   70
창동   70  80  90  100   80
NN    0   0   0    0    0
  • 행 인덱스 초기화

df.reset_index()

행 인덱스를 정수형 위치 인덱스로 초기화할 수 있다. 이때 기존 행 인덱스는 열로 이동한다.

>>> df.reset_index()
  index   수학  영어  사회   과학   국어
0    상혁  100  98  70  100  100
1    상호   80  89  85   90   80
2    우찬   70  95  80   90   90
3    진성   93  93  80   86   70
4    창동   70  80  90  100   80
  • 행 인덱스 기준으로 데이터 프레임 정렬

df.sort_index(ascending=True/False) # 오름차순/내림차순

ascending 옵션을 사용해 오름차순, 내림차순 정렬을 할 수 있다.

>>> df.sort_index()
     수학  영어  사회   과학   국어
상혁  100  98  70  100  100
상호   80  89  85   90   80
우찬   70  95  80   90   90
진성   93  93  80   86   70
창동   70  80  90  100   80
>>> df.sort_index(ascending=False)
     수학  영어  사회   과학   국어
창동   70  80  90  100   80
진성   93  93  80   86   70
우찬   70  95  80   90   90
상호   80  89  85   90   80
상혁  100  98  70  100  100
  • 특정 열의 데이터 값을 기준으로 DataFrame을 정렬할 수 있다.

df.sort_values()

ascending 옵션으로 오름차순, 내림차순 정렬을 설정할 수 있다.

>>> df.sort_values(by='수학')
     수학  영어  사회   과학   국어
우찬   70  95  80   90   90
창동   70  80  90  100   80
상호   80  89  85   90   80
진성   93  93  80   86   70
상혁  100  98  70  100  100
>>> df.sort_values(by='과학', ascending=False)
     수학  영어  사회   과학   국어
상혁  100  98  70  100  100
창동   70  80  90  100   80
상호   80  89  85   90   80
우찬   70  95  80   90   90
진성   93  93  80   86   70

산술연산

Pandas 객체의 산술연산은 내부적으로 3단계 프로세스를 거친다.

행/열 인덱스 기준으로 모든 원소 정렬
→ 동일한 위치에 있는 원소끼리 일대일 대응
→ 일대일 대응되는 원소끼리 연산처리

이때 일대일 대응되는 원소가 없으면 NaN 처리한다.

Series 연산

  • Series 숫자 연산

Series + 연산자(+,-,*,/) + 숫자

숫자 연산을 하면 개별 원소에 각 숫자를 연산자에 맞게 계산한다.

>>> sr
수학    100
영어     98
사회     70
과학    100
국어    100
Name: 상혁, dtype: int64
>>> sr2 = sr / 100
>>> sr2
수학    1.00
영어    0.98
사회    0.70
과학    1.00
국어    1.00
  • Series + Series

Series + 연산자(+,-,*,/) + Series

모든 인덱스에 대해 같은 인덱스를 가진 원소끼리 연산한다.

>>> sr2
수학    93
영어    93
사회    80
과학    86
국어    70
Name: 진성, dtype: int64
>>> sr
수학    100
영어     98
사회     70
과학    100
국어    100
Name: 상혁, dtype: int64
>>> sr + sr2
수학    193
영어    191
사회    150
과학    186
국어    170
dtype: int64

이때 인덱스의 순서가 다르더라도 같은 인덱스를 찾아서 정렬한 후 계산한다. 연산하는 두 Series의 원소 개수가 다르거나, 인덱스 값이 다른 경우에는 NaN 처리를 한다.

>>> sr2 = df.loc['진성']['수학':'사회']
>>> sr2
수학    93
영어    93
사회    80
Name: 진성, dtype: int64
>>> sr = df.loc['상혁']['사회':'국어']
>>> sr
사회     70
과학    100
국어    100
Name: 상혁, dtype: int64
>>> sr+sr2
과학      NaN
국어      NaN
사회    150.0
수학      NaN
영어      NaN
dtype: float64

이때 NaN이 포함된 값의 연산은 모두 NaN처리가 된다. 이때 NaN으로 반환되는 경우를 피하려면 fill_value 옵션을 설정해 적용할 수 있다.

sr1.add(sr2,fill_value=0) # add, sub, mul, div
>>> sr.add(sr2, fill_value=0)
과학    100.0
국어    100.0
사회    150.0
수학     93.0
영어     93.0
dtype: float64

DataFrame 연산

  • DataFrame + 숫자

DataFrame + 연산자(+,-,/,*) + 숫자

모든 원소에 숫자를 연산자에 맞게 계산한다.

>>> df = titanic.loc[:, ['age','fare']]
>>> print(df.head()) # 첫 5행만 표시
    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500
>>> df2 =df + 10
>>> df2.head()
    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500
  • DataFrame + DataFrame

DataFrame + 연산자(+,-,/,*) + DataFrame

각 데이터 프레임의 같은 행, 같은 열 위치에 있는 원소끼리 계산하며, 어느 한쪽 원소가 존재하지 않거나 NaN이면 연산 결과는 NaN으로 처리한다.

>>> df2 =df + 10
>>> result=df2-df
>>> result.tail() # 마지막 5행
      age  fare
886  10.0  10.0
887  10.0  10.0
888   NaN  10.0
889  10.0  10.0
890  10.0  10.0

참고

PreviousPandasNextPandas 데이터 입출력

Last updated 4 years ago

Was this helpful?

파이썬 머신러닝 판다스 데이터 분석