Vue.js
1.0.0
1.0.0
  • README
  • Git
    • Basic
    • Remote Repository
    • Log & Diff
    • Rebase&Cherri-Pick
    • git-flow
  • DevOps
    • Monolithic vs MSA
    • Jenkins 시작하기
    • Airflow 시작하기
    • Airflow 시작하기
    • Build Tools
      • maven
  • 개발 방법론
    • TDD
  • Spring
    • IoC
    • Is Spring Bean Thread-Safe?
    • Spring Singleton
    • Component Scan
    • Spring Annotation
    • 의존 관계 주입(DI)
    • Lombok 활용하기
    • Bean 생명주기와 콜백
    • Bean Scope
    • AOP(1) - AOP란
    • AOP(2) - Aop Proxy
    • AOP(3) - Dynamic Proxy
    • AOP(4) - AspectJ
    • POJO
    • Spring 서비스 구조
    • Transaction
    • JPA란?
    • JPA Entity
    • Spring Data JPA
    • Spring Data Specification
    • Model Mapping
    • Cache
    • restTemplate
    • YAML 파일 설정
    • Spring Boot
      • H2 DB 설정
      • 다중 데이터베이스 설정
      • Mybatis 연동하기
    • Spring Batch
      • Batch 시작해보기
      • Batch Job Flow
      • Job
      • Step
      • Batch Scope & Job Parameter
      • JobRepository와 메타테이블
      • Chunk 지향 프로그래밍
      • ItemReader
      • ItemProcessor
      • ItemWriter
      • Batch Schedular
      • Job별 Bean등록하기
      • Batch 구현시 발생한 오류 정리
      • Spring Batch Scaling
        • Multithread Job구현시 이슈사항
    • Spring test
      • Junit5
        • 테스트 이름 표기
        • 테스트 그룹 사이의 관계
        • 태그와 필터링
        • 동적 테스트
        • 테스트 LifeCycle
        • 테스트 메서드
        • 테스트 순서
        • AssertJ
        • 테스트 병렬 실행
        • AssertJ
        • Mock
      • Spring Boot Test DB 분리
      • Spring Batch Test
  • Web Application
    • Web Server & WAS
    • 관련 개념 - HTTP API, HTML, CSR, SSR
    • Servlet
    • JSP
    • Cookie And Session
    • 예외페이지
    • Java Bean
    • JDBC
    • Connection Pool
    • 파일 업로드
    • Expression Language
    • JSTL
    • FrontController패턴 Command 패턴
    • Forwarding
    • MVC
    • 회원가입예제
    • 참고
      • 개발환경설정
  • Java+
    • SOAP/WSDL vs REST
    • WSDL을 JAVA로 변환하기
    • SOAP 통신 OPEN API로 개발해보기
  • Java
    • Basic
      • 변수와 타입
      • 연산자
      • 조건문과 반복문
      • 참조 타입
      • 클래스
      • 상속(Inheritance)
      • 인터페이스(Interface)
      • 중첩 클래스와 중첩 인터페이스
      • 예외 처리
      • API - Object, System, Class, Math, Wrapper
      • API - String, StringBuffer, StringBuilder
      • Thread
      • Generic
      • Lambda
      • Collection - List, Set
      • Collection - Map
      • Collection - Tree
      • Collection - Stack, Queue
      • Stream
      • Reflection
      • 정규표현식
      • GUI
      • UML
      • Serializable
    • Advanced
      • OutOfMemoryError
      • AutoValue
      • meta-annotation
        • @Retention
        • @Target
        • @Repeatable
    • Effective Java 3/E
      • ITEM 1: Static Factory Method(정적 메소드)
      • ITEM 2: Builder Pattern
      • ITEM 3: Singleton
      • ITEM 4: Private Constructor
      • ITEM 5: Dependency Injection
      • ITEM 6: Avoid Unnecessary Object
      • ITEM 7: Eliminate Object Reference
      • ITEM 8: Avoid finalizer and cleaner
      • ITEM 9: try-with-resources
      • ITEM 10: The gerneral contract when overriding equlas
      • ITEM 11: Overriding hashCode
      • ITEM 12: overriding toString
      • ITEM 13: overriding clone judiciously
      • ITEM 14: Consider implementing comparable
      • ITEM 15: 클래스와 멤버의 접근을 최소화해라
      • ITEM 16: Use Accessor methods
      • ITEM 17: 변경 가능성을 최소화해라(불변 클래스)
      • ITEM 18: 상속보단 컴포지션을 사용해라
      • ITEM 19: 상속을 고려해 설계하고 문서화해라
      • ITEM 20: 추상 클래스보다 인터페이스를 우선하라
      • ITEM 21: 인터페이스는 구현하는 쪽을 생각해 설계해라.
      • ITEM 22: 인터페이스는 타입을 정의하는 용도로만 사용해라
      • ITEM 23: 태그 달린 클래스보다 클래스 계층구조를 활용해라
      • ITEM 24: 멤버 클래스는 되도록 static으로 구현해라
      • ITEM 25: 톱레벨 클래스는 한 파일에 하나만 생성해라.
      • ITEM 26: Raw type은 사용하지 마라
      • ITEM 27: 비검사 경고를 제거해라
      • ITEM 28: 배열보다는 리스트를 사용해라
      • ITEM 29: 이왕이면 제네릭 타입으로 만들어라
      • ITEM 30: 이왕이면 제네릭 메서드로 만들어라
      • ITEM 31 : 한정적 와일드카드를 사용해 API 유연성을 높여라
      • ITEM 32: 제네릭과 가변인수를 함께 쓸 때는 신중해라
      • ITEM 33: 타입 안전 이종 컨테이너를 고려해라
      • ITEM 34: int 상수 대신 열거 타입을 사용해라
      • ITEM 35: ordinal 메서드 대신 인스턴스 필드를 사용해라
      • ITEM 36: 비트 필드 대신 EnumSet을 사용해라
      • ITEM 37: ordinal 인덱싱 대신 EnumMap을 사용해라
      • TEM 38 : 확장할 수 있는 열거타입이 필요하면 인터페이스를 사용해라
      • ITEM 39: 명명 패턴보다 애너테이션을 사용해라
      • ITEM 40: @Override 어노테이션을 일관되게 사용해라
      • ITEM 41: 정의하려는 것이 타입이라면 마커 인터페이스를 사용해라
      • ITEM 42: 익명 클래스보다는 람다를 사용해라
      • ITEM 43: 람다보다는 메서드 참조를 사용해라
      • ITEM 44: 표준 함수형 인터페이스를 사용해라
      • ITEM 45: 스트림은 주의해서 사용해라
      • ITEM 46: 스트림에서 부작용 없는 함수를 사용해라
      • ITEM 47: 반환 타입으로는 스트림보다 컬렉션이 낫다.
      • ITEM 48: 스트림 병렬화는 주의해서 사용해라
      • ITEM 49: 매개변수가 유효한지 검사해라
      • ITEM 50: 적시에 방어적 복사본을 만들어라
      • ITEM 51: 메서드 시그니처를 신중히 설계해라
      • ITEM 52: 다중정의는 신중히 사용해라
      • ITEM 53: 가변인수는 신중히 사용해라
      • ITEM 54: null이 아닌, 빈 컬렉션이나 배열을 반환해라
      • ITEM 55: Optional 반환은 신중하게 해라
      • ITEM 56: 공개된 API 요소에는 항상 주석을 작성해라
      • ITEM 57: 지역변수의 범위를 최소화해라
      • ITEM 58: 전통적인 for 문보다는 for-each문을 사용해라
      • ITEM 59: 라이브러리를 익히고 사용해라
      • ITEM 60: 정확한 답이 필요하다면 float와 double은 피해라
      • ITEM 61: 박싱된 기본 타입보다는 기본 타입을 사용해라
      • ITEM 62: 다른 타입이 적절하다면 문자열 사용을 피해라
      • ITEM 63: 문자열 연결은 느리니 주의해라
      • ITEM 64: 객체는 인터페이스를 사용해 참조해라
      • ITEM 65: 리플렉션보다는 인터페이스를 사용해라
      • ITEM 66: 네이티브 메서드는 신중히 사용해라
      • ITEM 67: 최적화는 신중히 해라
      • ITEM 68: 일반적으로 통용되는 명명 규칙을 따라라
    • 객체지향 설계 원칙(SOLID)
    • 디자인패턴
      • Strategy Pattern
      • Template Method Pattern
      • Factory Method Pattern
      • Singleton
      • Delegation
      • Proxy
      • Adapter Pattern
    • 실습
      • 인터페이스 실습 - Vehicle
      • 인터페이스 실습 - Remote
      • GUI 실습 - Calculator
      • GUI 실습 - button
      • GUI 실습 - lotto
      • Thread 실습 - 좌석예약, 메세지보내기
    • Jar vs War
  • 데이터베이스
    • KEY
    • Index
    • Transaction
    • Trigger
    • Procedure / Function
    • Package
    • 데이터베이스 배움터
      • 데이터베이스 시스템
      • 관계데이터 모델
      • 관계대수와 SQL
    • MySQL
      • Database란
      • MySQL 시작하기
      • MySQL Database
      • MySQL Table
      • CRUD
      • 관계형 데이터베이스
      • Server와 Client
    • PostgreSQL
    • NoSQL
      • Install Cassandra on mac
      • Cassandra란?
      • NiFi란
  • Algorithm
    • String
    • Recursion
    • Dynamic Programming
    • Array, Struct, Pointer
    • Math
    • Sort
    • List
    • Stack
    • Queue
    • Graph
    • Tree
    • Maze
    • AVL
    • 이진탐색트리(Binary Search Tree)
    • DFS와 BFS
    • 다익스트라 알고리즘(Dijkstra's Algorithm)
    • Red-Black 트리
    • A* 알고리즘
    • Heap
    • Huffman Coding
    • Priority Queue
    • Bellman-Ford 알고리즘
    • C++
      • Class
      • STL
        • STL pair
        • STL Container - Associate Container
        • STL Container - Sequence Container
        • STL Container - Container Adapter
  • JavaScript
    • JABASCRIPT BASIC
    • Shallow Copy vs Deep Copy
    • OBJECT MODEL
    • NODE
    • 동기 처리 vs 비동기 처리
    • AJAX
    • CALLBACK
    • PROMISE
    • DEFERRER
    • UNDERSCORE
    • WEBPACK
    • SCOPE
    • EXECUTION CONTEXT
    • Image Object
    • BFCache란?
    • history.scrollRestoration
    • Intersection Observer
    • JWT - JSON Web Token
    • HTML vs JSON
  • Vue.js
    • 환경설정
    • Vue.js란?
    • Vue Instance
    • Vue Component
    • Vue Router
    • HTTP 통신
    • Template
    • Single File Component
    • Vue Animation
    • Vuex
    • Djnago와 연동하기
  • Backbone.js
    • Model
    • Collection
    • Sync
    • view
  • Node.js
    • Doit! - 노드로 만들 수 있는 대표적인 서버와 용도
    • Doit! - 노드에 대해 알아보고 개발 도구 설치하기
    • Doit! - 노드 간단하게 살펴보기
    • Doit! - 노드의 자바스크립트와 친해지기
    • Doit! - 노드의 기본 기능 알아보기
    • Doit! - 웹 서버 만들기
    • Doit! - 데이터베이스 사용하기
    • Doit! - 익스프레스 프로젝트를 모듈화하기
    • Doit! - 뷰 템플릿 적용하기
    • Doit! - 패스포트로 사용자 인증하기
    • Doit! - 채팅서버 만들기
    • Doit! - JSON-RPC 서버 만들기
  • Python
    • Warning-Could not import the lzma module
    • Pandas
      • Pandas 자료구조
      • Pandas 데이터 입출력
      • DataFrame Data 살펴보기
      • 시각화 도구 - Matplotlib
  • ML
    • 추천 시스템
      • Collaborative Filtering
      • Matrix Factorization
  • Django
    • Basic
      • 환경설정
      • About Django
      • Start Django Project
      • Secret Key 관리하기
      • Settings 분리하기
      • Django App
      • Django View & URL (1)
      • Django Model
        • MySQL 연동
      • Django Admin
      • Django View & URL (2)
      • Django Template
      • Django Template & View & URL
      • Django Static
      • Django form
    • Advanced
      • Django Generic View
      • Django Automated Testing
      • Django Extenstion Template
      • Django Model Package
      • Django OpenSSL setting
    • REST framework
      • Rest API
      • Serializers
      • ViewSet
    • Error
      • 환경설정 zlib 오류발생
      • ModuleNotFoundError
    • 패키지
      • django-debug-toolbar
    • Vue.js 연동하기
  • Ruby
    • variable & input/output
    • 조건문
    • 반복문
    • Array & Hash
    • Method
    • Proc&Lamda
    • Class
  • Ruby on Rails
    • Scaffolding
    • Controller
    • Model
    • Model-M:N relation
    • Model Validation
    • 멋사 10주차 수업(Tip)
  • HTML/CSS
    • Udacity - Intro to HTML/CSS
    • Udacity - Responsive Web Design
    • Udacity - Responsive Images
    • HTML Basic
    • CSS Basic
    • HTML5 Sementic Tag
    • HTML 텍스트 관련 태그들
    • HTML5 멀티미디어
    • HTML 폼 관련 태그들
    • 텍스트 관련 스타일
    • 색상과 배경을 위한 스타일
    • 레이아웃을 위한 스타일
    • CSS 포지셔닝
    • 다재다능한 CSS3 선택자
    • CSS와 애니메이션
    • 반응형 웹이란?
  • OS(운영체제)
    • Linux
      • Daemon
      • Cron
      • 프로세스 관련 명령어
      • 텍스트 파일 명령어
  • Network
    • 네트워크 기본 개념
    • 네트워크 기본 규칙
    • 물리 계층
    • 데이터 링크 계층
    • 네트워크 계층
    • 전송 계층
    • 응용 계층
    • 네트워크 전체 흐름
    • 무선 랜
  • IT 기타지식
    • NAS란
Powered by GitBook
On this page
  • 데이터 가져오기
  • 외부 파일 읽어오기
  • Web에서 가져오기
  • API 활용해 데이터 가져오기
  • 데이터 저장하기
  • CSV 파일로 저장
  • JSON 파일로 저장
  • Excel 파일로 저장
  • 참고

Was this helpful?

  1. Python
  2. Pandas

Pandas 데이터 입출력

데이터 가져오기

외부 파일 읽어오기

Pandas는 다양한 형태의 외부 파일을 읽어와 DataFrame으로 변환하는 함수를 제공한다. 어떠한 파일이든 DataFrame으로 변환하면 Pandas의 모든 함수와 기능을 자유롭게 사용할 수 있다.

File Format
Reader
Writer

CSV

read_csv

to_csv

JSON

read_json

to_json

HTML

read_html

to_html

Local clipboard

read_clipboard

to_clipboard

MS Excel

read_excel

to_excel

HDF5 Format

read_hdf

to_hdf

SQL

read_sql

to_sql

CSV

CSV(Comma-Separated Values)는 데이터 값을 쉼표(,)로 구분하고 있다는 의미의 텍스트 파일이다. 쉼표로 열을 구분하고 줄바꿈으로 행을 구분하고 있다.

pandas.read_csv(file)
옵션
설명

path

파일의 위치(파일명 포함), URL

sep(or delimiter)

텍스트 데이터를 필드별로 구분하는 문자

header

열 이름으로 사용될 행의 번호( default = 0) header가 없고 첫 행부터 데이터가 있는 경우 None으로 지정가능

index_col

행 인덱스로 사용할 열의 번호 또는 열 이름

names

열 이름으로 사용할 문자열의 리스트

skiprows

처음 몇 줄을 skip할 것인지 설정 skip하려는 행의 번호를 담은 리스트로 설정 가능([1,3,5])

parse_dates

날짜 텍스트를 datetime64로 변환할 것인지 설정(default=False)

skip_footer

마지막 몇 줄을 skip할 것인지 설정

encoding

텍스트 인코딩 종류를 지정

>>> import pandas as pd
>>> file_path = './qna.csv'
>>> df = pd.read_csv(file_path,  encoding='ms949')
>>> print(df)
       ITEM_CD  ...                                           CONTENTS
0     62938619  ...  88사이즈 밖에 없는데 99사이즈도 입어도 되나요 많이 넉넉하게 나왔나요  선물 할...
1     62491750  ...                                       다음방송은 언제인가요?
2     62006040  ...  44사이즈도 만들어 주세요\n바지는  정말~~~~예쁘고 입고 싶은 스탈인데 55사이...

Excel

pandas.read_excel(file)

read_excel()은 앞의 read_csv() 와 거의 유사하다. 대부분의 옵션을 그대로 사용할 수 있다.

>>> df = pd.read_excel('./django.xlsx', header=1)
>>> print(df)
                                     Django 프로젝트 간트차트                              Unnamed: 1 Unnamed: 2  ... Unnamed: 72    Unnamed: 73 Unnamed: 74
0                                           작성자 : 정다혜                                     NaN        NaN  ...         NaN            NaN         NaN
1                             작성일 : 2019년 11월 22일 (금)                                     NaN        NaN  ...         NaN            NaN         NaN
2                                                 NaN                                     NaN        NaN  ...         NaN            NaN         NaN
3                                                 NaN                                   작업 이름         기간  ...         NaN  2019년 11월 24일         NaN
4                                                 NaN                                     NaN        NaN  ...        23.0             24        25.0
5                                                   1                                    사전공부       21 일  ...         NaN            NaN         NaN
6                                                   2                      Django + python 공부       11 일  ...         NaN            NaN         NaN
7                                                   3                  Vue.js + javascirpt 공부        6 일  ...         NaN            NaN         NaN
  • ImportError

>>> df = pd.read_excel('./django.xlsx')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/jeongdaye/.pyenv/versions/pandas/lib/python3.7/site-packages/pandas/io/excel/_base.py", line 304, in read_excel
    io = ExcelFile(io, engine=engine)
  File "/Users/jeongdaye/.pyenv/versions/pandas/lib/python3.7/site-packages/pandas/io/excel/_base.py", line 824, in __init__
    self._reader = self._engines[engine](self._io)
  File "/Users/jeongdaye/.pyenv/versions/pandas/lib/python3.7/site-packages/pandas/io/excel/_xlrd.py", line 20, in __init__
    import_optional_dependency("xlrd", extra=err_msg)
  File "/Users/jeongdaye/.pyenv/versions/pandas/lib/python3.7/site-packages/pandas/compat/_optional.py", line 92, in import_optional_dependency
    raise ImportError(msg) from None
ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd.

excel파일을 읽어오려고 할때 다음과 같은 오류가 발생할 수 있다. 이 경우에는 해당 라이브러리를 설치해주면된다.

$ pip install xlrd

JSON

JSON 파일은 데이터 공유를 목적으로 개발된 특수한 파일 형식이다.

pandas.read_json(file)
>>> df = pd.read_json('./itemInfo.json')
>>> print(df)
                  code        serialID resCode resMsg                                             result  description  status  errorCode message
benefitInfo          1  20200429114333                   {'noInterestMonth': 10, 'isFreeDelivery': True}          NaN     200        NaN
cateInfo             1  20200429114333                 {'llargeCategoryId': 'G00007', 'llargeCategory...          NaN     200        NaN
channelCode          1  20200429114333                                                          50001001          NaN     200        NaN
detailInfo           1  20200429114333                 {'itemType': 'CJMALL', 'slPrc': 188000, 'clpSl...          NaN     200        NaN
exceptionCode        1  20200429114333                                                                00          NaN     200        NaN
exceptionMsg         1  20200429114333                                                                정상          NaN     200        NaN
imagesInfo           1  20200429114333                 {'timeStamp': 1567555709718, 'itemImages': ['/...          NaN     200        NaN
itemButton           1  20200429114333                 {'giftDeliv': False, 'type': 'BUY', 'cart': Fa...          NaN     200        NaN
marketingBanners     1  20200429114333                                                                []          NaN     200        NaN
mobilePlus           1  20200429114333                                                                 0          NaN     200        NaN
shareEventInfo       1  20200429114333                                                              None          NaN     200        NaN
videoInfo            1  20200429114333                 {'internetLive': None, 'broadcastItemType': 'E...          NaN     200        NaN

Web에서 가져오기

HTML 웹 페이지에서 속성 가져오기

pandas.read_html(url or htmlfile)

read_html() 메소드는 HTML에 있는 <table> 태그에서 표 형식의 데이터를 모두 찾아서 DataFrame으로 변환한다.

>>> url = './corona.html'
>>> tables = pd.read_html(url)
>>> print(len(tables))
4
>>> for i in range(len(tables)):
...     print("tables[%s]"  % i)
...     print(tables[i])
...     print("\n")
...
tables[0]
   지역  확진환자수     비율
0  대구   6856  63.5%
1  경북   1366  12.6%
2  경기    680   6.3%
3  서울    637   5.9%
4  검역    458   4.2%
5  충남    143   1.3%
6  부산    138   1.2%
7  경남    117   1.0%
8  인천     95   0.8%
9  강원     53   0.4%


tables[1]
   지역  확진환자수    비율
0  세종     46  0.4%
1  충북     45  0.4%
2  울산     43  0.4%
3  대전     40  0.3%
4  광주     30  0.2%
5  전북     18  0.1%
6  전남     15  0.1%
7  제주     13  0.1%


tables[2]
     국가          총확진자   실질확진자         사망률(수)
0    미국  113011529918  888912   5.9%(66,224)
1   스페인    2165821366   74234  11.6%(25,100)
2  이탈리아    2093281900  100704  13.7%(28,710)
3    영국    1822604806  154225  15.4%(28,131)
4    독일     164967890   29155    4.1%(6,812)
5   프랑스     130979794   92496  18.9%(24,760)
6    터키    1243751983   62780    2.7%(3,336)
7   러시아    1240549623  107819    1.0%(1,222)


tables[3]
     국가       총확진자  실질확진자        사망률(수)
0   브라질  965594970  49402   7.0%(6,750)
1    이란   96448802  12942   6.4%(6,156)
2    중국     828772    557   5.6%(4,633)
3   캐나다  567143057  30428   6.3%(3,566)
4   벨기에   49517485  29541  15.7%(7,765)
5    페루  425342075  28900   2.8%(1,200)
6  네덜란드   40236445  35249  12.4%(4,987)
7    인도   35776733  27557   3.4%(1,223)


>>> df = tables[1]
>>> df
   지역  확진환자수    비율
0  세종     46  0.4%
1  충북     45  0.4%
2  울산     43  0.4%
3  대전     40  0.3%
4  광주     30  0.2%
5  전북     18  0.1%
6  전남     15  0.1%
7  제주     13  0.1%
>>> df.set_index(['지역'], inplace=True)
>>> df
    확진환자수    비율
지역
세종     46  0.4%
충북     45  0.4%
울산     43  0.4%
대전     40  0.3%
광주     30  0.2%
전북     18  0.1%
전남     15  0.1%
제주     13  0.1%
  • Import Error

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/jeongdaye/.pyenv/versions/pandas/lib/python3.7/site-packages/pandas/io/html.py", line 1100, in read_html
    displayed_only=displayed_only,
  File "/Users/jeongdaye/.pyenv/versions/pandas/lib/python3.7/site-packages/pandas/io/html.py", line 891, in _parse
    parser = _parser_dispatch(flav)
  File "/Users/jeongdaye/.pyenv/versions/pandas/lib/python3.7/site-packages/pandas/io/html.py", line 848, in _parser_dispatch
    raise ImportError("lxml not found, please install it")
ImportError: lxml not found, please install it

다음과 같이 오류가 발생하는 경우에는 lxml 라이브러리를 설치해주면된다.

$ pip install lxml

Web Scraping

BeautifulSoup 등 웹 스크래핑 도구로 수집한 데이터를 Pandas DataFrame으로 정리할 수 있다. 이때는 Scraping한 내용을 python list, dictionary로 변환한 뒤, DataFrame으로 변환한다.

  • Install BeautifulSoup

$ pip install beautifulsoup4
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd


url = "https://en.wikipedia.org/wiki/List_of_American_exchange-traded_funds"
resp = requests.get(url, verify=False)
soup = BeautifulSoup(resp.text, 'lxml')
rows = soup.select('div > ul > li')

etfs = {}

for row in rows:
	try:
		etf_name = re.findall('^(.*) \(NYSE', rows[10].text)
		etf_market = re.findall('\((.*)\|', row.text)
		etf_ticker = re.findall('NYSE Arca\|(.*)\)', row.text)
		if(len(etf_ticker)>0) & (len(etf_market)>0):
			etfs[etf_ticker[0]] = [etf_market[0], etf_name[0]]

	except AttributeError as err:
		pass


print(etfs)
{'ITOT': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'IWV': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'SCHB': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'FNDB': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'VT': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'VTI': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'VXUS': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'VTHR': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'DIA': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'RSP': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'IOO': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'IVV': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'SPY': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'VOO': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'IWM': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'OEF': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'CVY': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'RPG': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'RPV': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'IWB': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'PKW': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'PRF': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'SPLV': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'], 'SCHX': ['NYSE Arca', 'iShares Core S&P Total U ...']}


df = pd.DataFrame(etfs)
print(df)
                                  ITOT                                  IWV                                 SCHB                                 FNDB  ...                                  ICB                                  RRF                                 USDU                                 WDTI
0                            NYSE Arca                            NYSE Arca                            NYSE Arca                            NYSE Arca  ...                            NYSE Arca                            NYSE Arca                            NYSE Arca                            NYSE Arca
1  iShares Core S&P Total US Stock Mkt  iShares Core S&P Total US Stock Mkt  iShares Core S&P Total US Stock Mkt  iShares Core S&P Total US Stock Mkt  ...  iShares Core S&P Total US Stock Mkt  iShares Core S&P Total US Stock Mkt  iShares Core S&P Total US Stock Mkt  iShares Core S&P Total US Stock Mkt

requests 를 이용해서 html을 가져올 것이다. 이때, SSLError가 발생할 수 있다.

  • SSLError

requests.exceptions.SSLError: HTTPSConnectionPool(host='en.wikipedia.org', port=443): Max retries exceeded with url: /wiki/List_of_American_exchange-traded_funds (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1051)')))

신뢰할 수 없는 인증서로 발생하는 오류인데, verify=False 옵션으로 해결할 수 있다.

>>> resp = requests.get(url, verify=False)
/Users/jeongdaye/.pyenv/versions/pandas/lib/python3.7/site-packages/urllib3/connectionpool.py:986: InsecureRequestWarning: Unverified HTTPS request is being made to host 'en.wikipedia.org'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
  InsecureRequestWarning,

API 활용해 데이터 가져오기

import pandas as pd
import requests
import json

rqst = requests.get("https://www.nlotto.co.kr/common.do?method=getLottoNumber&drwNo=819", verify=False)
result = json.loads(rqst.text)

df = pd.DataFrame(result, index=[0])
print(df)
  totSellamnt returnValue   drwNoDate  ...  drwtNo2  drwtNo3  drwtNo1
0  74578907000     success  2018-08-11  ...       25       33       16

데이터 저장하기

CSV 파일로 저장

df.to_csv("file")
>>> import pandas as pd
>>> data = {'name': ['Jerry', 'Riah', 'Paul'], 'algol': ['A', 'A+', 'B'],
... 'basic': ['C','B','B+']
... , 'c++': ['B+', 'C', 'C+'],}
>>> df = pd.DataFrame(data)
>>> df.set_index('name', inplace=True)
>>> df.to_csv('./df_sample.csv')
$ ls
bs.py              django.xlsx        premium_review.csv serires.py
corona.html        itemInfo.json      qna.csv
df_sample.csv      lotto.py           requirements.txt
name,algol,basic,c++
Jerry,A,C,B+
Riah,A+,B,C
Paul,B,B+,C+

JSON 파일로 저장

df.to_json(file)

위의 DataFrame 객체인 df로 json형태로 데이터를 내보낼 것이다.

df.to_json('./df_sample.json')
$ ls
bs.py              df_sample.json     lotto.py           requirements.txt
corona.html        django.xlsx        premium_review.csv serires.py
df_sample.csv      itemInfo.json      qna.csv
{"algol":{"Jerry":"A","Riah":"A+","Paul":"B"},"basic":{"Jerry":"C","Riah":"B","Paul":"B+"},"c++":{"Jerry":"B+","Riah":"C","Paul":"C+"}}

Excel 파일로 저장

df.to_excel(file
df.to_excel('./df_sample.xlsx')

to_excel 메소드 이용시 아래와 같이 moduleNotFoundError가 발생할 수 있다.

  • ModuleNotFoundError

from openpyxl.workbook import Workbook
ModuleNotFoundError: No module named 'openpyx'

openpyx를 설치하면 제대로 되는 것을 확인할 수 있다.

$ pip install openpyx
$ ls
bs.py              df_sample.json     itemInfo.json      qna.csv
corona.html        df_sample.xlsx     lotto.py           requirements.txt
df_sample.csv      django.xlsx        premium_review.csv serires.py

여러개의 DataFrame을 하나의 Excel 파일로 저장

pandas.ExcelWriter(file)
>>> import pandas as pd
>>> data = {'name': ['Jerry', 'Riah', 'Paul'], 'algol': ['A', 'A+', 'B'],'basic': ['C','B','B+'], 'c++': ['B+', 'C', 'C+'],}
>>> df = pd.DataFrame(data)
>>> df.set_index('name', inplace=True)
>>> data2 = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12]}
>>> df2 = pd.DataFrame(data2)
>>> df2.set_index('c0', inplace=True)
>>> df
      algol basic c++
name
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+
>>> df2
    c1  c2  c3
c0
1    4   7  10
2    5   8  11
3    6   9  12
>>> writer = pd.ExcelWriter('./df_excelwriter.xlsx')
>>> df.to_excel(writer, sheet_name="sheet1")
>>> df2.to_excel(writer, sheet_name="sheet2")
>>> writer.save()
$ ls
bs.py               df_sample.json      lotto.py            serires.py
corona.html         df_sample.xlsx      premium_review.csv  
df_excelwriter.xlsx django.xlsx         qna.csv
df_sample.csv       itemInfo.json       requirements.txt

참고

PreviousPandas 자료구조NextDataFrame Data 살펴보기

Last updated 3 years ago

Was this helpful?

를 이용해 drwNo(회차)에 대한 결과 값을 받을 것이다.

로또 당첨 번호 API
파이썬 머신러닝 판다스 데이터 분석
pandas API
SSLError
image-20200504105408175
image-20200504104943217