본문 바로가기
데이터 어쩌구/전처리 및 시각화

[라이브러리] import pandas as pd

by annmunju 2021. 3. 26.

1. pandas?

In computer programming, pandas is a software library written for the Python programming language for data manipulation and analysis. In particular, it offers data structures and operations for manipulating numerical tables and time series.

 

2. 기능

  • DataFrame object for data manipulation with integrated indexing. : 데이터 프레임, 인덱싱
  • Tools for reading and writing data between in-memory data structures and different file formats. : 다양한 파일형식의 데이터 읽고 쓰기
  • Data alignment and integrated handling of missing data. : 누락 데이터의 정렬과 통합
  • Reshaping and pivoting of data sets. : 데이터셋 재구성과 피벗
  • Label-based slicing, fancy indexing, and subsetting of large data sets. : 슬라이싱, 인덱싱, 하위 데이터셋
  • Data structure column insertion and deletion. : 열 삽입 및 삭제
  • Group by engine allowing split-apply-combine operations on data sets. : 엔진별 데이터셋 분할과 연결
  • Data set merging and joining. : 데이터셋 병합과 결합
  • Hierarchical axis indexing to work with high-dimensional data in a lower-dimensional data structure. : 저차원에서 고차원으로 계층 축 인덱싱(?)
  • Time series-functionality: Date range generation and frequency conversion, moving window statistics, moving window linear regressions, date shifting and lagging. : 시계열기능 - 기간 범위 생성과 빈도 변환, 통계?? 선형회귀, 날짜 이동과 연기
  • Provides data filtration. : 데이터 필터링

 

3. 자료구조

 1) 1차원 : Series

import pandas as pd

a = [1,2,3,4,5]
b=pd.Series(a)

print(b)

 2) 2차원 : DataFrame

a = {'book':['h','e','ll','o'],
     'writer':['john','kate','jennifer','mungdo'],
     'time':['2021-03-01','2021-03-05','2021-03-10','2021-03-26']}
b=pd.DataFrame(a)

b

 3) 3차원 : Panel

 

4. 파일형식 읽고 쓰기 : CSV 파일, 텍스트 파일, 엑셀 파일, SQL 데이타베이스, HDF5 포맷 등 

 1) pd.read_csv(), pd.write_csv()

 2) pd.read_excel('파일명', sheet_name='시트명') : xlrd 라이브러리 필요

 

5. 판다스 공부하기

 

pandas(판다스) 기초 정리

Pandas_clear 안녕하세요. 문범우입니다. 이번 포스팅에서는 파이썬 라이브러리인 pandas(판다스)에 대해서 알아보도록 하겠습니다. 해당 내용은 flearning의 김길호님의 강의를 바탕으로

doorbw.tistory.com

 

pandas Series

 

pandas.Series — pandas 1.3.3 documentation

Values must be hashable and have the same length as data. Non-unique index values are allowed. Will default to RangeIndex (0, 1, 2, …, n) if not provided. If data is dict-like and index is None, then the keys in the data are used as the index. If the ind

pandas.pydata.org

 

 

728x90