1. pandas?
In computer programming, pandas is a software library written for the Python programming language for data manipulation and analysis. In particular, it offers data structures and operations for manipulating numerical tables and time series.
2. 기능
- DataFrame object for data manipulation with integrated indexing. : 데이터 프레임, 인덱싱
- Tools for reading and writing data between in-memory data structures and different file formats. : 다양한 파일형식의 데이터 읽고 쓰기
- Data alignment and integrated handling of missing data. : 누락 데이터의 정렬과 통합
- Reshaping and pivoting of data sets. : 데이터셋 재구성과 피벗
- Label-based slicing, fancy indexing, and subsetting of large data sets. : 슬라이싱, 인덱싱, 하위 데이터셋
- Data structure column insertion and deletion. : 열 삽입 및 삭제
- Group by engine allowing split-apply-combine operations on data sets. : 엔진별 데이터셋 분할과 연결
- Data set merging and joining. : 데이터셋 병합과 결합
- Hierarchical axis indexing to work with high-dimensional data in a lower-dimensional data structure. : 저차원에서 고차원으로 계층 축 인덱싱(?)
- Time series-functionality: Date range generation and frequency conversion, moving window statistics, moving window linear regressions, date shifting and lagging. : 시계열기능 - 기간 범위 생성과 빈도 변환, 통계?? 선형회귀, 날짜 이동과 연기
- Provides data filtration. : 데이터 필터링
3. 자료구조
1) 1차원 : Series
import pandas as pd
a = [1,2,3,4,5]
b=pd.Series(a)
print(b)
2) 2차원 : DataFrame
a = {'book':['h','e','ll','o'],
'writer':['john','kate','jennifer','mungdo'],
'time':['2021-03-01','2021-03-05','2021-03-10','2021-03-26']}
b=pd.DataFrame(a)
b
3) 3차원 : Panel
4. 파일형식 읽고 쓰기 : CSV 파일, 텍스트 파일, 엑셀 파일, SQL 데이타베이스, HDF5 포맷 등
1) pd.read_csv(), pd.write_csv()
2) pd.read_excel('파일명', sheet_name='시트명') : xlrd 라이브러리 필요
5. 판다스 공부하기
pandas Series
728x90
'데이터 어쩌구 > 전처리 및 시각화' 카테고리의 다른 글
[라이브러리] from scipy import stats (0) | 2021.04.02 |
---|---|
[라이브러리] import numpy as np (0) | 2021.04.02 |
[부스트코스] 캐글 실습 : 설문조사 응답 분석 (9) (0) | 2021.03.19 |
[부스트코스] 캐글 실습 : 설문조사 응답 분석 (8) (0) | 2021.01.25 |
[부스트코스] 캐글 실습 : 설문조사 응답 분석 (7) (0) | 2021.01.25 |