Colab 운영체제
- 구글 colab에서는 우분투 버전의 리눅스를 사용.
- 코드 셀에서 !로 시작하는 것은 셀 커멘드로 운영체제에 직접 명령을 내리겠다는 의미.
Colab에 설치된 python 라이브러리
- !python --version 버전확인 : 3.7x
- !pip list
더보기
- fbprophet : 페이스북. 시계열 데이터를 다루는 머신러닝 패키지
- kaggle : 캐글 접속 api 제공
- keras : 딥러닝 라이브러리 (텐서플로우 2.0을 기반으로 작동. 텐서플로우에 포함되었음.)
- lightgbm : xg부스트 라이트 버전. 그라디언트 부스팅 패키지. (머신러닝 패키지)
- numpy : 수치 계산 라이브러리. n차원 매트릭스 수학적 표현 및 연산 가능.
- opencv : 오픈 컴퓨터 비전 라이브러리. c, c++로 구현되어 있음. 동영상, 이미지 처리 가능.
- pandas : np를 기반으로 고차원적 데이터 처리를 돕는 라이브러리. (R의 시리즈->데이터프레임 형태 차용)
- scikit-learn : 머신러닝 라이브러리. ML 기본 유틸리티 많이 구현되어 있음.
- seaborn : 자료 분석(통계) 내용을 그래프 형식으로 시각화.
- tensorflow : 딥러닝 라이브러리. 구글 제작. 산업계 표준. 연구에 있어서 pytorch와 경합해서 사용.
- theano : 예전에 사용했던 딥러닝 라이브러리...
- torch :(pytorch) 딥러닝 연구 구현에 사용
- xgboost : 알고리즘을 분산환경에서도 실행할 수 있도록 구현해놓은 라이브러리
- yellowbrick : 시각화 라이브러리
...
주요 라이브러리
Numpy
Pandas
- pd 데이터 읽어오기
- pd 데이터프레임 다루기
Matplotlib / Seaborn
- 그래프 그리기 (시각화)
Plotly
- Plotly 패키지는 Plotly 사에서 개발, 서비스하는 반응형 그래프 생성 엔진.
- 클라우드 기반의 엔터프라이즈 서비스는 유료
로컬에서 사용하는 개인용 라이브러리는 오픈소스로 제공되어 무료로 사용할 수 있다.
import plotly.express as px
fig = px.line(x=["a","b","c"], y=[1,3,2], title="sample figure")
fig.show()
캐글?
데이터 셋을 이용해서 커널을 만들거나 챌린지, 경쟁 등 여러 사람과 데이터셋을 다루는 서비스.
- 캐글에 관한 가이드 문서
Dataset download
- 경쟁 파트 > data에서 해당 내용을 활용하면 데이터셋 다운로드가 가능하다.
- Datasets 파트에 Public에는 활용 가능한 데이터셋이 있다.
캐글 API 접속
파이썬 내에 pip install을 통해 캐글 라이브러리 설치
> 캐클 라이브러리를 통해 데이터셋을 다운로드 하거나 대회에 참여할 수 있음.
- API 토큰 생성
- Colab에 kaggle API 환경변수 세팅 : 접근할 수 있는 아이디와 비밀번호라고 생각하면 됨.
import os
# os.environ을 이용하여 Kaggle API Username, Key 세팅하기
os.environ['KAGGLE_USERNAME']=datadinosaur
os.environ['KAGGLE_KEY']=xxxxxxxxxxxxxx
- Colab에서 kaggle 라이브러리 보기 (활용)
!kaggle -h
# usage: kaggle [-h] [-v] {competitions,c,datasets,d,kernels,k,config} ...
# optional arguments:
# -h, --help show this help message and exit
# -v, --version show program's version number and exit
# commands:
# {competitions,c,datasets,d,kernels,k,config}
# Use one of:
# competitions {list, files, download, submit, submissions, leaderboard}
# datasets {list, files, download, create, version, init, metadata, status}
# config {view, set, unset}
# competitions Commands related to Kaggle competitions
# datasets Commands related to Kaggle datasets
# kernels Commands related to Kaggle kernels
# config Configuration settings
- kaggle 데이터셋 다운로드하기
## 붙여넣기
!kaggle datasets download -d imakash3011/customer-personality-analysis
# Downloading customer-personality-analysis.zip to /content
# 0% 0.00/62.0k [00:00<?, ?B/s]
# 100% 62.0k/62.0k [00:00<00:00, 52.3MB/s]
## 해당 데이터셋이 다운로드 되어있는지 확인
!ls
# customer-personality-analysis.zip sample_data
728x90
'데이터 어쩌구 > ML DL 공부' 카테고리의 다른 글
[ProDS] 통계 이론 및 데이터 시각화 (0) | 2022.03.15 |
---|---|
[ML] 지도학습 : 평가지표 (0) | 2022.03.07 |
[ML] 지도학습 - KNN (0) | 2022.03.02 |
[ML] 기계학습 개요 (0) | 2022.03.02 |
[이론] 데이터의 분석과 모델의 학습 (0) | 2021.11.10 |