본문 바로가기
데이터 어쩌구/ML DL 공부

[setting] 학습 환경 소개 및 정리 (Colab, kaggle)

by annmunju 2021. 11. 9.

Colab 운영체제 

- 구글 colab에서는 우분투 버전의 리눅스를 사용. 

- 코드 셀에서 !로 시작하는 것은 셀 커멘드로 운영체제에 직접 명령을 내리겠다는 의미.

 

Colab에 설치된 python 라이브러리

- !python --version 버전확인 : 3.7x

- !pip list

더보기
  • fbprophet : 페이스북. 시계열 데이터를 다루는 머신러닝 패키지
  • kaggle : 캐글 접속 api 제공
  • keras : 딥러닝 라이브러리 (텐서플로우 2.0을 기반으로 작동. 텐서플로우에 포함되었음.)
  • lightgbm : xg부스트 라이트 버전. 그라디언트 부스팅 패키지. (머신러닝 패키지) 
  • numpy : 수치 계산 라이브러리. n차원 매트릭스 수학적 표현 및 연산 가능.
  • opencv : 오픈 컴퓨터 비전 라이브러리. c, c++로 구현되어 있음. 동영상, 이미지 처리 가능.
  • pandas : np를 기반으로 고차원적 데이터 처리를 돕는 라이브러리. (R의 시리즈->데이터프레임 형태 차용)
  • scikit-learn : 머신러닝 라이브러리. ML 기본 유틸리티 많이 구현되어 있음.
  • seaborn : 자료 분석(통계) 내용을 그래프 형식으로 시각화. 
  • tensorflow : 딥러닝 라이브러리. 구글 제작. 산업계 표준. 연구에 있어서 pytorch와 경합해서 사용. 
  • theano : 예전에 사용했던 딥러닝 라이브러리...
  • torch :(pytorch) 딥러닝 연구 구현에 사용 
  • xgboost : 알고리즘을 분산환경에서도 실행할 수 있도록 구현해놓은 라이브러리
  • yellowbrick : 시각화 라이브러리

...

 

주요 라이브러리

Numpy 

 

[라이브러리] import numpy as np

1. Numpy? NumPy("넘파이"라 읽는다)는 행렬이나 일반적으로 대규모 다차원 배열을 쉽게 처리 할 수 있도록 지원하는 파이썬의 라이브러리이다. NumPy는 데이터 구조 외에도 수치 계산을 위해 효율적

mungdo-log.tistory.com

 

Pandas

 

[라이브러리] import pandas as pd

1. pandas? In computer programming, pandas is a software library written for the Python programming language for data manipulation and analysis. In particular, it offers data..

mungdo-log.tistory.com

- pd 데이터 읽어오기

 

[Pandas] 데이터 읽어오기 (read_)

최근에 본 테스트에서 read_csv에 다양한 옵션값이 있는 것을 알아야 풀 수 있는 문제가 있었고, 덕분에 시원하게 망했었다. 그래서 그 내용을 정리해서 다시는 잊지 않도록 한다. 출처 : https://panda

mungdo-log.tistory.com

- pd 데이터프레임 다루기

 

[pandas] 데이터 프레임 다루기

pandas에서 내가 가장 어려워 하는 것 중에 하나가 데이터 프레임 다루는 거다. 내가 필요할 때 맞는 방식으로 자유롭게 열을 늘렸다, 이름도 바꿨다 하는 건 너무 어려워서 한 페이지에 정리하고

mungdo-log.tistory.com

 

Matplotlib / Seaborn

- 그래프 그리기 (시각화) 

 

[matplotlib/seaborn] 그래프 그리기 (시각화)

0. 한글 깨짐 방지부터 + 색상 변경 라이브러리 : from matplotlib.colors import ListedColormap # 그래프에 한글깨짐 방지 + 마이너스 깨짐 방지 import matplotlib.pyplot as plt from matplotlib import rc..

mungdo-log.tistory.com

 

Plotly

- Plotly 패키지는 Plotly 사에서 개발, 서비스하는 반응형 그래프 생성 엔진.

- 클라우드 기반의 엔터프라이즈 서비스는 유료

  로컬에서 사용하는 개인용 라이브러리는 오픈소스로 제공되어 무료로 사용할 수 있다.

import plotly.express as px

fig = px.line(x=["a","b","c"], y=[1,3,2], title="sample figure")
fig.show()


캐글?

데이터 셋을 이용해서 커널을 만들거나 챌린지, 경쟁 등 여러 사람과 데이터셋을 다루는 서비스. 

- 캐글에 관한 가이드 문서

 

GitHub - stevekwon211/Hello-Kaggle-Guide-KOR: Kaggle을 처음 접하는 사람들을 위한 문서

Kaggle을 처음 접하는 사람들을 위한 문서. Contribute to stevekwon211/Hello-Kaggle-Guide-KOR development by creating an account on GitHub.

github.com

 

Dataset download

- 경쟁 파트 > data에서 해당 내용을 활용하면 데이터셋 다운로드가 가능하다.

 - Datasets 파트에 Public에는 활용 가능한 데이터셋이 있다.

 

 

캐글 API 접속

파이썬 내에 pip install을 통해 캐글 라이브러리 설치

> 캐클 라이브러리를 통해 데이터셋을 다운로드 하거나 대회에 참여할 수 있음.

 

GitHub - Kaggle/kaggle-api: Official Kaggle API

Official Kaggle API. Contribute to Kaggle/kaggle-api development by creating an account on GitHub.

github.com

- API 토큰 생성

create new api token 버튼을 클릭하면 kaggle.json 파일이 다운로드됨.

- Colab에 kaggle API 환경변수 세팅 : 접근할 수 있는 아이디와 비밀번호라고 생각하면 됨.

import os

# os.environ을 이용하여 Kaggle API Username, Key 세팅하기

os.environ['KAGGLE_USERNAME']=datadinosaur
os.environ['KAGGLE_KEY']=xxxxxxxxxxxxxx

 

- Colab에서 kaggle 라이브러리 보기 (활용)

!kaggle -h

# usage: kaggle [-h] [-v] {competitions,c,datasets,d,kernels,k,config} ...

# optional arguments:
#   -h, --help            show this help message and exit
#   -v, --version         show program's version number and exit

# commands:
#   {competitions,c,datasets,d,kernels,k,config}
#                         Use one of:
#                         competitions {list, files, download, submit, submissions, leaderboard}
#                         datasets {list, files, download, create, version, init, metadata, status}
#                         config {view, set, unset}
#     competitions        Commands related to Kaggle competitions
#     datasets            Commands related to Kaggle datasets
#     kernels             Commands related to Kaggle kernels
#     config              Configuration settings

 

- kaggle 데이터셋 다운로드하기

API command 복사시 자동으로 명령어가 복사됨.

## 붙여넣기

!kaggle datasets download -d imakash3011/customer-personality-analysis
# Downloading customer-personality-analysis.zip to /content
#   0% 0.00/62.0k [00:00<?, ?B/s]
# 100% 62.0k/62.0k [00:00<00:00, 52.3MB/s]


## 해당 데이터셋이 다운로드 되어있는지 확인

!ls
# customer-personality-analysis.zip  sample_data

 

728x90