본문 바로가기
[객체지향] Pandas [라이브러리] import pandas as pd 1. pandas? In computer programming, pandas is a software library written for the Python programming language for data manipulation and analysis. In particular, it offers data.. mungdo-log.tistory.com [Pandas] 데이터 프레임 다루기 pandas에서 내가 가장 어려워 하는 것 중에 하나가 데이터 프레임 다루는 거다. 내가 필요할 때 맞는 방식으로 자유롭게 열을 늘렸다, 이름도 바꿨다 하는 건 너무 어려워서 한 페이지에 정리하고 mungdo-log.tistory.com [Pandas] 데이터 읽어오.. 2022. 1. 17.
[객체지향] Numpy [라이브러리] import numpy as np 1. Numpy? NumPy("넘파이"라 읽는다)는 행렬이나 일반적으로 대규모 다차원 배열을 쉽게 처리 할 수 있도록 지원하는 파이썬의 라이브러리이다. NumPy는 데이터 구조 외에도 수치 계산을 위해 효율적 mungdo-log.tistory.com [배열(array) 기초] 1) array 생성 : array(object, dtype, ...) data = [1,2,3] arr = np.array(data) arr # array([1, 2, 3]) 2) array 크기 확인 : shape arr.shape # (3,) 3) array 자료형 확인 : dtype arr.dtype # dtype('int64') - 부호가 있는 정수 int(8, 16, 32,.. 2022. 1. 6.
[이론] 데이터의 분석과 모델의 학습 데이터의 종류 * 데이터 -분석-> 정보 - 표 - 이미지 (정지된 이미지, 영상) - 순서가 있는 데이터 Sequential data (Time-Series(시계열 데이터:등시간 간격), 소리(음악)) * 머신러닝 : 표 분석 / 딥러닝 : 이미지, 씨퀀셜 데이터 데이터 분석의 순서 1. 데이터 프로세싱 : csv, sqlite 데이터를 정리함. 2. EDA : Exploratory Data Analysis : 탐색적 데이터 분석. 머신러닝에 활용할 수 있을까? 3. Feature Engineering : 모델링에서 어떻게 입력할 것인지. 머신러닝을 기계적으로 잘 동작하도록 만들기 위함. 4. Machine Learning : 머신러닝 모델 학습. 트레이닝 입력과 테스트 입력 > 트레이닝 출력과 테스트.. 2021. 11. 10.
[setting] 학습 환경 소개 및 정리 (Colab, kaggle) Colab 운영체제 - 구글 colab에서는 우분투 버전의 리눅스를 사용. - 코드 셀에서 !로 시작하는 것은 셀 커멘드로 운영체제에 직접 명령을 내리겠다는 의미. Colab에 설치된 python 라이브러리 - !python --version 버전확인 : 3.7x - !pip list 더보기 fbprophet : 페이스북. 시계열 데이터를 다루는 머신러닝 패키지 kaggle : 캐글 접속 api 제공 keras : 딥러닝 라이브러리 (텐서플로우 2.0을 기반으로 작동. 텐서플로우에 포함되었음.) lightgbm : xg부스트 라이트 버전. 그라디언트 부스팅 패키지. (머신러닝 패키지) numpy : 수치 계산 라이브러리. n차원 매트릭스 수학적 표현 및 연산 가능. opencv : 오픈 컴퓨터 비전 라이.. 2021. 11. 9.
[python] 기초 : 통계 시각화 통계 기초 복습 import numpy as np import scipy as sp import seaborn as sns data = np.array([2,3,3,4,4,4,4,5,5,6]) # 평균 mu = np.sum(data)/len(data) #np.mean(data) # 분산 sigma2 = np.sum((data - mu)**2)/len(data) #np.var(data) # 불편분산 : 표본은 분산값이 작아지기 때문에(과소추정) 자유도를 개선함 (N-1) sigma2 = np.sum((data - mu)**2)/(len(data)-1) #np.var(data, ddof=1) # 표준편차 sigma = np.sqrt(sigma2) #np.std(data, ddof=1) # 공분산 : 변수가 .. 2021. 10. 26.
[이론] 기초 : 모집단과 표본 chapter 10. 통계표본사용하기 1. 통계적 모집단 population : 측정, 학습, 분석하려는 전체를 의미 2. 통계적 표본 sample : 전체 검사를 하는 대신 표본 샘플 검사를 할 수 있음. 모집단에 선택된 일부. 표본은 모집단을 잘 표현할 수 있도록 선택되어야 함. 모집단의 표본에 대해 학습하고 조사하는 것을 표본조사라고 함. 3. 표본이 작동하는 방식 : 좋은 표본은 모집단의 특성을 잘 반영하는 것을 고르는 것. 표본이 잘못되는 경우는 비슷한 것만 추출한 경우, 치우쳐 있는 경우... = 검증 주제를 명확하게 하면 목표 모집단이 정해짐 > 표본 단위를 정의 > 표본의 편향 bias을 조심 4. 표본 고르는 방식 단순 무작위 추출 : 선택될 가능성이 모두 같은 상태에서 임의로 고르기. .. 2021. 10. 26.
[이론] 기초 : 중심 경향과 분포 Chapter 01 정보의 시각화 1. PIE Chart 차이가 없으면 시각적 효과가 떨어짐. 최대값 100%로 이상인 경우 시각적으로 넓이가 맞지 않음. 2. Bar Chart 막대가 하나의 범주. 도수를 나타냄(혹은 퍼센트 값) 수직/수평 막대 그래프. 3. 히스토그램 구간별 도수 값을 시각화 바 사이가 벌어져있지 않고 붙어있는 것으로 보임.(범위니까!) - 하지만 진짜 붙어있진 않지.. 구간이 일정치 않을 수 있지만, 막대 면적의 합은 전체 도수의 합과 같아야 함. 막대의 높이는 단위 막대 길이당 도수의 값. 높이 = 도수/막대길이(가로) 누적 도수를 그래프로 그릴 수 있음. Chapter 02. 데이터의 중심 경향 1. 평균 : Sum (시그마, 서메이션) X / n (뮤 μ 라고도 함) 2. 중.. 2021. 10. 19.
7-1. Population : 인구 소멸 위기지역 파악 보호되어 있는 글 입니다. 2021. 10. 15.
6-2. Naver API에서 수집한 몰스킨 데이터 정리 및 시각화 보호되어 있는 글 입니다. 2021. 10. 15.
728x90