본문 바로가기
[Pandas] DataFrame 고급 사용 데이터프레임 고급 사용 array가 포함된 데이터 프레임 저장 Pickle 이용해 딕셔너리로 저장한 후 다시 불러와서 데이터 프레임으로 변환 import pickle # write with open('data_save.pickle','wb') as fw: pickle.dump(df.to_dict(), fw) # read with open('data_save.pickle', 'rb') as fr: data_dict = pickle.load(fr) df = pd.DataFrame(data_dict) 차집합 구하기 : 테스트 데이터프레임에서 일부 데이터프레임 지우기 # test_df - rm_df test_df = pd.merge(rm_df, test_df, how='outer', indicator=True).. 2023. 8. 26.
[kaggle] Painting Vs Photograph Classification 사진과 그림을 구분해주는 모델 따라하기 [Painting or Photo]Guess right?_Deep Learning Explore and run machine learning code with Kaggle Notebooks | Using data from Painting Vs Photograph Classification Dataset www.kaggle.com 순서 Module Import 데이터 목록 확인 gray scale한 array를 dataset으로 만들기 데이터셋 합치기 train test split normalize 및 모델 학습에 적합한 형태로 변환 사진, 그림 이렇게 두가지 카테고리로 변환 모델링 (Sequential) 모델 컴파일 (optimizer) 모델 fit 그래프로 정확도.. 2022. 9. 1.
[프로젝트] 시각화 데이터프레임 조작하기 왜 어렵지.. 컬럼명 바꾸고 자리 뒤집고 맨날 하면서 맨날 헷갈려서 고생중 1. df.drop(['Unnamed: 0','Unnamed: 0.1', '정류장_ID'], axis=1) 데이터 프레임 생성하면 자꾸 새로운 인덱스가 추가됨. 그거 삭제하는 방법 drop. axis는 열기준, 행기준 지정 read_csv() 에서 index_col 미리 지정해주기 : 인덱스로 지정할 열이름 / False (인덱스 한칸 밀려있는 상황일 때, 자체적으로 인덱스 만들어서 0~n 생성) 2. 여러 변수 출력 코드 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity="all" 3. 거리를 측정하는 .. 2022. 4. 6.
[ProDS] 머신러닝 이론 및 데이터 처리 1. 데이터 전처리 : 데이터 생성, 정제, 변환, 결합 1) 결측값 처리법 (1) 완전 제거법 (정보 손실의 분석 결과 왜곡 가능성 있음) (2) 평균대체법 (추정량 표준오차가 과소 추정될 수 있음) (3) 핫덱대체법 : 동일한 데이터 내 결측값이 발생한 관찰치와 유사한 특성을 가진 다른 관찰치의 정보를 이용하여 대체하는 방법 2) 이상치 판별 (1) 박스플롯 그려서 이외 Q1-1.5*IQR 과 Q3+1.5*IQR의 범위를 넘어가는 자료를 이상값으로 진단. (2) 표준화 점수 (Z-score)의 절대값이 2, 3보다 큰 경우를 이상값으로 진단. 3) 이상값 처리 (1) 이상값 제외 (2) 이상값 대체 : 이상값을 정상 범위의 최소값, 최대값과 대체 (3) 변수 변환 : 자료값 전체에 로그변환, 제곱근 .. 2022. 3. 19.
[ProDS] 통계 이론 및 데이터 시각화 1. 확률의 개념과 특징 1) 라플라스의 확률 : n개 (유한한) 실험결과의 표본 공간에서 m(m = 0, P(S) = 1, 상호 배반인 경우 P(A1 U A2 U ... ) = P(A1) + P(A2) + ... 3) 콜모그로프의 확률(공리적 접근방식) (1) 정의 : 표본공간을 정의역으로 하며 (위 세가지) 공리를 만족하는 함수를 확률로 정의 4) 특징 (1) 여사건, 곱사건(교집합), 합사건(합집합) (2) 조건부 확률 : B사건 하에서 A사건이 일어날 확률 : P(A|B) (3) 독립사건 : P(A | B) = P(A), P(A 교집합 B) = P(A) * P(B) 2. 베이즈 정리 : 결과 A, 원인 B 1) 표본공간의 분할 : 어떤 결과 확률이 k개의 원인들 중에 하나로 결정 되어야 함. 모.. 2022. 3. 15.
[ML] 지도학습 : 평가지표 [정확도] 실제 데이터와 예측 데이터가 얼마나 같은지를 판단하는 지표 $ 정확도(Accuracy) = \frac{예측 결과가 동일한 데이터 건수}{전체 예측 데이터 건수} $ 오차 행렬상 정확도 = 예측 결과와 실제 값이 동일한 건수 / 전체 데이터 수 $ = \frac{TN + TP}{ TN + FP + FN + TP }$ [정밀도와 재현율] 정밀도 : TP / (FP + TP) 재현율 : TP / (FN + TP) 2022. 3. 7.
[ML] 지도학습 - KNN * 지도학습 알고리즘 1. k-최근접 이웃(K-Nearest Neighbor) : from sklearn.neighbors import KNeighborsClassifier 1) 회귀 : k개 근접한 결과들의 평균을 결과로 예측 2) 분류 : k개 근접해 있는 분류에서 다수결 결과로 분류 예측 * k값이 크면 과소적합, k값이 작으면 과대적합 될 수 있음. * 근접의 기준 = 거리 (맨하탄 거리, 유클리디안 거리, 민코위스키 거리 등) * 모델 검증 : 홀드-아웃 방식 : 훈련 데이터와 테스트 데이터 분리 방법 1. index 생성해서 np.random.shuffle(index) 후 인덱스로 train, test 분리 방법 2. from sklearn.model_selection import train_.. 2022. 3. 2.
[ML] 기계학습 개요 * 머신러닝 워크플로우 1. Collect data : 유용한 데이터를 최대한 많이 확보하고 하나의 데이터 세트로 통합 2. Prepare data : 결측값, 이상값, 기타 데이터 문제를 적절하게 처리하여 사용 가능한 상태로 준비 3. Split data : 데이터 세트를 학습용과 평가용 세트로 분리 4. Train a model : 이력 데이터의 일부를 활용하여 알고리즘이 데이터 내의 패턴을 잘 찾아 주는지 확인 5. Test and validate a model : 학습 후 모델의 성능을 평가용 데이터 세트로 확인하여 예측 성능을 파악 6. Deploy a model : 모델을 의사결정 시스템에 탑재 / 적용 7. Iterate : 새로운 데이터를 확보하고 점진적으로 모델을 개선 [생활코딩] 기계학.. 2022. 3. 2.
[객체지향] EDA : 배경지식 1. 평균값 : mean() 2. 중앙값 : mid() 3. 최빈값 : mode(), value_count > sort > 첫번째 값 1. 분산과 표준편차 : var(), std() 2. 범위 : max() - min() 3. 사분위수 : np.percentile(data, 25/50/75/100) * 표준화된 데이터는 평균이 0이고 표준편차가 1이다. 1. Z 점수(표준화 변량) (해당점수 - 점수들의 평균) / 표준편차 2. min-max 표준화 (해당점수 - 점수들의 최솟값) / (점수들의 최댓값 - 점수들의 최솟값) +. 편찻값 : 평균이 x, 표준편차가 y로 정규화 할 경우 x + (y * ((해당점수 - 점수들의 평균) / 표준편차)) 2022. 1. 17.
728x90