본문 바로가기
[부스트코스] 캐글 실습 : 설문조사 응답 분석 (2) 2021/01/19 - [공부/3. 데이터 사이언스] - [부스트코스] 캐글 실습 : 설문조사 응답 분석 (1) [부스트코스] 캐글 실습 : 설문조사 응답 분석 (1) www.boostcourse.org/ds116/joinLectures/28015 캐글 실습으로 배우는 데이터 사이언스 부스트코스 무료 강의 www.boostcourse.org 2장 설문조사 분석과 시각화 (www.kaggle.com/kaggle/kaggle-survey-2017) 0]['Age']) (4) 학력 - countplot sns.countplot(y='FormalEducation',data=mcq) (5) 전공 - 응답수와 비율 mcq_major_count = pd.DataFrame( mcq['MajorSelect'].value.. 2021. 1. 20.
[부스트코스] 캐글 실습 : 설문조사 응답 분석 (1) www.boostcourse.org/ds116/joinLectures/28015 캐글 실습으로 배우는 데이터 사이언스 부스트코스 무료 강의 www.boostcourse.org 2장 설문조사 분석과 시각화 (www.kaggle.com/kaggle/kaggle-survey-2017) 설문기간 : 2017년 8월 7일부터 8월 25일까지 평균 응답 시간은 16.4 분 171 개 국가 및 지역에서 16,716 명의 응답자 특정 국가 또는 지역에서 응답자가 50 명 미만인 경우 익명을 위해 그룹을 '기타'그룹으로 그룹화 설문 조사 시스템에 신고 된 응답자를 스팸으로 분류하거나 취업 상태에 관한 질문에 답변하지 않은 응답자는 제외(이 질문은 첫 번째 필수 질문이기에 응답하지 않으면 응답자가 다섯 번째 질문 이후 진.. 2021. 1. 19.
[부스트코스] Hello, 데이터 사이언스! www.boostcourse.org/ds001/joinLectures/70393 Hello, 데이터 사이언스! 부스트코스 무료 강의 www.boostcourse.org - 데이터 사이언스는 통계학이다? : 정의 내리기 나름이다. - 데이터 사이언스 역사 * 데이터 과학 처음 소개됨. - 데이터 분석에 필요한 역량 : 비판적인 사고 / 숫자 기반의 사고 - 데이터 분석에 대한 윤리문제 : 개인정보 이슈 / 크롤링 등 법적 이슈(데이터 취득을 위해서 크롤링 할 경우 저작권 침해 가능성 높음. api 이용하는 것이 안전한 방법 + robot.txt가 웹에 있다면 읽어보고 크롤링 시 주의할 필요 있음) - 데이터 사이언스 전공 : 도움이 되는 전공 (컴퓨터 공학, 소프트웨어 공학, 산업 및 시스템 공학, 수학,.. 2021. 1. 5.
[실습] (7) 군집분석 with R #군집분석 : 이동통신사 가입자 군집분석 #데이터 불러오기, kt 데이터만 따로 저장 mobile= read.csv("mobileSurvey.csv") kt = subset(mobile, company=="KT") #거리계산 kt.dist = dist(kt[4:8], method="euclidean") options(max.print = 5000) kt.dist #군집 만들기 kt.hclust = hclust(kt.dist) plot(kt.hclust) #군집수가 3개라면.. kt.cutree.k3 = cutree(kt.hclust, k=3) table(kt.cutree.k3) kt$clust.k3 = kt.cutree.k3 aggregate(kt[4:8], list(kt$clust.k3), mean) .. 2020. 12. 30.
[실습] (6) 로지스틱 회귀분석 with R #잔디깍기 데이터 분석 : 로지스틱 회귀분석 mower=read.csv("Mower.csv") mower$isOwner = ifelse(mower$ownership == "owner", 1, 0) mower.lgt = glm(isOwner ~ income + lotSize, data = mower, family = "binomial") summary(mower.lgt) #p(owner) 계산과 확률값을 이용해 분류 mower$pred.prob = predict(mower.lgt, type="response") mower$pred.class = ifelse(mower$pred.prob > 0.5, 1, 0) 2020. 12. 30.
[실습] (5) 의사결정 나무 with R #의사결정나무 실습 : 타이타닉호 install.packages("rpart") install.packages("rpart.plot") library(rpart) library(rpart.plot) titanic.df=read.csv("titanic.csv") # 기본 나무 titanic.tr = rpart(Survived ~ Sex + Age + SibSp, titanic.df) prp(titanic.tr, type=2, extra=1) titanic.tr # 예측해보기 predicted = predict(titanic.tr, type="class") titanic.df$pred = predicted table("pred"=titanic.df$pred, "actual"=titanic.df$Survive.. 2020. 12. 29.
[실습] (4-2) 다중 회귀 with R #이동통신사 고객충성도 회귀분석 mobile =read.csv("mobileSurvey.csv") summary(mobile) table(mobile$gender) table(mobile$company) # 전체 변수와 회귀분석해 P value 0.05 이하 (유의변수)만 선별 mobile.reg =lm(loyalty ~ . -no -company, data=mobile) summary(mobile.reg) mobile.reg2 =lm(loyalty ~ . -no -company -gender -quality, data=mobile) # 각 이동통신사 고객충성도 #이동통신사 별 데이터 프레임 mobile$no = NULL mobile.kt = subset(mobile, company=="KT") mobi.. 2020. 12. 23.
[실습] (4-1) 단순 회귀 with R # 회귀분석 실습 : 총광고비와 판매량 ads = read.csv("Advertising.csv") str(ads) summary(ads) ads$market = NULL #불필요한 변수 삭제 ads$total = ads$internet+ads$newspaper+ads$tv hist(ads$total) #요약 summary(ads$total) #독립변수 total, 종속변수 sales : 산점도 보기 plot(ads$total, ads$sales) #회귀분석 실행 ads.tot.reg = lm(sales ~ total, data = ads) ads.tot.reg #(Intercept) = 절편, total=기울기 abline(4.24303, 0.04869) summary(ads.tot.reg) 2020. 12. 23.
[이론] (3) 데이터 마이닝 1. 의미 1) Data Mining : 자료 채굴 2) 대규모 데이터에 대한 귀납적 추론 3) 의미있는 패턴이나 규칙을 찾기 위해 다량의 데이터를 탐구하고 분석하는 과정 2. 귀납적 추론 : 개별적 사실과 현상에서 관찰된 일반적인 결론을 이끄는 추론형식의 추리방법 (사실적 지식을 확장해주는 특징이 있지만, 전제가 결론의 필연성을 논리적으로 확립해주지 못한다는 한계 존재) 3. 빅데이터의 특징 : 3V (Volume, Velocity, Variety 4. 데이터 마이닝 모델링 방법 1) 데이터 속 패턴 찾기 (1) 연관 규칙 분석 ex. 장바구니 분석 (2) 군집 분석 : 유사한 데이터들의 군집화 2) 분류와 예측 : y=f(x) : x를 이용해 y를 예측 * 범주형 변수 = 분류, 수치형 변수 = 예측.. 2020. 12. 23.
728x90