본문 바로가기
데이터 어쩌구/전처리 및 시각화

[부스트코스] 캐글 실습 : 설문조사 응답 분석 (4)

by annmunju 2021. 1. 22.

2021/01/21 - [공부/3. 데이터 사이언스] - [부스트코스] 캐글 실습 : 설문조사 응답 분석 (3)

 

[부스트코스] 캐글 실습 : 설문조사 응답 분석 (3)

2021/01/20 - [공부/3. 데이터 사이언스] - [부스트코스] 캐글 실습 : 설문조사 응답 분석 (2) [부스트코스] 캐글 실습 : 설문조사 응답 분석 (2) 2021/01/19 - [공부/3. 데이터 사이언스] - [부스트코스] 캐글

mungdo-log.tistory.com

ㄴ 이전글 이어서...

 

Q1. Python과 R중 어떤 언어를 배워야 할까요?

 

- 어떤 언어를 사용하나요?

sns.countplot(y='LanguageRecommendationSelect', data=mcq)

 

- 현재 하고있는 일

 

- 현재 하고있는 일에 대한 전체 응답수

mcq[mcq['CurrentJobTitleSelect'].notnull()]['CurrentJobTitleSelect'].shape

# (11830,)

 

- 현재 하고 있는 일에 대한 응답을 한 사람 중 Python과 R을 사용하는 사람 (실무에서 어떤 언어 사용?)

data = mcq[(mcq['CurrentJobTitleSelect'].notnull()) & (
    (mcq['LanguageRecommendationSelect'] == 'Python') | (
        mcq['LanguageRecommendationSelect'] == 'R'))]
print(data.shape)
plt.figure(figsize=(8, 10))
sns.countplot(y='CurrentJobTitleSelect', 
              hue='LanguageRecommendationSelect', 
              data=data)
              
# (7158,228)

 

Q2. 데이터 사이언스 분야에서 앞으로 크게 주목받을 것은 무엇일까요?

 

 1) 데이터 사이언스 툴

mcq_ml_tool_count = pd.DataFrame(
    mcq['MLToolNextYearSelect'].value_counts())
mcq_ml_tool_percent = pd.DataFrame(
    mcq['MLToolNextYearSelect'].value_counts(normalize=True))

mcq_ml_tool_df = mcq_ml_tool_count.merge(
    mcq_ml_tool_percent, left_index=True, right_index=True).head(20)
mcq_ml_tool_df.columns = ['응답 수', '비율']
mcq_ml_tool_df

 

- 시각화

data = mcq['MLToolNextYearSelect'].value_counts().head(20)
sns.barplot(y=data.index, x=data)

 2) 다음 해에 주목할 만한 Data Science Methods

data = mcq['MLMethodNextYearSelect'].value_counts().head(15)
sns.barplot(y=data.index, x=data)

 

 

728x90