2021/01/21 - [공부/3. 데이터 사이언스] - [부스트코스] 캐글 실습 : 설문조사 응답 분석 (3)
ㄴ 이전글 이어서...
Q1. Python과 R중 어떤 언어를 배워야 할까요?
- 어떤 언어를 사용하나요?
sns.countplot(y='LanguageRecommendationSelect', data=mcq)
- 현재 하고있는 일
- 현재 하고있는 일에 대한 전체 응답수
mcq[mcq['CurrentJobTitleSelect'].notnull()]['CurrentJobTitleSelect'].shape
# (11830,)
- 현재 하고 있는 일에 대한 응답을 한 사람 중 Python과 R을 사용하는 사람 (실무에서 어떤 언어 사용?)
data = mcq[(mcq['CurrentJobTitleSelect'].notnull()) & (
(mcq['LanguageRecommendationSelect'] == 'Python') | (
mcq['LanguageRecommendationSelect'] == 'R'))]
print(data.shape)
plt.figure(figsize=(8, 10))
sns.countplot(y='CurrentJobTitleSelect',
hue='LanguageRecommendationSelect',
data=data)
# (7158,228)
Q2. 데이터 사이언스 분야에서 앞으로 크게 주목받을 것은 무엇일까요?
1) 데이터 사이언스 툴
mcq_ml_tool_count = pd.DataFrame(
mcq['MLToolNextYearSelect'].value_counts())
mcq_ml_tool_percent = pd.DataFrame(
mcq['MLToolNextYearSelect'].value_counts(normalize=True))
mcq_ml_tool_df = mcq_ml_tool_count.merge(
mcq_ml_tool_percent, left_index=True, right_index=True).head(20)
mcq_ml_tool_df.columns = ['응답 수', '비율']
mcq_ml_tool_df
- 시각화
data = mcq['MLToolNextYearSelect'].value_counts().head(20)
sns.barplot(y=data.index, x=data)
2) 다음 해에 주목할 만한 Data Science Methods
data = mcq['MLMethodNextYearSelect'].value_counts().head(15)
sns.barplot(y=data.index, x=data)
728x90
'데이터 어쩌구 > 전처리 및 시각화' 카테고리의 다른 글
[부스트코스] 캐글 실습 : 설문조사 응답 분석 (6) (0) | 2021.01.25 |
---|---|
[부스트코스] 캐글 실습 : 설문조사 응답 분석 (5) (0) | 2021.01.22 |
[부스트코스] 캐글 실습 : 설문조사 응답 분석 (3) (0) | 2021.01.21 |
[부스트코스] 캐글 실습 : 설문조사 응답 분석 (2) (0) | 2021.01.20 |
[부스트코스] 캐글 실습 : 설문조사 응답 분석 (1) (0) | 2021.01.19 |