본문 바로가기
데이터 어쩌구/강연, 책, 학회

[책] 데이터 과학자 되는 법 (1) : 시작하기

by annmunju 2023. 9. 10.

 

1장 데이터 과학이란

  • 데이터 과학 = 현실의 문제 해결 및 이해를 위해서 데이터를 사용하는 과정
  • 필요 기술
    • 수학과 통계
    • 프로그래밍과 데이터베이스 (파이썬, SQL + git)
    • 도메인 지식 (해당 비즈니스에 대한 이해)
  • 업무 종류
    • 분석 : 형식에 맞게 정리. 대시보드 혹은 보고서 이용
    • 머신러닝 : 프로그래밍 업무 (+통계). 지속적으로 발전하는 모델 설계
    • 의사결정 : 데이터 해석과 실험을 통한 분석 및 추천
  • 관련 직업
    • 비즈니스 인텔리전스 분석가 : 의사결정 전문가와 유사
    • 데이터 엔지니어 : 백엔드 구성요소 구축 등
    • 연구원 : 딥러닝 알고리즘 구축 등 고도화 발전 연구

🤔 데이터 과학 분야의 낙관주의

  • 언론에서 데이터 과학이 지나치게 부풀려 다루고 있음
  • 온라인 강좌나 부트캠프가 과잉공급됨. 초보 수준의 데이터 과학자 급증
  • 데이터 과학 직무 및 업무가 계층적으로 존재함. 간단한 알고리즘 등을 설계하는 일 부터 복잡한 AI까지 = 치열한 환경에서 돋보이는 전략 필요

 

2장 데이터 과학 기업

스타트업 예시

  • 특징
    • 최신 기술 사용
    • 데이터 엔지니어가 없을 수 있음 (소수)
    • 동작중인 프로그램을 유지하는 데브옵스 팀 부재
  • 장단점
    • 빠른 기술 습득 및 다양한 업무 경험 가능
    • 최신 기술로 일을 시작할 수 있음
    • 스톡옵션 가능성이 있음
    • 매우 열심히 일해야 함 ^^… 근무 시간이 길 수 있음
    • 고용 불안정으로 직원 평균 연령이 낮다
  • 결론 : 경험 쌓고 다른 곳으로 이직하려는 데이터 과학자에게 가장 적합하다

3장 기술 익히기

  • 방법
    • 데이터 과학 학위 취득
    • 부트캠프 참여하기
    • 본인 회사에서 데이터 과학 업무 보기
    • 독학

4장 포트폴리오 작성하기

1) 프로젝트 만들기

  1. 데이터 찾고 질문하기
    • 캐글
    • 뉴스 데이터셋
    • APIs
    • 정부 공공 데이터
    • 자체 데이터
    • 웹 스크래핑
  2. 방향 정하기
    • 본인이 주도하는 프로젝트의 문제는 과도한 범위, 전환이 안된다는 것이다.
  3. Github의 리드미 채우기
    • 이 프로젝트는 무엇인가? : 어떤 데이터, 어떤 목적, 어떤 output?
    • 저장소 구성 방식 : 데이터 얻기 → 정리 → 탐색 → 최종 분석

2) 블로그 시작하기

  • 잠재적인 주제
    • 코드 중심 튜토리얼
    • 이론 중심 튜토리얼
    • 지금까지 가장 재미있었던 프로젝트
    • 경험 기록
728x90