본문 바로가기
데이터 어쩌구/강연, 책, 학회

[책] 데이터 과학자 되는 법 (3) : 자리잡기

by annmunju 2023. 9. 10.

9장 회사에서의 첫 달

  • 학계와 산업의 차이
    • 산업은 광범위, 학계는 깊고 좁은 하위 분야 중심 연구 : 광범위하고 심도 있는 영역을 선호하면 취업 기회를 갖기에 도움이 될 것.
    • 일과 삶의 균형 : 학계는 주말 없을 수도…
  • 질문 하기
    • 다른사람들이 어떻게 질문하는지 관찰하기
    • 스스로 답 찾을 수 있는 질문 하지 않기
    • 상대의 시간을 존중해라
    • 질문을 가장한 비판은 지양
    • 다른사람과 협업하기
    • 목록을 작성하기
  • 회사에서 첫 번째 데이터 과학자가 된 경우
    • 선례가 없는 경우에는 모든 업무가 암묵적으로 전례가 될 수 있음을 인지하기.
    • 데이터 과학자의 현실적인 기대를 설정하기
  • 퇴사를 결심했을 때
    • 저축을 많이 했는가?
    • 부양할 가족이 있는가?
    • 경제적 자구책이 있는가?
    • 회사가 건강과 업무 외에 삶에 영향을 주었는거?
    • 지금 또는 몇 달 이내에 팀이나 직무를 바꿀 수 있는가?
  • 이직할 때, 질문 : 이직을 왜 이렇게 빨리하세요?
    • “요구사항이 기대했던 것과 달랐고 저의 기술과 전문 지식으로는 회사를 좋게 만들 수 없었다” 라는 모호한 말을 하기.
  • 떠날 수 없을 때
    • 스스로가 직책이 아니라는 것을 기억한다. (기업이 잘못 내린 결정에 책임을 질 필요는 없다)
    • 건강을 지켜야 한다.
    • 다른 사람과 대화한다
    • 개인적인 괴롭힘이 있다면 보고한다
    • 퇴사라는 틀에서 벗어난 생각을 해본다.

10장 효과적으로 분석하기

  • 보고서와 분석의 차이
    • 보고서는 구조 변화 없이 반복적인 업데이트
    • 분석은 상세한 질문에 답하고자 일회성으로 이뤄짐
  • 좋은 분석이란?
    • 질문에 답한다
    • 빠르게 구현해야 한다
    • 공유할 수 있어야 한다
    • 설명이 있어야 한다
    • 다시 살펴볼 수 있어야 한다
  • 분석 요청에 대한 대응
    • 누가 분석을 의뢰했는가?
    • 왜 분석을 의뢰했는가?
    • 어느 부분을 의뢰했는가?
    • 이로써 무슨 결정이 내려지는가?
    • 필요한 데이터가 있는가?
  • 분석 계획 탬플릿
    • 분석 제목, 본인 인적사항, 분석 목적
    • 분석 주제에 관한 부문 (독립적으로 작성)
    • 1단계 부문 목록
    • 2단계 부문 목록 : 실제 업무
  • 분석은 요청에 응답하기위해 만들어짐 (아래 예시)
    • 비즈니스 질문 : 마케팅에서 우리 고객은 어떤 그룹으로 나눌 수 있는가
    • 데이터 과학 질문 : 클러스터링 알고리즘 무엇을 사용할까
    • 데이터 과학 답변 : K-means 알고리즘으로 3개의 특징적인 그룹을 찾았다
    • 비즈니스 답변 : 신규 고객 / 다소비 고객 / 일반 고객 세 부류로 나눠졌다.
  • 분석 요청에 알아야할 것
    • 누가 분석을 의뢰했는가?
    • 왜 분석을 의뢰했는가?
    • 어느 부분을 의뢰했는가?
    • 이로써 무슨 결정이 내려지는가?
    • 필요한 데이터가 있는가?
  • 분석 계획 탬플릿
    • 상단 - 분석의 목적 기재
    • 부문 - 일반적인 분석 주제여야 하며, 독립적이고 각각 실행할 수 있는 일로 나눠야함.
    • 1단계 부문 목록 : 왜 이 업무를 해야하는가에 대한 답변
    • 2단계 부문 목록 : 구체적인 업무 목록
  • 분석의 순서
    • 데이터 불러오고 정제하기
    • 데이터 탐색하고 모델링하기
      • 주의 : 질문 목적에 맞는 탐색하기, 단순한 방법을 쓰기, 탐구용 그래프와 공유용 그래프를 구분하기

11장 모델을 제품으로 배포하기

  • 머신러닝 엔지니어의 역할 부분
    • 머신러닝 모델을 제품에 사용할 수 있도록 구성하기
    • API를 정의하고 어떻게 도움을 주는지 이해하기
    • 머신러닝 모델 배포하기
  • 비즈니스 데모 라이브러리 : https://shiny.posit.co
  • 배포까지의 과정
    • 데이터 수집
    • 모델 구현
    • API 작성 (모델 제공) : fastapi, flask 이용
    • 문서화하기 : 종단점(주소), 요청 데이터에 필요한 사항, 응답 데이터의 포맷팅과 사항
    • 테스트 하기 : 작동이 오류 없이 잘 되는지. 잘못된 데이터에 대한 응답 결과
    • API 배포하기
      • 가상 머신에 배치하기
      • 도커 컨테이너에 배치하기
    • 테스트 불러오기 : 과부화 테스트. 동시에 많은 API를 요청하고 어떻게 동작하는지 확인.
  • 시스템 유지하기
    • 시스템 모니터링 : 로깅 원격 측정 기능을 포함.
    • 모델 재학습하기 : AWS sagemaker 등의 클라우드 도구 지원
    • 모델 변경하기 : 필요 없다면 과감하게 바꾸기

12장 이해관계자와 협업하기

이해관계자의 유형

  1. 비즈니스
  2. 엔지니어링
  3. 리더십
  4. 관리자

협업하기

  1. 이해관계자의 목표 이해하기 : 직접 질문, 여러 사람에게 물어보고 행동으로 동기 유추해보기
  2. 끊임없이 소통하기
  3. 일관되게 유지하기
    1. 분석을 구조화 하는 방법 : 형식을 갖추기. 동일한 유형의 목표와 데이터로 시작하고 유사한 결론이 나온 후 다음단계로 이어지게 한다.
    2. 분석을 전달하는 방법 : PPT 양식 통일
    3. 분석 스타일 : 시각적 요소의 일관성
    4. API 작성에서 입력, 출력, 인증의 일관성

업무 우선순위 정하기

  • 업무 목록
    • 이해관계자가 직접 주는 빠른 업무
    • 장기 프로젝트
    • 장기적인 이익이 있다고 생각하는 아이디어
  • 가능한 업무가 무엇인지 알기 위한 질문
    • 해당 업무가 기업에 영향을 미치는가? (효과)
    • 해당 업무는 새로운 업무인가? (혁신)
  혁신적 비혁신적
효과적 혁신적이며 효과적인 업무 혁신적이지는 않지만 효과적인 업무
비효과적 혁신적이지만 비효과적 업무 혁신적이지도 않고 효과도 없는 경우
  • 혁신적 + 효과적
    • 성공가능성 희박, 요구사항 많음 고려
    • 충분한 데이터가 있어야 하고, 비즈니스적 이익이 충분히 커야함
    • 문제가 복잡하고 독특해 이전에 시도해보지 않았다
  • 비혁신적 + 효과적
    • ! 가능한 여기에 해당하는 프로젝트를 맡자
    • 기업에 가치를 주는 업무
    • 성공 가능성이 높으나 매력적이지 않은 업무일 수 있음
  • 혁신적 + 비효과적
    • ! 비즈니스에 유용하지 않다
    • 재미는 있으나 비즈니스 기여를 못하면 데싸러의 존재에 의문을 제기할 수 있다
  • 비혁신적 + 비효과적
    • 여러 작은 일회성 요청
    • 시간적 가치가 없는 업무라는 것을 분명하게 알려야 한다.
    • 개선책을 먼저 만든 후 보여주려고 노력하는 것이다.
728x90