9장 회사에서의 첫 달
- 학계와 산업의 차이
- 산업은 광범위, 학계는 깊고 좁은 하위 분야 중심 연구 : 광범위하고 심도 있는 영역을 선호하면 취업 기회를 갖기에 도움이 될 것.
- 일과 삶의 균형 : 학계는 주말 없을 수도…
- 질문 하기
- 다른사람들이 어떻게 질문하는지 관찰하기
- 스스로 답 찾을 수 있는 질문 하지 않기
- 상대의 시간을 존중해라
- 질문을 가장한 비판은 지양
- 다른사람과 협업하기
- 목록을 작성하기
- 회사에서 첫 번째 데이터 과학자가 된 경우
- 선례가 없는 경우에는 모든 업무가 암묵적으로 전례가 될 수 있음을 인지하기.
- 데이터 과학자의 현실적인 기대를 설정하기
- 퇴사를 결심했을 때
- 저축을 많이 했는가?
- 부양할 가족이 있는가?
- 경제적 자구책이 있는가?
- 회사가 건강과 업무 외에 삶에 영향을 주었는거?
- 지금 또는 몇 달 이내에 팀이나 직무를 바꿀 수 있는가?
- 이직할 때, 질문 : 이직을 왜 이렇게 빨리하세요?
- “요구사항이 기대했던 것과 달랐고 저의 기술과 전문 지식으로는 회사를 좋게 만들 수 없었다” 라는 모호한 말을 하기.
- 떠날 수 없을 때
- 스스로가 직책이 아니라는 것을 기억한다. (기업이 잘못 내린 결정에 책임을 질 필요는 없다)
- 건강을 지켜야 한다.
- 다른 사람과 대화한다
- 개인적인 괴롭힘이 있다면 보고한다
- 퇴사라는 틀에서 벗어난 생각을 해본다.
10장 효과적으로 분석하기
- 보고서와 분석의 차이
- 보고서는 구조 변화 없이 반복적인 업데이트
- 분석은 상세한 질문에 답하고자 일회성으로 이뤄짐
- 좋은 분석이란?
- 질문에 답한다
- 빠르게 구현해야 한다
- 공유할 수 있어야 한다
- 설명이 있어야 한다
- 다시 살펴볼 수 있어야 한다
- 분석 요청에 대한 대응
- 누가 분석을 의뢰했는가?
- 왜 분석을 의뢰했는가?
- 어느 부분을 의뢰했는가?
- 이로써 무슨 결정이 내려지는가?
- 필요한 데이터가 있는가?
- 분석 계획 탬플릿
- 분석 제목, 본인 인적사항, 분석 목적
- 분석 주제에 관한 부문 (독립적으로 작성)
- 1단계 부문 목록
- 2단계 부문 목록 : 실제 업무
- 분석은 요청에 응답하기위해 만들어짐 (아래 예시)
- 비즈니스 질문 : 마케팅에서 우리 고객은 어떤 그룹으로 나눌 수 있는가
- 데이터 과학 질문 : 클러스터링 알고리즘 무엇을 사용할까
- 데이터 과학 답변 : K-means 알고리즘으로 3개의 특징적인 그룹을 찾았다
- 비즈니스 답변 : 신규 고객 / 다소비 고객 / 일반 고객 세 부류로 나눠졌다.
- 분석 요청에 알아야할 것
- 누가 분석을 의뢰했는가?
- 왜 분석을 의뢰했는가?
- 어느 부분을 의뢰했는가?
- 이로써 무슨 결정이 내려지는가?
- 필요한 데이터가 있는가?
- 분석 계획 탬플릿
- 상단 - 분석의 목적 기재
- 부문 - 일반적인 분석 주제여야 하며, 독립적이고 각각 실행할 수 있는 일로 나눠야함.
- 1단계 부문 목록 : 왜 이 업무를 해야하는가에 대한 답변
- 2단계 부문 목록 : 구체적인 업무 목록
- 분석의 순서
- 데이터 불러오고 정제하기
- 데이터 탐색하고 모델링하기
- 주의 : 질문 목적에 맞는 탐색하기, 단순한 방법을 쓰기, 탐구용 그래프와 공유용 그래프를 구분하기
11장 모델을 제품으로 배포하기
- 머신러닝 엔지니어의 역할 부분
- 머신러닝 모델을 제품에 사용할 수 있도록 구성하기
- API를 정의하고 어떻게 도움을 주는지 이해하기
- 머신러닝 모델 배포하기
- 비즈니스 데모 라이브러리 : https://shiny.posit.co
- 배포까지의 과정
- 데이터 수집
- 모델 구현
- API 작성 (모델 제공) : fastapi, flask 이용
- 문서화하기 : 종단점(주소), 요청 데이터에 필요한 사항, 응답 데이터의 포맷팅과 사항
- 테스트 하기 : 작동이 오류 없이 잘 되는지. 잘못된 데이터에 대한 응답 결과
- API 배포하기
- 가상 머신에 배치하기
- 도커 컨테이너에 배치하기
- 테스트 불러오기 : 과부화 테스트. 동시에 많은 API를 요청하고 어떻게 동작하는지 확인.
- 시스템 유지하기
- 시스템 모니터링 : 로깅 원격 측정 기능을 포함.
- 모델 재학습하기 : AWS sagemaker 등의 클라우드 도구 지원
- 모델 변경하기 : 필요 없다면 과감하게 바꾸기
12장 이해관계자와 협업하기
이해관계자의 유형
- 비즈니스
- 엔지니어링
- 리더십
- 관리자
협업하기
- 이해관계자의 목표 이해하기 : 직접 질문, 여러 사람에게 물어보고 행동으로 동기 유추해보기
- 끊임없이 소통하기
- 일관되게 유지하기
- 분석을 구조화 하는 방법 : 형식을 갖추기. 동일한 유형의 목표와 데이터로 시작하고 유사한 결론이 나온 후 다음단계로 이어지게 한다.
- 분석을 전달하는 방법 : PPT 양식 통일
- 분석 스타일 : 시각적 요소의 일관성
- API 작성에서 입력, 출력, 인증의 일관성
업무 우선순위 정하기
- 업무 목록
- 이해관계자가 직접 주는 빠른 업무
- 장기 프로젝트
- 장기적인 이익이 있다고 생각하는 아이디어
- 가능한 업무가 무엇인지 알기 위한 질문
- 해당 업무가 기업에 영향을 미치는가? (효과)
- 해당 업무는 새로운 업무인가? (혁신)
혁신적 | 비혁신적 | |
효과적 | 혁신적이며 효과적인 업무 | 혁신적이지는 않지만 효과적인 업무 |
비효과적 | 혁신적이지만 비효과적 업무 | 혁신적이지도 않고 효과도 없는 경우 |
- 혁신적 + 효과적
- 성공가능성 희박, 요구사항 많음 고려
- 충분한 데이터가 있어야 하고, 비즈니스적 이익이 충분히 커야함
- 문제가 복잡하고 독특해 이전에 시도해보지 않았다
- 비혁신적 + 효과적
- ! 가능한 여기에 해당하는 프로젝트를 맡자
- 기업에 가치를 주는 업무
- 성공 가능성이 높으나 매력적이지 않은 업무일 수 있음
- 혁신적 + 비효과적
- ! 비즈니스에 유용하지 않다
- 재미는 있으나 비즈니스 기여를 못하면 데싸러의 존재에 의문을 제기할 수 있다
- 비혁신적 + 비효과적
- 여러 작은 일회성 요청
- 시간적 가치가 없는 업무라는 것을 분명하게 알려야 한다.
- 개선책을 먼저 만든 후 보여주려고 노력하는 것이다.
728x90
'데이터 어쩌구 > 강연, 책, 학회' 카테고리의 다른 글
<데이터 파이프라인 핵심 가이드> 02 최신 데이터 인프라 (0) | 2024.04.01 |
---|---|
[책] 데이터 과학자 되는 법 (4) : 성장하기 (0) | 2023.09.10 |
[책] 데이터 과학자 되는 법 (2) : 직무 찾기 (0) | 2023.09.10 |
[책] 데이터 과학자 되는 법 (1) : 시작하기 (0) | 2023.09.10 |
Google IO 2023 관련 내용 요약 (0) | 2023.09.03 |