www.boostcourse.org/ds001/joinLectures/70393
- 데이터 사이언스는 통계학이다? : 정의 내리기 나름이다.
- 데이터 사이언스 역사
* <4번째 패러다임> 데이터 과학 처음 소개됨. <21세기 가장 섹시한 직업>
- 데이터 분석에 필요한 역량 : 비판적인 사고 / 숫자 기반의 사고
- 데이터 분석에 대한 윤리문제 : 개인정보 이슈 / 크롤링 등 법적 이슈(데이터 취득을 위해서 크롤링 할 경우 저작권 침해 가능성 높음. api 이용하는 것이 안전한 방법 + robot.txt가 웹에 있다면 읽어보고 크롤링 시 주의할 필요 있음)
- 데이터 사이언스 전공
: 도움이 되는 전공 (컴퓨터 공학, 소프트웨어 공학, 산업 및 시스템 공학, 수학, 통계학) / 대학원을 간다면 (AI 대학원, Big Data MBA, 통계학 석/박사, 해외 온라인 석사(조지아텍, 미시건, UIUC 등))
- 비전공자 학습방법
: 프로젝트 시작하기 / 함께 공부하기
- 데이터 분석 학습 과목
: 분석 도구, 분석 기법(통계학, 머신러닝), 현업 지식
- 데이터 사이언스 관련 직무
- 데이터 분석에서 많이 쓰이는 툴
: 주피터 노트북(분석 결과물 공유를 위한 도구로서의 표준. 파이썬)
: git (코드의 버전 관리를 위한 표준. 분석을 코드로 하는 이상 협업을 위해 꼭 알아야하는 도구)
: SQL, Python, R
- 데이터 사이언스 관련 용어
* 데이터 리터러시(문해력)는 데이터를 이해하고 분석하고 활용할 수 있는 전반적인 능력을 말합니다.
* 데이터 마이닝은 데이터 안에서 가치있고 유용한 정보를 찾아내는 행위이며,
다양한 관점에서 데이터를 분석하여 의미를 발견하는 것을 말합니다.
(데이터 분석과 유사한 개념으로 사용되는 경우가 많습니다.)
* 데이터 분석은 데이터를 수집하고 정제하고 분석하여 의사결정을 내리는 일련의 과정을 말합니다.
* 인공지능은 지능형 기계를 만드는 과학과 공학입니다.
인공지능 > 머신러닝 > 딥러닝의 순서를 꼭 기억하세요!
* 머신러닝은 기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습해서
실행할 수 있도록 하는 알고리즘을 개발하는 연구분야 입니다.
* 딥러닝은기계가 자동으로 대규모 데이터에서 중요한 패턴과 규칙을 학습하고
이를 토대로 의사결정이나 예측 등을 수행하는 기술입니다.
- 데이터 분석 프로세스
1. 기획 (문제 정의 > 분석 방법론 정의 : 기술 통계 분석, 가설 검정, 예측 모델 개발)
2. 데이터 수집 (담당 부서로부터 데이터 입수, 데이터 탐색, 오류 검토)
3. 분석 (데이터 탐색 및 전처리, 기술통계분석 : 집단간 비교와 시계열 비교, 가설 검정 : 가설 지지 확인, 예측 모형 개발과 고도화)
4. 보고 (표, 그래프 제작, 보고서 작성 : 문서화와 대시보드 개발)
- 위 4가지 작업을 순환과 반복
- 데이터 사이언스 공부, 내일말고 오늘부터!
: 캐글 실습으로 배우는 데이터 사이언스
첫번째는 [캐글 실습으로 배우는 데이터 사이언스]입니다.
데이터 사이언스 경진대회 플랫폼인 캐글을 통해
데이터 분석 분석하고 예측하는 방법을 배워봅니다.
: 파이썬으로 시작하는 데이터 사이언스
두번째는 [파이썬으로 시작하는 데이터 사이언스]입니다.
데이터 분석을 위한 파이썬 라이브러리들을 다뤄보고
공공데이터를 활용하여 데이터 전처리부터 시각화까지
데이터 사이언스의 기초를 학습합니다.
: 프로젝트로 배우는 데이터사이언스
세번째는 [프로젝트로 배우는 데이터 사이언스]입니다.
현업과 유사한 프로젝트로 머신러닝의 지도학습에서 분류와 회귀를 익혀봅니다.
또, 데이터 전처리와 피쳐 엔지어링을 통해
알고리즘을 개선하여 정확도 높은 예측을 하는 방법을 익혀봅니다.