1. Likelihood
Likelihood = 가능도 = 우도 = 특정 사건들이 일어날 가능성 = 샘플들과 확률분포의 일관된 정도 연속 사건 내에서 특정 확률은 0이다 (예를들면 0~1 값 중 0.001이 나올 확률 = 1/무한대 = 0) → 연속확률 내에서의 지정 가능한 확률
확률분포 내 Likelihood
연속확률
- 확률 = x1과 x2 사이의 넓이
- 가능도 = f(x1|θ) * f(x2|θ) = f(x1|μ,σ) * f(x2|μ,σ)
이산확률
- 확률 = p(x1|θ) * p(x2|θ)
- 가능도 = p(x1|θ) * p(x2|θ)
2. Log Loss
- Negative log 함수에 넣어서 변환을 시키면
- 확률이 1일 때 : -log(1.0) = 0
- 확률이 0.8일 때 : -log(0.8) = 0.22314
- 확률이 0.6일 때 : -log(0.6) = 0.51082
- 직관적으로는 Loss를 계산할 때 잘못 한 경우 패널티를 가져가는 것으로 보면 됨.
3. Why negative log-likelihood?
- 딥러닝 모델의 손실함수
- 최대우도추정(Maximum Likelihood Estimation) 기법을 사용.
- 연속확률분포에서 우도(가능도)의 값을 최대로 하는 파라미터를 찾기
- ex. CLIP 모델 (이미지 - 텍스트) 최대 우도 추정 도식화
- 다범주 분류의 딥러닝 모델의 경우 소프트맥스 함수 적용
- 최대우도추정(Maximum Likelihood Estimation) 기법을 사용.
- 손실함수로 음의 로그우도를 쓸 경우 생기는 이점
- 모델의 다양한 확률분포를 가정할 수 있게 되어 유연한 대응 가능
- 음의 로그우도로 딥러닝 모델의 손실을 정의하면 확률분포 차이를 재는 함수(크로스 엔트로피)가 되며, 비교 대상 확률분포의 종류를 특정하지 않고도 측정 가능한 기준이 됨.
728x90
'데이터 어쩌구 > 기술 써보기' 카테고리의 다른 글
[Paper] A Neural Representation of Sketch Drawings (2017) (1) | 2023.08.28 |
---|---|
[Papaer] OFA : Language-Image pretraining model (2022) (0) | 2023.08.28 |
훈련시 활용한 자원 및 툴 (0) | 2023.08.28 |
[multi-modal] Image, Text pair models (0) | 2023.08.27 |
[Class 101] 협업 필터링 기반 추천 목록 만들기 (0) | 2023.08.27 |