본문 바로가기
데이터 어쩌구/기술 써보기

[NLP] Negative Log Likelihood

by annmunju 2023. 8. 28.

1. Likelihood

Likelihood = 가능도 = 우도 = 특정 사건들이 일어날 가능성 = 샘플들과 확률분포의 일관된 정도 연속 사건 내에서 특정 확률은 0이다 (예를들면 0~1 값 중 0.001이 나올 확률 = 1/무한대 = 0) → 연속확률 내에서의 지정 가능한 확률

확률분포 내 Likelihood

연속확률

  • 확률 = x1과 x2 사이의 넓이
  • 가능도 = f(x1|θ) * f(x2|θ) = f(x1|μ,σ) * f(x2|μ,σ)

이산확률

  • 확률 = p(x1|θ) * p(x2|θ)
  • 가능도 = p(x1|θ) * p(x2|θ)

2. Log Loss

  • Negative log 함수에 넣어서 변환을 시키면
    • 확률이 1일 때 : -log(1.0) = 0
    • 확률이 0.8일 때 : -log(0.8) = 0.22314
    • 확률이 0.6일 때 : -log(0.6) = 0.51082
    → 0.2씩 감소했으나 확률이 더 작아질수록 log loss 값이 더욱 커져가는 값
  • 직관적으로는 Loss를 계산할 때 잘못 한 경우 패널티를 가져가는 것으로 보면 됨.

3. Why negative log-likelihood?

  • 딥러닝 모델의 손실함수
    • 최대우도추정(Maximum Likelihood Estimation) 기법을 사용.
      • 연속확률분포에서 우도(가능도)의 값을 최대로 하는 파라미터를 찾기
    • ex. CLIP 모델 (이미지 - 텍스트) 최대 우도 추정 도식화
    • 다범주 분류의 딥러닝 모델의 경우 소프트맥스 함수 적용
  • 손실함수로 음의 로그우도를 쓸 경우 생기는 이점
    • 모델의 다양한 확률분포를 가정할 수 있게 되어 유연한 대응 가능
    • 음의 로그우도로 딥러닝 모델의 손실을 정의하면 확률분포 차이를 재는 함수(크로스 엔트로피)가 되며, 비교 대상 확률분포의 종류를 특정하지 않고도 측정 가능한 기준이 됨.
  •  
728x90