📂 STUDY/ML(Machine Learning) 2026. 6. 30.

[ML] TF-IDF(Term Frequency-Inverse Document Frequency)

IDF 분자에도 +1: $\text{IDF}(t)=\ln\frac{1+N}{1+\text{DF}(t)}+1$ &mdash; 어떤 단어의 IDF도 정확히 0이 되지 않도록 함(가중치가 완전히 사라지는 것을 방지)
L2 정규화: 각 문서 벡터의 길이(norm)를 1로 맞춤 &mdash; 문서 길이가 달라도 벡터끼리 공정하게 비교 가능

GitHub 댓글