앎을 경계하기

추천시스템

TF-IDF

양갱맨 2023. 1. 17. 00:48

TF-IDF

TF-IDF는 자연어 처리에서 굉장히 중요한 개념이다.

어떤 문서들 중에 해당 단어가 특정 문서에서 얼마나 중요한지를 나타내는 통계값이다.

TF-IDF 에서 사용되는 단어들의 정의를 보면,

  • TF : Term Frequency(단어 빈도), 말 그대로 특정 단어가 문서 내에 자주 사용되는지를 나타낸다.
  • DF : Document Frequency(문서 빈도), 특정 단어가 문서군 내에 얼마나 자주 사용되는지를 나타낸다.
  • IDF : Inverse Document Frequency(역문서 빈도), DF의 역수

단어 빈도가 커지면 특정 단어가 해당 문서 내에서 핵심 단어가 된다고 해석할 수 있다.
문서 빈도가 커지면 역문서 빈도는 작아지고, 이는 특정 단어가 여러 개의 문서에서 자주 사용된 단어라고 해석할 수 있다.

그렇다면 TF가 크고 IDF는 작다면?

예를 들어, 전자제품들의 사용 설명서 데이터가 있다.
여기서 "제품" 이라는 단어는 TF 값이 매우 높을 것이다. IDF는 어떨까?
IDF는 굉장히 작아질 것이다. 왜냐하면 전자제품 사용설명서마다 모두 "제품" 이라는 단어가 등장하기 때문이다.
"제품"이라는 단어는 DF 값이 매우 높아, DF의 역수인 IDF는 굉장히 낮은 값을 갖는다.

TF가 크고 IDF가 작은 단어는 그 문서에서 핵심 역할을 하는 단어라고 보기 어렵기 때문에 가중치가 낮게 계산된다.
TF-IDF 계산 방식은 다음 링크를 참고하자.
https://ko.wikipedia.org/wiki/Tf-idf