Transformer를 vision task를 위해 도입한 논문들을 보면 이런 말을 자주 본다. 트랜스포머 모델들이 CNN 기반 모델보다 inductive bias가 부족하다. Inductive bias가 뭔데..? 구글에 그대로 검색해보면 다음과 같이 설명한다. 학습 알고리즘의 귀납적 편향은 학습자가 경험하지 않은 주어진 입력의 출력을 예측하는 데 사용하는 가정의 집합입니다. 기계 학습에서 특정 목표 출력을 예측하는 방법을 배울 수있는 알고리즘을 구성하는 것을 목표로합니다. 대충 억지로 이해해보면,, 경험하지 않은 입력에 대한 예측을 위해 사용하는 가정이다.. 즉, 학습하지 않은 데이터가 들어갔을 때 잘 예측하기 위한 가정이구나! 이게 Transformer랑 CNN이랑 무슨 상관인지 이해하려면 CNN의..