Torchvision object detection finetuning tutorial 이 튜토리얼에선 pre-trained된 Mask R-CNN을 finetuning한다. 데이터셋은 보행자 detection, segmentation을 위한 Penn-Fudan database를 사용한다. 345개 보행자 인스턴스가 있는 170개 이미지로 구성되어있다. 데이터셋 만들기 데이터셋은 torch.utils.data.Dataset클래스를 상속해서 __len__과 __getitem__을 구현해야한다. __getitem__은 다음을 반환한다. image : height, width 사이즈의 PIL Image (width, height가 아님을 주의해야한다.) target : dictionary boxes : N개의 ..