앎을 경계하기

CV 10

[YOLO 정독] YOLOv3 : An Incremental Improvement

YOLO v1, v2에 이어 세번째 버전인 v3 리뷰글을 작성한다. YOLOv3는 v2에서 개선된 버전으로 v2를 먼저 읽고 v3를 읽는 것을 추천한다. Bounding box prediction YOLOv1에서는 anchor box 없이 즉시 bounding box 정보를 예측했다. 좀 더 안정적인 학습을 위해 YOLOv2에서는 anchor box를 사용하여 BBox를 예측하는 방법을 사용한다. 그리고 학습 과정에서 loss function은 SSE 형태의 에러함수를 사용한다. YOLO v3는 logistic regression을 사용해 각 bbox를 위한 objectness score를 예측한다. 우선순위의 bbox가 다른 bbox보다 GT bbox와 많이 겹친다면(IoU가 높다면) score는 1이..

[YOLO 정독] YOLO v2 (YOLO 9000)

YOLO v1에 이어 v2에 대한 정리글을 쓴다. YOLO v2 논문 구조가 매우 신박하다. intro, conclusion 사이에 Main Idea에 대해 Better, Faster, Stronger로 나눠서 설명한다. (보통 intro, related work, method, experiment, conclusion 순) 오히려 좋아 지난 v1과 비교했을 때 달라지는 부분들이 몇 개 있기 때문에 이러한 부분들에 집중해서 포스팅을 해야겠다. 먼저 달라진 점은 v1에서는 20개의 카테고리를 대상으로 Object Detection을 진행하였다. 하지만 객체검출이라하면.. 일반적으로 매우 많은 사물에 대해서도 잘 동작해야한다. 예를 들어, 나무, 사람은 검출하면서 컵은 검출못한다면..? 검출할 수 있는 객체..

Vision Transformer 모델들은 왜 데이터셋이 많아야할까? Inductive bias

Transformer를 vision task를 위해 도입한 논문들을 보면 이런 말을 자주 본다. 트랜스포머 모델들이 CNN 기반 모델보다 inductive bias가 부족하다. Inductive bias가 뭔데..? 구글에 그대로 검색해보면 다음과 같이 설명한다. 학습 알고리즘의 귀납적 편향은 학습자가 경험하지 않은 주어진 입력의 출력을 예측하는 데 사용하는 가정의 집합입니다. 기계 학습에서 특정 목표 출력을 예측하는 방법을 배울 수있는 알고리즘을 구성하는 것을 목표로합니다. 대충 억지로 이해해보면,, 경험하지 않은 입력에 대한 예측을 위해 사용하는 가정이다.. 즉, 학습하지 않은 데이터가 들어갔을 때 잘 예측하기 위한 가정이구나! 이게 Transformer랑 CNN이랑 무슨 상관인지 이해하려면 CNN의..

3. 밝기 변환과 공간 필터링(2)

3.2.4 구간 선형 변환 함수앞서 보았던 영상 네거티브, 로그 변환, 감마 변환에 대해 보완된 방법이 구간 선형 함수를 사용하는 것이다. 장점 : 구간 함수들의 형태가 임의로 복잡해질 수 있다.단점 : 함수를 규정하기 위한 사용자 입력이 훨씬 더 많이 필요하다.Contrast Stretching가장 간단한 구간 선형 함수 중 하나.낮은 콘트라스트 원인은 나쁜 조명, 영상화 센서의 좁은 동적 범위, 영상 획득 시 잘못된 조리개 설정 등이다. 콘트라스트 스트레칭은 밝기 레벨의 범위를 넓혀 매체의 전체 밝기 범위를 사용하게 하는 것이다.(r1,s1)=(rmin⁡,0),(r2,s2)=(rmax⁡,L−1)(r_1, s_1)=(r_{\min},0), (r_2, s_2)=(r_{\max},L-1)(r1​,s1​)=..

3. 밝기 변환과 공간 필터링(1)

3.1 배경3.1.1 밝기 변환과 공간 필터링의 기초공간 도메인 기법들은 영상의 화소들에 직접 작용한다. 일반적으로 공간 도메인 기법들이 계산적으로 더 효율적이고 자원도 더 적게 사용한다.g(x,y)=T[f(x,y)]g(x,y) = T[f(x,y)]g(x,y)=T[f(x,y)]f(x,y)f(x,y)f(x,y)는 입력영상, g(x,y)g(x,y)g(x,y)는 출력영상, TTT는 fff에 대한 연산자이다. 위 그림은 이웃(공간 필터)를 통한 공간필터링이다. 가장 작은 필터의 크기는 1×1이다. 이러한 경우 g가 하나의 점 (x,y)에서의 f의 값에만 종속된다. T는 그레이 레벨의 변환 함수가 된다.s=T(r)s=T(r)s=T(r)Contrast Strectching s, r은 각각 점(x,y)에서의 g와 f..

2. 디지털 영상 기초(3)

2.5 화소 간 몇 가지 기본적 관계2.5.1 화소 이웃좌표 (x,y)에서 화소 p는 네 개의 수평, 수직 이웃을 가진다.(x+1,y),(x−1,y),(x,y+1),(x,y−1)(x+1, y),(x-1,y),(x,y+1),(x,y-1)(x+1,y),(x−1,y),(x,y+1),(x,y−1)이 화소 집합이 p의 4-neighbors이며 N4(p)N_4(p)N4​(p)로 표기된다. p의 대각 이웃 좌표는 다음과 같고 ND(p)N_D(p)ND​(p)로 표기된다.(x+1,y+1),(x+1,y−1),(x−1,y+1),(x−1,y−1)(x+1,y+1),(x+1,y-1),(x-1,y+1),(x-1,y-1)(x+1,y+1),(x+1,y−1),(x−1,y+1),(x−1,y−1)이 점들은 4-neighbors와 함께 8-..

2. 디지털 영상 기초(2)

2.4 영상 샘플링 및 양자화2.4.1 샘플링과 양자화의 기본 개념센서로부터의 출력은 연속적인 전압 파형으로 디지털 영상으로 사용하기 위해 연속 데이터를 이산 데이터로 전환해야한다. 이 때 사용되는 과정이 샘플링(sampling)과 양자화(quantization)다.그림에서 좌측 상단 이미지가 센서로부터 얻은 연속적 영상 f이다. 디지털 형태로 전환하기 위해 좌표 값을 디지털화하는 샘플링, 진폭 값을 디지털화 하는 양자화를 거쳐야한다.우측 상단 이미지에서 표현된 선분 AB는 연속적 영상 f의 진폭 값들의 변화를 나타낸다. 이 함수를 샘플링 하기 위해 일정 간격으로 샘플을 얻는다. 그러나 아직 밝기값은 연속적이기 때문에 이 또한 이산적으로 전환되어야 한다. 이 과정이 양자화이다. 좌측 하단 이미지에서 수직..

2. 디지털 영상 기초(1)

2.1 시각적 인지의 요소2.1.1 눈의 구조우리의 눈은 세 개의 막이 눈을 둘러싼 구조이다.각막은 눈 앞 표면을 덮고 있는 투명한 조직이다.공막은 각막과 이어져 눈 구의 나머지를 둘러싼 불투명한 막이다.맥락막은 공막 바로 밑에 존재하며 눈에 필요한 영양분의 주 공급원인 혈관 네트워크를 포함한다. 맥락막의 외막은 빽빽하게 착색되어 눈에 들어오는 광량과 내부의 후방 산란을 줄여준다. 맥락막은 앞에서 모양체와 홍채로 갈라진다.홍채의 중앙 구멍(동공)은 직경이 변화하며, 홍채의 앞면은 눈의 가시 색소를, 뒷면은 흑색 색소를 포함한다.수정체는 모양체에 붙은 섬유에 의해 지탱된다. 눈의 다른 조직들보다 단백질을 많이 포함하고 있다. 수정체는 가시 광선의 약 8%를 흡수하고 파장이 짧을수록 흡수율이 높다. 적외선과..

1. Intro(1)

1.1 디지털 영상 처리란?영상은 2차원 함수f(x, y)로 정의될 수 있으며, x와 y는 공간 좌표이고 좌표 쌍(x,y)에서 f의 진폭을 영상의 밝기 또는 그레이 레벨이라고 한다.x, y, f의 밝기 값이 모두 유한하며 이산적으로 표현되는 영상을 디지털 영상이라고 한다.디지털 영상은 유한한 수의 요소들로 구성된다. 요소는 특정 위치와 값을 갖는다. 이 요소를 pixel, 화소라고 부른다.디지털 영상 처리가 포함하는 것입력과 출력이 영상인 프로세스영상으로부터 속성들을 추출하는 프로세스개별 객체 인식1.2 디지털 영상 처리 기원디지털 영상의 처음 응용 중 하나는 신문 산업이었으나 초기 디지털 영상에는 컴퓨터가 관련되어 있지 않기 때문에 정의상 디지털 영상 처리로 간주하지 않는다.컴퓨터의 진보Bell 연구소..