-
2013년 Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik이 처음 소개
-
기존 접근법 - 슬라이딩 윈도우 알고리즘
-
접근법 - 선택적 검색(selective search) 알고리즘
- 영역 제안
- 이미지에서 관심 영역 먼저 식별
- 이미지의 다양한 스케일, 색상, 질감 등을 고려 후 식별
- 주요 절차
- 초과 분할(over-segmentation) : 주로 비슷한 픽셀 값을 가진 지역을 그룹화하여 많은 수의 작은 지역별 세그먼트 생성
- 계층적 그룹화(hierarchical grouping) : 색상, 질감, 사이즈 및 형태 유사성을 기반으로 가장 유사한 세그먼트들을 우선적으로 병합한 후 여러 번 반복함
- 전략의 다양화(strategy diversity) : 여러 가지 전략을 동시에 사용해 다양한 스케일과 모양의 영역을 포착할 수 있도록 함
- 필터링 제안(filtering proposal) : 많은 수의 영역 제안 중 가장 유용한 제안만 선택하는 단계
- 사이즈 기반 필터링 : 너무 작거나 큰 영역 제안은 제외
- 다양성 최대화 : 서로 비슷한 영역 제안 중에서는 하나만 선택
- 제안 수 제한 : 최종적으로 200개의 영역 제안만을 선택하여 사용함
- CNN을 통해 분류
- CNN은 고정된 사이즈의 입력만 받아들일 수 있으므로 영역 제안을 CNN의 입력 사이즈에 맞게 변환
- 해당 영역들을 CNN에 통과시켜 각 영역에 대한 특징 추출 (⇒ 이미지의 원래 정보나 패턴을 압축하되 객체를 정확하게 분류하고 위치를 지정하는 데 필요한 주요 정보는 유지)
- 사용되는 CNN 구조 (알렉스넷 구조)
- 합성곱 층 : 이미지의 지역적인 특징 학습
- 풀링 층
- 완전 연결 층 : 이미지의 전역적인 정보 학습
-
SVM을 활용한 분류
- 객체 탐지 마지막 단계에서 각각의 영역 제안을 특정 객체 클래스로 분류
<aside>
👉🏻
SVM(Support Vector Machine)
- 머신 러닝의 분류 문제에서 꾸준히 높은 성능을 보여주는 알고리즘
</aside>
-
바운딩 박스 회귀
-
영역 제안이 실제 객체의 위치와 정확하게 일치하지 않을 때 이를 보정하기 위해 사용
-
영역 제안(Predict box)의 중심 좌표, 너비, 높이

-
바운딩 박스(Ground Truth)의 중심 좌표, 너비, 높이

-
타깃 값

-
NMS와 IoU
- 동일한 객체에 대해 중복된 검출을 처리하기 위한 추가적인 단계에서 사용되는 방법
<aside>
👉🏻
NMS(Non-Maximum Suppression)
- 모든 바운딩 박스를 객체 점수(신뢰도)에 따라 내림차순으로 정렬
- 사용자가 설정한 임계치 이상의 점수를 가진 바운딩 박스 선택
- 선택된 경계 상자와 중복되는 다른 모든 경계 상자 제거
</aside>
<aside>
👉🏻
IoU(Intersection over Union)
- 중복되는 정도를 나타내는 점수
- 교집합의 영역 / 합집합의 영역
- 0.5 < : 겹치는 박스로 설정
</aside>