5.1 two-stage detector

two-stage detector

<aside> ❕

객체 탐지 분야에서 이미지 내의 여러 객체를 정확하게 식별하고 위치를 찾는 작업을 수행하기 위한 방법 중 하나

</aside>

두 개의 주요 단계로 구성됨
1. 영역 제안(region proposal)
  - 이미지 내에서 객체가 존재할 가능성이 있는 영역(후보 영역)을 추출함
    - 후보 영역 개수는 수백~ 수천 개에 이르기도 함
    - ex) 사진 속 사람, 자동차 등 다양한 객체가 있을 경우, 각 객체에 대해 가능한 위치와 사이즈의 영역 추출함
2. 분류(classification)와 바운딩 박스 회귀(bounding box regression)
  - 후보 영역 각각을 딥러닝 모델에 입력으로 제공해, 해당 영역 내의 객체를 분류함
  - 정확한 객체의 위치를 나타내기 위해 바운딩 박스의 사이즈와 위치를 조절하는 작업도 함께 수행
장점
- 높은 정확도 달성 가능
  - ⇒ 두 단계를 거치면서 많은 정보와 컨텍스트를 활용해 결과 도출
단점
- 처리 속도 상대적으로 느림
  - ⇒ 단계를 두 번 거치므로

R-CNN(Region with Convolutional Neural Network)

2013년 Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik이 처음 소개
기존 접근법 - 슬라이딩 윈도우 알고리즘
- https://inha-kim.tistory.com/37
- 이미지 스케일이 커지게 되면 연산량이 많아져 비효율적
- 이미지의 모든 영역을 독립적으로 평가함
접근법 - 선택적 검색(selective search) 알고리즘
1. 영역 제안
  - 이미지에서 관심 영역 먼저 식별
  - 이미지의 다양한 스케일, 색상, 질감 등을 고려 후 식별
  - 주요 절차
    1. 초과 분할(over-segmentation) : 주로 비슷한 픽셀 값을 가진 지역을 그룹화하여 많은 수의 작은 지역별 세그먼트 생성
    2. 계층적 그룹화(hierarchical grouping) : 색상, 질감, 사이즈 및 형태 유사성을 기반으로 가장 유사한 세그먼트들을 우선적으로 병합한 후 여러 번 반복함
    3. 전략의 다양화(strategy diversity) : 여러 가지 전략을 동시에 사용해 다양한 스케일과 모양의 영역을 포착할 수 있도록 함
    4. 필터링 제안(filtering proposal) : 많은 수의 영역 제안 중 가장 유용한 제안만 선택하는 단계
      - 사이즈 기반 필터링 : 너무 작거나 큰 영역 제안은 제외
      - 다양성 최대화 : 서로 비슷한 영역 제안 중에서는 하나만 선택
      - 제안 수 제한 : 최종적으로 200개의 영역 제안만을 선택하여 사용함
2. CNN을 통해 분류
  - CNN은 고정된 사이즈의 입력만 받아들일 수 있으므로 영역 제안을 CNN의 입력 사이즈에 맞게 변환
  - 해당 영역들을 CNN에 통과시켜 각 영역에 대한 특징 추출 (⇒ 이미지의 원래 정보나 패턴을 압축하되 객체를 정확하게 분류하고 위치를 지정하는 데 필요한 주요 정보는 유지)
  - 사용되는 CNN 구조 (알렉스넷 구조)
    - 합성곱 층 : 이미지의 지역적인 특징 학습
    - 풀링 층
    - 완전 연결 층 : 이미지의 전역적인 정보 학습
- 이미지 내에서 관심 있는 부분만 중점적으로 처리
  
  ⇒ 불필요한 연산은 줄이고 성능 향상 가능
SVM을 활용한 분류
- 객체 탐지 마지막 단계에서 각각의 영역 제안을 특정 객체 클래스로 분류
<aside> 👉🏻

SVM(Support Vector Machine)
- 머신 러닝의 분류 문제에서 꾸준히 높은 성능을 보여주는 알고리즘 </aside>
바운딩 박스 회귀
- 영역 제안이 실제 객체의 위치와 정확하게 일치하지 않을 때 이를 보정하기 위해 사용
- 영역 제안(Predict box)의 중심 좌표, 너비, 높이
- 바운딩 박스(Ground Truth)의 중심 좌표, 너비, 높이
- 타깃 값
NMS와 IoU
- 동일한 객체에 대해 중복된 검출을 처리하기 위한 추가적인 단계에서 사용되는 방법
<aside> 👉🏻

NMS(Non-Maximum Suppression)
1. 모든 바운딩 박스를 객체 점수(신뢰도)에 따라 내림차순으로 정렬
2. 사용자가 설정한 임계치 이상의 점수를 가진 바운딩 박스 선택
3. 선택된 경계 상자와 중복되는 다른 모든 경계 상자 제거 </aside>
<aside> 👉🏻

IoU(Intersection over Union)
- 중복되는 정도를 나타내는 점수
- 교집합의 영역 / 합집합의 영역
- 0.5 < : 겹치는 박스로 설정 </aside>

two-stage detector

R-CNN(Region with Convolutional Neural Network)

Fast R-CNN과 Faster R-CNN