본문 바로가기
영상처리/Recognition

Bag-Of-Feature 기반 영상 검색

by 목가 2012. 3. 20.
반응형


Bag of Feature는 정보검색(information retrieval)에서 쓰이는 Bag of Word에서 부터 유래 되었습니다. Bag of Word는 텍스트검색 시스템에서 쓰이는건데, 쉽게 말해 텍스트 내 단어의 출현빈도에 의해서 텍스트를 근사표현 해보자는 겁니다. 즉, 예를들어 어떤 텍스트내에 "아프가니스탄", "조지부시" 단어의 출현빈도가 높았다고 하면, 그 텍스트는 911사건과 관련이 깊을지도 모른다고 유추 가능 하다는 것 입니다. 이 개념을 그대로 Bag of Features에 사용을 합니다. BoF에서는 화상내의 극소 특징벡터의 출현빈도로 화상을 근사표현을 하는 겁니다. 또한, 텍스트 검색 서비스에서는 단어를 Visual Word라고 부르는데, BoF도 마찬가지로 Visual Word가 사용됩니다. 다만, BoF에서는 특징벡터가 Visual Word가 됩니다. 하지만, 특징벡터를 그대로 Visual Word로 사용하지는 않습니다. 앞서 말한 "메모리량의 문제"때문이지요. 따라서, 특징벡터는 양자화 과정을 거쳐, 출현빈도를 계산하게 됩니다. 그리고 이 출현빈도가 BoF벡터가 되는겁니다.  (위 글의 출처 : http://zaemin2.egloos.com/4119780)

이 모델을 간략하게 보면 다음과 같다.


1. Feature dection and representation
  - Regular grid, Interest point detector
  - 위의 둘 중 한 방법을 통해서 특징을 검출해 낸다.
  - 검출된 특징 주위 패치를 뜯어내고 정규화 시킨후 SIFT descriptor를 계산한다.

2. 계산된 descriptor들을 Codewords dictionary formation으로 나타낸다. vector값 들을 quantization

3. Image representation
  - codewords들에 비교하여 빈도수가 높은 class가 인식된 object이다. 
 
* 좀 더 개선된 방법으로는 SVM을 추가하거나 Pyramid match를 이요한 방법이 있다.

BoW의 단점
 - object component들의 기하학적인 정보가 없다.
 - viewpoint 불변, scale 불변에 대한 test가 광범위하게 되지 않았다.
 - segmentation과 localization이 불분명하다.

* Bag-Of-Feature 기반 영상 검색



* 트레이닝 단계와 검색 단계
  - feature를 클러스터링하는 과정은 K-means외에 Mean-shift등의 다른 클러스터링 방법을 사용해도 무방하다.

반응형

'영상처리 > Recognition' 카테고리의 다른 글

Eigenface  (0) 2012.03.20

댓글