[ GaitSet : Regarding Gait as a Set for Cross-View Gait Recognition]

 

( 1 ) ........ Gait as Unordered Set

( 2 ) ........ Proposed Method & Set Pooling

( 3 ) ........ Horizontal Pyramid Mapping & Multilayer Global Pipeline ( 현재 글 )

 


- Horizontal Pyramid Mapping

 

< Horizontal Pyramid Pooling >

 

  Feature map을 여러 strip으로 나눠 사용하는 것은 Person re-identification task에서 자주 쓰이는 방법이다. Gait Silhouette Image를 만들 때, 이미지 내에서 보행자의 키나 덩치가 다 다르기 때문에 보행자 영역만 Crop하고 같은 사이즈로 Resizing한다. 

 

  이러한 문제를 다루기 위해 Horizontal Pyramid Pooling이 제안되었다. HPP에서 Scale을 4개로 뒀을 때, Scale에 따라 Feature map을 자르게 되면 Deep Network가 다른 size의 부분에서부터 추출된 Local information과 Global information 모두 집중할 수 있게 된다. 이 논문에서는 Gait Recognition Task에 맞도록 HPP를 변경하여 사용한다.

 

 

< Horizontal Pyramid Mapping >

 

  HPM은 HPP와 달리 Scale이 4개로 고정되어 있지 않다. User가 설정하는 Hyper Parameter로, Scale이 S일 때, 아래 식에 따라 Feature Map을 Split한다. 만약 HPP와 같이 Scale을 4로 설정한다면, 1 + 2 + 4 + 8 로 총 15개의 strip으로 나뉘게 된다. 이렇게 만들어진 strip들을 Global Average Pooling, Global Max Pooling Layer에 통과시킨 후 더한다.

  이렇게 얻어진 Feature Map을 HPP에서는 1x1 Convolution Layer를 통과시켜 Channel간 값들을 추합한다. HPM에서는 1x1 Convolution Layer대신 Fully Connected Layer를 사용한다. FC Layer를 사용함으로서 Pooling Layer를 통과한 Feature를 Discriminative Space로 Mapping한다. 각 Strip은 Image에서 다른 위치의 특징을 나타내고, Scale이 다른 strip은 각각 Image에서 수용하는 범위가 다르기 때문에 독립적인 FC Layer를 사용하는 것이 자연스럽다고 표현하고 있다.

 

 


- Multilayer Global Pipeline

 

  Convolution Network의 각기 다른 층은 각각 다른 receptive field를 가진다. Receptive field란 Convolution 연산 시 filter가 보는 Local한 영역이라고 생각하면 쉽다. 즉, CNN의 각 층은 수용하는 영역이 다르다는 의미이다. 얕은 Layer의 Feature map은 더 Local하고 세분화된 정보에 집중하고 깊이가 깊어질수록 더 Global하고 Rough에 집중한다.

 

  서로 다른 Level의 Set단위 Information을 추합하기 위해 비슷한 개념을 적용한다. Set Pooling을 통해 Set Level Feature만들고 MGP에 더해준다. Multilayer GLobal Pipeline을 통과하면서 Frame Level Feature 추출에 사용되는 비슷한 CNN이 적용된다. 마지막에 MGP를 통과한 Global Information과 마지막 Layer에서 얻은 Frame Level Feature에 Set pooling을 적용해 얻은 Local Information을 HPM에 입력한다. 예를 들어 S = 5 인 HPM에 입력될 때, Global Feature에서 31개의 Strip, Local Feature에서 31개의 Strip, 총 62개의 Strip으로 나눠지게 된다.

 


 

  논문에는 자세히 쓰여있지 않았지만, 전체 Network 그림을 보면 마지막에 Triplet Loss를 사용한다고 되어있다. Triplet Loss에 대한 내용은 이 글에서 다루지 않고 따로 내용을 정리하도록 하겠다.

 

 

이전글 ) GaitSet :Proposed Method & Set Pooling

 

 

- 참고자료

- GaitSet : Regarding Gait as a Set for Cross-View Gait Recognition, Hanqing Chao et al arXiv:1811.06186

- Horizontal pyramid matching for person re-identification, Fu et al. 2018, arXiv:1804.05275

+ Recent posts