ABSTRACTsemantic segmentation의 성능을 개선시키기 위해 Multi-scale inference를 사용한다. 여러 스케일의 이미지가 네트워크를 통과하고 그 결과가 averaging 또는 max pooling 연산을 통해 결합된다. 이 논문에서는 multi-scale로 예측한 결과를 결합하기 위해 attention을 사용하는 접근법을 소개한다. 특정 스케일들로 예측하는 것은 특정 고장난 형태를 해결하는 데 더 효과적이다. 그리고 네트워크는 더 나은 예측을 하기 위해서 이러한 스케일들을 선호하는 것을 학습한다. 이 논문에서 사용되는 attention mechanism은 계층적이다. 이 방법은 다른 최근 접근법들보다 학습하는데 대략 4배 더 메모리 효율적이다. 게다가 학습할 때 더 크게 ..