1. 전이 학습
앞서 설명한 모델들은 전부 모델을 충분히 학습시키기 위해 다양한 이미지로 구성된 대규모 데이터세트를 요구한다. 그러나, 데이터세트 자체가 구하기 어렵고, 비싸며 훈련 과정에서도 굉장한 계산 비용을 요구한다. CNN에 대한 설명을 할 때에, CNN은 이미지에서 일반적인 특성을 학습한다는 것을 말했다. 다시 말하자면 CNN의 얕은 층에서는 직선, 모서리, 색, 간단한 모양 등을 학습하고, 깊은 층에서는 이 간단한 요소들의 조합을 통해 질감, 형태의 조합, 물체의 일부분과 같은 부분을 학습할 수 있다.
전이 학습은 사전 훈련된 CNN의 특성 맵에 포함된 시각 요소를 재사용하여 새로운 종류의 물체를 인식하도록 하는 것이다. 간단히 말해 보조개 패턴과 같이 움푹 파인 패턴을 학습한 특성 맵을 원 패턴을 학습한 특성 맵과 연결하면 골프공을 인식할 수 있는 것이다. 이를 통해 모델 개발자는 많은 양의 데이터를 비싸게 구할 필요도 상대적으로 적고, 계산 비용이 획기적으로 줄어든다는 장점이 존재한다.
이를 위해 파이썬의 케라스와 같은 딥러닝 프레임워크는 상대적으로 간단한 코드를 통해 전이 학습을 진행할 수 있도록 하고 있다.
2. 캡슐 네트워크
지금까지 언급된 CNN의 경우 물체들의 위치 정보를 고려한 분류는 불가능하다. (사람의 얼굴을 담은 이미지에서 눈과 코의 위치가 바뀌어도, 그 형태가 온전하다면 CNN은 그 이미지를 사람의 얼굴로 판단할 것이다.) 그러나 토론토 구글 브레인 팀의 사라 사보어가 제시한 캡슐 네트워크는 이미지 특성의 상대적 위치까지 고려하여 이미지를 분류해낼 수 있다.
그러나, 이 모델의 경우, 초기 단계의 모델이기에 계산 복잡도가 높아 널리 사용되기에는 무리가 있다. 따라서, 현재 학계에서는 캡슐 네트워크 개선을 포함해서 특성 맵의 상대적 위치까지 고려하는 모델을 개발하는 것에 초점을 맞추고 있다.
8개의 포스트를 통해서 머신 비젼을 구현하는 여러가지 방법들을 알아보았다. 앞으로 이 모델들을 가능하다면 구현해보고, 조금 더 자세히 알아보도록 할 것이다.