2022 경희대학교 응용수학과 공모전 참여 보고서를 기반으로 함.
I.서론
기계가 영상을 인식하고, 이를 바탕으로 대상물을 분류, 재처리하는 기술은 영상 처리라는 분야로 정의되어 다양한 기법을 통해 발전해왔다.
1959년 홉킨스대학교의 생리학자 데이비드 허블과 토르스텐 비셀이 수행한 우리의 뇌에서 시각정보를 받는 대뇌피질의 첫번째 부분인 일차 시각피질에 있는 개별뉴런의 활동에 대한 연구[1]는 두뇌가 어떻게 시각적 정보를 인식하는지에 대한 기초적인 매커니즘을 제시하였다. 영상 처리는 크게 두개의 갈래로 나누어져 발전해왔는데, 전통적인 머신러닝 방법을 통해 대상물을 인식하는 방법, 머신러닝 중 딥러닝을 통해 대상물을 인식하는 방법이라는 두개의 갈래로 발전했다.[2] 이와는 별개로, 대뇌피질의 작동과는 무관하게, 전통적인 수학적 기법을 이용하여, 영상을 분석하고 영상 속의 대상물을 분류하는 방법 역시 발전해왔다.
수학적 기법의 경우 특징점 추출을 위해 수학적인 알고리즘을 사용한 SIFT알고리즘등이 존재한다. 전통적인 머신러닝의 경우 특성(feature)을 가공하는 것에 초점을 맞춘 특성공학에 많은 비중을 둔다. 이를 통해 전통적인 통계 기법으로 쉽게 모델링할 수 있는 변수로 데이터를 전처리하기 위해 기발하고 정교한 알고리즘을 적용한다. 대표적 예로 회귀, 랜덤 포레스트, 서포트 벡터 머신 같은 기법이 존재한다. 딥러닝을 통한 접근은 특성 공학을 거의 또는 전혀 사용하지 않고, 대신 입력데이터를 받아들이는 모델의 구조를 설계하고 조율하는 것에 비중을 둔다.
우리는 이번 보고서를 통해 영상 처리 방법의 발전 모습과 현재 영상 처리 중 특징추출과 패턴인식 기술 분야의 발전에서 이 두가지 방법이 어떻게 각각 발전했는지와 현재 가장 큰 인기를 끌고 있는 딥러닝을 사용한 영상처리 방법에 대해서 알아볼 것이다.
II.영상처리 기술의 발전사와 인공지능의 발전사[3]
1. 영상의 정의
영상이란, 2차원 또는 3차원으로 펼쳐지는 정보 형태라고 할 수 있다. 영상은 사람이 외부에서 물체를 인식하는 오감 중 가장 많이 의존하는 시각과 직접적으로 관련되어 있다는 점에서 이른 시기부터 많은 관심을 받았고, 영상을 저장하고 처리하는 기술은 계속해서 발전해왔다.
2. 영상 처리
영상 처리(Image processing)은 넓게는 입출력이 영상인 모든 형태의 정보 처리를 의미한다. 사진 또는 동영상을 처리하는 것이 대표적인 예이다.
3. 영상 처리의 발전사 영상처리의 방법론. -아날로그 영상처리/디지털 영상처리
영상을 통해 입력 받은 이미지에서 물체를 식별하고, 그 위치에 따라 작동하게 하는 것은 오래전부터 발전해왔다. 하지만, 하드웨어 및 소프트웨어의 한계로 인해 사람이 물체를 인식하고 구분하는 메커니즘을 컴퓨터상에서 구현할 수 없었다. 따라서, 물체를 인식하는 여러가지 대체 알고리즘들이 지속적으로 개발되어 왔다. 이러한 발전은 2000년대 이전까지의 영상처리의 경우 아날로그 영상처리와 디지털 영상처리라는 두개의 큰 줄기로 나누어져 이루어졌다.
아날로그 영상처리
아날로그 영상처리는 다시 광학 처리와 비디오 처리라는 두개의 줄기로 나누어진다.
광학처리의 경우, 레이저를 사용한 coherent 광학계에 의한 2차원 퓨리에 변환, 주파수 성분 필터링을 통한 잡음 제거, 영상의 강조, 특정 신호성분 추출 등의 처리를 할 수 있다.
비디오 처리의 경우, 영상의 농도의 보정, 등농도선 표시, 의사컬러표현, 복수영상의 사칙연산 및 논리연산 등을 사용해 영상을 처리할 수 있다.
디지털 영상처리
디지털 영상처리의 경우 컴퓨터 또는 디지털 회로를 이용하여 영상을 처리하는 것을 의미한다. 알고리즘의 활용 가능성을 의미하는 융통성과 정밀도, 재현성 등에서 아날로그 영상처리에 비해 월등한 성능을 보인다.
4. 영상처리 알고리즘
아날로그, 디지털 영상처리 모두 그 과정은 크게 영상의 획득, 영상의 전처리, 영상의 분할과 특징추출, 영상의 패턴 매칭과 영상의 기술, 영상의 전송, 영상의 합성이라는 6가지의 과정으로 분류할 수 있다.
영상의 획득
영상의 획득의 경우, 카메라나 레이더 등을 통해 빛의 2차원 강도분포를 저장함으로 이루어진다. 광전변환과 표본화, 양자화를 통해 우리는 렌즈 또는 수신기에 입력된 빛의 정보를 기록하여 영상을 획득한다.
영상의 전처리
영상의 전처리란, 획득된 영상을 디지털 처리하여 결과물로 출력하는 과정이다. 이 과정은 크게 두가지 즉, 복원(restoration)과 강조(enhancement)로 나누어진다. 복원의 경우 잡음 또는 왜곡에 의해 열화된 영상을 원래의 형태에 가깝게 복원하는 것을 의미한다. 이 과정은 잡음 제거, 일그러짐 복원, 기하학적 보정과 같은 필터링 처리를 통해 이루어진다. 또한, 강조의 경우 영상을 다음의 처리과정(영상 분할 및 계측)등의 과정이 원활하도록 영상을 재생성하는 과정을 의미한다. 대표적으로 농도값 변환, 엣지 강조, 의사컬러 표현 등이 포함된다.
영상의 특징 추출-분할 및 계측
이 과정은 영상 중에 존재하는 대상물에 따라 영역을 분할하고, 대상물의 개수와 면적, 색 등의 특징을 계측하는 과정이다. 경우에 따라, 이 과정이 영상처리의 궁극적 목적이 되는 경우가 존재하기도 하고, 영상인식을 위한 특징 추출의 과정으로 사용되기도 한다.
영상의 패턴 매칭과 영상의 기술
영상 인식(identification)은 영상에 존재하는 대상물이 무엇인지 분류하는 영상처리를 의미하고, 영상 기술(description)은 이를 기호 또는 언어로 표현하는 과정을 의미한다.
영상 인식과 기술의 과정을 거쳐 패턴인식(pattern recognition)을 수행할 수 있는데, 여기에는 유사한 패턴을 하나로 모으는 분류(classification), 유사한 패턴을 카테고리에 대응시키는 식별(discrimination)의 기능이 포함된다. 이와 같은 기능을 복잡한 영상(많은 데이터를 담고 있는 영상)을 식별하는 것에 사용하는 것을 영상 이해(image understanding)또는 장면 해석(scene analysis)라고 한다.
영상의 전송
영상 통신을 하기 위한 신호처리에 대한 내용이지만, 우리가 주로 다루고자 하는 영상인식과는 큰 관계가 없기에 생략한다.
영상의 합성
복수의 영상을 합성하여 새로운 영상을 생성하는 것을 의미한다. 가장 간단한 예로 컴퓨터 단층촬영(CT)의 경우 X선의 흡수계수 분포를 통해 대상물의 단층 영상을 합성하여 입체영상을 생성한다. 또한, 딥페이크 기술과 같은 딥러닝 기반의 영상합성 기술 역시 현재 많은 발전을 이루고 있다. 그러나 이번 보고서에서는 영상의 합성보다 영상인식에 초점을 맞추어 알아볼 것이다. 따라서, 영상의 합성과 관련된 내용은 생략한다.
5. 한계점
아날로그 영상처리 중 광학처리의 경우 필터, 감광재료 등에 의한 물리적 제약에 의한 한계가 존재한다. 또한, 아날로그 영상처리 중 비디오처리의 경우 알고리즘을 활용하는 융통성에 한계가 존재했고, 정밀도가 충분히 높지 않았다. 디지털 처리의 경우 2000년대 이전까지는 영상 입출력 장치와 기억용량 및 순차처리에 의한 처리속도의 한계로 인해 여러가지 한계가 존재하였다. 또한, 그 알고리즘은 사람의 인식 메커니즘과는 다른 주요 성분 분석, 독립 성분 분석, 히든 마르코프 모델 자기조직화 지도 등을 사용한 수학적 기법에 의존했다. 하지만 이와 같은 알고리즘은 사람의 인식수준과 비교하여 항상 기대치를 넘을 수 없었고, 결국 다양한 곳에 활용되기에는 제약이 존재했다. 이처럼 아날로그와 디지털 처리 방식 모두 실사용에 큰 한계를 갖고 있어 우리의 실생활에서 영상 인식이 활발하게 이용되지는 못하였다.
이러한 방법들은 사람이 직접 설계한 것으로 비디오 데이터의 복잡한 패턴을 모두 분석하기에는 어려움이 존재했다.[4] 또한, 알고리즘의 높은 연산양으로 인해 실생활에 적용하는 것에 큰 어려움이 존재했다. 그러나, 2000년대 이후 컴퓨터 하드웨어의 비약적 발전에 따라, 더 많은 연산을 더 쉽게 수행할 수 있게 되었다. 또, 네트워크의 발전, 센서 등의 발전으로 인해 이전보다 상대적으로 많은 양의 데이터를 모으기 쉬워졌다. 이에 따라, 이전까지 제대로 된 구현이 불가능하다고 여겨져 사장되었던 딥러닝 기법이 실현 가능하게 되었다. 이후, 딥러닝 알고리즘의 발전으로 인해 모델이 직접 특징을 학습하는 여러 방식이 제시되며, 영상처리에 있어서 딥러닝을 사용한 영상인식이 주류 방법으로 자리잡게 됐다.
[1] Hubel, D. H., & Wiesel, T. N. (1959), Receptive fields of single neurons in the cat’s striate cortex, The Journal of Physiology, 148, 574-91.
[2] 존 크론, 그랜트 베일레벨드, 아그레이 바슨스, ‘딥러닝 일러스트레이드’, 2021, 시그마프레스, p9-14..
[3] 김석태, ‘영상 인식의 이해’, 2001, 한국학술정보.
[4] 김지섭 외 2명, ‘딥러닝 기반 비디오 분석 기술’, 2015, 정보과학회지 33(9), 2015.9, 21-31(11page).