본문 바로가기
딥러닝

CNN의 발전 방향 및 생각해 볼 문제

by 데이널 2024. 2. 28.

지금까지 CNN의 기본적인 개념들을 알아봤습니다. 그런데 이런 개념들을 적용해 CNN은 어떻게 발전해 왔을까요? CNN의 등장 이후 여러 논문을 통해 다양한 네트워크들이 나오면서 발전해 갔습니다. 이 글에서는 CNN의 발전 방향과 그로 인해 몇 가지 생각해 볼 문제를 다뤄보겠습니다. 

 

 

CNN의 등장

CNN의 초기 아이디어는 1980년대에 얀 르쿤(Yann LeCun)과 그의 동료들에 의해 제안되었습니다. 바로 “Backpropagation applied to handwritten zip code recognition, LeCun, 1989” 이 논문에서 소개되었죠. 그 당시에는 손으로 쓴 우편번호를 인식하는데 활용되었습니다.

 

CNN은 생물학적인 시각 시스템에서 영감을 받았습니다. 알고리즘은 이미지의 특징을 계층적으로 추출하는 방식으로 작동합니다. 그래서 컴퓨터 비전 분야에 많이 사용하죠. 

 

CNN의 역사
CNN의 등장 및 역사

CNN의 역사

  • 1989년 얀 르쿤 교수 논문 발표 : 필기체 인식에 의미가 있었지만 범용화하는데는 무리가 있었음
  • 1998년 LeNet-5 제시 : 합성곱 계층, 풀링 계층 소개
  • 2012년 AlexNet : ReLU, Dropout 사용, 역사적 오류율 16.4%
  • 2014년 GoogLeNet : ILSVRC 대회 1위(오류율 6.7%) 
  • 2014년 VGG : ILSVRC 대회 2위(오류율 7.3%)
  • 2015년 ResNet : skip connection, 150층 이상, 오류율 3.5% (Human 오류 5.1%)
  • 2016년 DenseNet : 밀도 높은 네트워크 구성, CIFAR10 약 96% 정확도
  • 2017년 SENet : 오류율 2.3% 를 마지막으로 대회 종료(Attention 개념 적용)
  • Auto ML 시대 : 네트워크 층 깊이, 넓이 등 기계학습, EfficientNet(2019)
  • Attention 모델 : Transformer구조 적용, ViT, YOLO, COCA 등

AutoML은 Automated Machine Learning의 약어로, 기계 학습 모델을 구축하는 프로세스를 자동화하는 기술을 가리킵니다.

 

CNN의 발전과 확산

 

CNN은 초기에는 컴퓨터 비전 분야에서 사용되었지만, 후에 음성 인식, 자연어 처리 등 다양한 분야로 확장되어 사용되고 있습니다. 2012년, 알렉스넷(AlexNet)은 ImageNet 이미지 분류 대회에서 놀라운 성적(역사적인 오류율 16.4%)을 거뒀습니다. 이는 대규모 이미지 데이터셋에서 딥러닝을 사용하여 높은 정확도를 달성한 첫 번째 모델이었습니다.


이후 VGG, GoogLeNet, ResNet 등의 다양한 CNN 아키텍처가 개발되었습니다. 이러한 아키텍처들은 더 깊은 네트워크와 더 나은 성능을 제공하기 위해 발전되었습니다.

 

생각해 볼 문제

1. 효율적인 모델에 대한 Needs

최근 동향 중에 Auto ML으로 딥러닝의 모든 요소를 학습시키려는 시도가 있었는데요. 학습량의 비효율로 실패했습니다. 하지만 일부 Auto ML을 활용하고, 사람이 작업하는 것을 추가하였더니 효과가 있었습니다. 이 결과에서 알 수 있듯이 아무리 하드웨어가 발전해도 모두 자동화하는 것은 비효율적이라는 말입니다. 좀 더 많은 일을 하이 위해서는 기계에만 맡기는 것이 아니라 효율적인 모델을 만들려는 요구는 계속될 것이라는 생각이 듭니다.  

 

2. Attention 모델에 활용

Attention 모델은 언어처리 분야에 널리 사용되고 있습니다. 거의 이제는 그 모델의 변형일 뿐이죠. 그런데 언어처리 분야뿐 아리라 컴퓨터 비전에서도 Attention, Transformer 등 기법을 사용하는 것을 알 수 있습니다. Attention 모델이 관계성을 찾아가는 모델이라고 했을 때 이미지도 적용하지 못할 것도 없다는 생각이 드는군요. 

 

3. 머신러닝 vs 딥러닝

동일한 문제에 대해 적용했을 때 데이터의 양이 많을 수록 딥러닝이 머신러닝보다 정확도가 높습니다. 그렇다면 앞으로 알고리즘은 딥러닝 모델만 남게 될까요? 아주 먼 미래에 간다면 그럴 수도 있다는 생각을 우리는 합니다. 학습 데이터가 어느 정도를 넘어가면 정확도 차이가 너무 나는 것을 경험했으니까요. 


컴퓨팅 리소스 자원은 앞으로도 발전할 것이니, 많은 데이터 확보만 된다면 더이상 머신러닝은 사용하지 않을 것이다라고 추론해 볼 수도 있죠. 하지만 꼭 그렇지만은 않습니다. 메인 모델은 딥러닝 모델이라도 다양한 머신러닝 기법을 결합해서 최적의 모델을 만드는 경우가 실제 프로젝트에서 많습니다. 그렇다면 머신러닝 기법은 모르면 안 되겠죠. 

 

4. 기술적 발전과 연구

CNN의 발전은 하드웨어와 소프트웨어 기술의 발전과 밀접한 관련이 있습니다. GPU의 등장과 딥러닝 프레임워크의 발전은 CNN의 학습과 실행을 가속화했습니다. 또한 CNN의 기술적 발전은 학계와 산업계에서 한 동안 많은 관심을 불러일으켰었죠. 아직도 많은 연구자들이 지속적인 관심과 노력을 하고 있고요. 하지만 요즘은 LLM(대규모 언어 모델)이 패러다임을 바꾸고 있습니다. 

 

마무리

합성곱 신경망(CNN)은 컴퓨터 비전 및 패턴 인식 작업에 사용되는 딥러닝 모델입니다. 이미지 인식, 객체 감지, 이미지 분류 등 다양한 작업에서 뛰어난 성능을 보입니다. 이렇게 CNN은 초기부터 이미지 처리 분야에서 큰 관심을 받으며, 점차 다양한 분야로 확장되고 있습니다. 그 발전은 알고리즘의 개선과 하드웨어 기술의 진보, 그리고 연구 및 응용 분야에서의 지속적인 관심과 노력에 기인했죠.