데이널 『데이터 ∙ 분석 ∙ 지식소통』::퍼셉트론과 역전파(Back propagation)

이번 포스팅에서는 퍼셉트론에 대해 살펴보겠습니다. 딥러닝을 배우게 되면 퍼셉트론을 기본 개념으로 배우게 되는데요. 사실은 꼭 몰라도 상관없습니다. 하지만 딥러닝의 역사에 있어서 퍼셉트론의 문제를 해결한 것은 하나의 중요한 이벤트였습니다.

퍼셉트론이란?

퍼셉트론은 1956년에 Rosenblatt(로젠블랫)라는 사람에 의해서 처음 고안된 알고리즘입니다. 동물의 신경계를 본떠 만들었다고 합니다. 용어적으로 Perceptron은 퍼셉션과 뉴런, 두 단어의 조합입니다.

Perception : 무엇을 인지하는 능력
Neuron : 입력 정보를 의미있는 정보로 바꿔주는 신경 세포

XOR 문제 해결, 그리고 암흑기의 시작

마빈 민스키(Marvin Minsky) 교수가 1969년에 '퍼셉트론즈(Perceptrons)'라는 논문을 발표합니다. 이 논문에서 퍼셉트론 자체로는 XOR 문제 해결이 불가능하다는 걸 수학적으로 증명했습니다. 정확히는 단층 퍼셉트론은 안되지만 다층 퍼셉트론(MLP)으로는 XOR 문제를 해결할 수 있다는 것을 보여주죠. 이렇게 XOR 문제를 해결했는데, 사실 그것이 다는 아니었습니다. 다층 퍼셉트론 즉, MLP로는 학습이 불가능하다는 한계를 같이 지적하게 됩니다. 이 논문으로 인해 딥러닝의 1차 암흑기로 들어가게 됩니다.

다층 퍼셉트론(Multi-Layer Perceptron)

퍼셉트론은 XOR 게이트와 같은 비선형 분류는 불가능 합니다. XOR게이트는 AND, NAND, OR게이트를 활용해 MLP를 만들 수 있습니다. 이것은 기본적인 여러 층으로 된 신경망을 생각하면 됩니다.

MLP의 한계(학습 불가능): 논문에서 민스키 교수는 각 층의 가중치(weight)와 편향(bias)을 학습시킬 방법이 없다고 설명하죠. 이는 인공지능 연구가 약 20년간 침체기 진입(1~2차 기간)하게 된 계기입니다. 최종 출력(Output) Layer의 Target value가 있는 것과 달리 중간의 Hidden Layer가 가지고 있는 node에는 Target Value가 존재하지 않아 학습을 시킬 방법이 없다고 생각하게 됩니다. 이때까지 머신러닝의 학습 방법인 손실함수를 이용하여 Target value의 실제값과 예측값의 오차를 줄이는 방법을 사용하기 때문입니다. 이후에 신경망 학습을 위한 '역전파' 개념이 나오게 됩니다.

역전파(Back Propagation)란

역전파(Back Propagation)는 Output Layer에서 시작하여 직전 레이어로 이동하면서 Cost를 구하는 최적화 방법입니다. Chain Rule을 이용하여 Forward Propagation에 비해 연산량을 현저히 줄이게 됩니다.

연쇄법칙(Chain Rule)

연쇄법칙은 합성함수를 미분할 때 연속적으로 미분 값을 곱하는 과정이 Chain 같아서 붙여진 이름입니다. 합성함수는 두 함수 X → Y로의 함수와 Y → Z로 함수를 하나의 함수인 X → Z로의 함수로 표현하는 방법입니다. 역전파(Back Propagation)는 Cost를 최소화하기 위해 w를 갱신해야하며 이를 위해선 Cost의 미분값(기울기)이 필요합니다.
**2 노드에서 입력은 𝜕z/ 𝜕z이고 이의 편미분인 𝜕z/ 𝜕t 이며,

위와 같은 식이 성립되어 ‘x에 대한 z의 미분’이 됩니다.

역전파 가중치 업데이트 절차(학습 절차)

주어진 가중치 값을 이용해 출력층의 출력값을 계산함(순전파를 통해 이루어짐)
오차를 각 가중치로 미분한 값(실제로 learning rate을 곱한 값)을 기존 가중치에서 빼줌
2번 단계를 모든 가중치에 대해서 수행
1~3단계를 주어진 학습회수만큼 또는 주어진 허용오차값에 도달할 때까지 반복함

딥러닝(Deep Learning)의 역사: 왜 주목 받고 있나?

이번 포스팅에서는 딥러닝의 역사에 대해 살펴볼까 합니다. 왜 딥러닝이 태동했을까요? 딥러닝이 처음부터 지금처럼 각광받는 알고리즘이었을까요? 여러 가지 의문들이 있습니다. 지금은 챗GPT

bommbom.tistory.com

저작자표시 비영리 변경금지 (새창열림)

'딥러닝' 카테고리의 다른 글

텐서(Tensor)의 개념: 텐서플로우 vs 파이토치 vs 케라스 (1)	2024.01.09
RNN(순환 신경망)의 역사: LSTM, seq-to-seq, 트랜스포머 (0)	2024.01.08
CNN(합성곱 신경망)의 역사: 왜 CNN인가? (3)	2024.01.04
딥러닝의 암흑기 원인: 기울기 소실(Vanishing Gradient) (2)	2024.01.03
딥러닝(Deep Learning)의 역사: 왜 주목 받고 있나? (1)	2023.12.29