본문 바로가기
딥러닝

LSTM 모델의 의미와 장단점

by 데이널 2024. 4. 25.

LSTM 모델에 대해 아래와 같이 이전 글에서 살펴 보았는데요. 이번 글에서는 LSTM 모델이 가지는 의미와 장단점에 대해 살펴보도록 하겠습니다. 

 

2024.04.15 - [딥러닝] - LSTM의 배경 및 구조, 핵심 아이디어

2024.04.22 - [딥러닝] - LSTM의 Cell State 특징 및 원리

2024.04.23 - [딥러닝] - LSTM의 3개의 Gate 특징 및 설명

 

 

LSTM의 의미

LSTM의 핵심 의미는 시계열 데이터에서 기울기 소실이 일어나지 않는 방식이라는 것입니다. 매번 새로운 Gate 값을 이용하므로 곱셈의 효과가 누적되지 않기 때문입니다. 그런데 이 원리는 어디서 들은 듯한 이야기 아닌가요? 바로 ResNet의 residual 아이디어가 생각납니다. LSTM의 Cell state 구조는 Identity Mapping을 이용해 긴 시계열 데이터의 기울기를 안정화하게 했습니다. 

ResNet의 Identity Mapping
ResNet의 Identity Mapping

 

Identity mapping이라는 용어는 입력값을 그대로 전달한다는 의미에서 identity라고 합니다. ResNet의 Backward pass에서 identity connection이 아주 유용했는데요. Identity mapping이 ResNet gradient를 위한 고속도로 역할했다고 볼 수 있습니다. 그렇다면 LSTM의 Cell state의 element-wise multiplication이 gradient를 위한 고속도로 역할이라고 할 수 있습니다. 

 

이렇게 Gate 구조를 추가하여 데이터의 입출력에 대해 퍼센트(%)를 학습기반으로 자동 조절할 수 있었습니다. 실험을 통해 확인해 보면, Long time step 데이터에서 학습이 가능하고 좋은 성능을 보여주는 의미있는 결과를 냈습니다.

 

 

기울기 폭발 및 소실 문제

기울기 폭발과 소실에 대해 좀 더 자세히 알아보겠습니다. 𝑓𝑡 의 경우 출력이 0~1이니 항상 1보다 작으므로 gradient가 점점 감소할 수 있습니다. 그래서 해결 방법으로 𝑓𝑡 의 biases를 양수로 초기화 시키는 방법을 이용해 학습 초기에 forget gate의 값이 1에 가깝도록 합니다. 

 

1에 가까운 값이기 때문에 적어도 학습 초기에는 gradient의 흐름이 비교적 원활하게 됩니다. 그리고 학습이 진행되면 𝑓𝑡 의 biases가 안정화 됩니다. 또 한가지는 LSTM에서는 Full Mat-mul이 아닌 Element-wise multiplication을 수행하기 때문에 기울기 소멸이 발생하지 않습니다. 이 부분이 ResNet과 비슷한 개념이라고 설명한 부분입니다. 

 

Element-wise-multiplication
Element-wise multiplication

 

왜 tanh를 사용할까?

sigmoid는 미분시 최대 0.25이므로 기울기 소실(Vanishing)이 더 심해집니다. tanh는 미분 최대값이 1 이므로 좀 더 안정적으로 작용합니다. ReLU는 0 또는 1이므로 특별한 조치를 취하지 않는한 너무 큰 값으로 Exploding 하게 됩니다. 

 

LSTM에서 tanh를 사용하는 이유
LSTM에서 tanh를 사용하는 이유

 

LSTM의 장단점

1. 장점

  • 장기 의존성 문제 해결할 수 있었음
  • 다양한 시퀀스 데이터 처리에 적합
  • RNN 모델과 비교해서 vanishing gradient 문제 해결

2. 단점

  • 계산 비용이 높음(수식 계산이 많음)
  • 모델 구조가 복잡함, 그래서 단순화한 구조가 GRU