LSTM 모델에 대해 아래와 같이 이전 글에서 살펴 보았는데요. 이번 글에서는 LSTM 모델이 가지는 의미와 장단점에 대해 살펴보도록 하겠습니다.
2024.04.15 - [딥러닝] - LSTM의 배경 및 구조, 핵심 아이디어
2024.04.22 - [딥러닝] - LSTM의 Cell State 특징 및 원리
2024.04.23 - [딥러닝] - LSTM의 3개의 Gate 특징 및 설명
LSTM의 의미
LSTM의 핵심 의미는 시계열 데이터에서 기울기 소실이 일어나지 않는 방식이라는 것입니다. 매번 새로운 Gate 값을 이용하므로 곱셈의 효과가 누적되지 않기 때문입니다. 그런데 이 원리는 어디서 들은 듯한 이야기 아닌가요? 바로 ResNet의 residual 아이디어가 생각납니다. LSTM의 Cell state 구조는 Identity Mapping을 이용해 긴 시계열 데이터의 기울기를 안정화하게 했습니다.

Identity mapping이라는 용어는 입력값을 그대로 전달한다는 의미에서 identity라고 합니다. ResNet의 Backward pass에서 identity connection이 아주 유용했는데요. Identity mapping이 ResNet gradient를 위한 고속도로 역할했다고 볼 수 있습니다. 그렇다면 LSTM의 Cell state의 element-wise multiplication이 gradient를 위한 고속도로 역할이라고 할 수 있습니다.
이렇게 Gate 구조를 추가하여 데이터의 입출력에 대해 퍼센트(%)를 학습기반으로 자동 조절할 수 있었습니다. 실험을 통해 확인해 보면, Long time step 데이터에서 학습이 가능하고 좋은 성능을 보여주는 의미있는 결과를 냈습니다.
기울기 폭발 및 소실 문제
기울기 폭발과 소실에 대해 좀 더 자세히 알아보겠습니다.
1에 가까운 값이기 때문에 적어도 학습 초기에는 gradient의 흐름이 비교적 원활하게 됩니다. 그리고 학습이 진행되면

왜 tanh를 사용할까?
sigmoid는 미분시 최대 0.25이므로 기울기 소실(Vanishing)이 더 심해집니다. tanh는 미분 최대값이 1 이므로 좀 더 안정적으로 작용합니다. ReLU는 0 또는 1이므로 특별한 조치를 취하지 않는한 너무 큰 값으로 Exploding 하게 됩니다.

LSTM의 장단점
1. 장점
- 장기 의존성 문제 해결할 수 있었음
- 다양한 시퀀스 데이터 처리에 적합
- RNN 모델과 비교해서 vanishing gradient 문제 해결
2. 단점
- 계산 비용이 높음(수식 계산이 많음)
- 모델 구조가 복잡함, 그래서 단순화한 구조가 GRU
'딥러닝' 카테고리의 다른 글
가중치 공유를 하는 이유 (0) | 2024.05.07 |
---|---|
GRU 성능 분석 및 특장점 (0) | 2024.05.01 |
LSTM의 3개의 Gate 특징 및 설명 (0) | 2024.04.23 |
LSTM의 Cell State 특징 및 원리 (0) | 2024.04.22 |
LSTM의 배경 및 구조, 핵심 아이디어 (0) | 2024.04.15 |