Sequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural Networks 논문
https://arxiv.org/abs/1409.3215
1. Introduction
기존 심층신경망(DNN)은 큰 네트워크의 경우에는 충분히 학습된 역전파를 사용하여 훈련하며 이미지 인식 등에서 뛰어난 성능을 보였지만 고정된 차원의 입력과 출력에만 적용 가능하다.
그러나 번역, 음성 등은 길이가 사전에 알려지지 않은 가변 길이 시퀀스로 표현되기 때문에 긴 시퀀스의 학습과 정보손실 문제에서 한계가 존재하게 된다.
Key Idea

본 논문에서는 LSTM(Long Short-Term Memory) 아키텍처를 직접적으로 적용해 일반적인 sequence-to-sequence 문제를 해결하는 방법을 제안하였다.
- Encoder LSTM: 입력 시퀀스를 하나씩 읽어 고정 크기의 벡터 표현으로 압축 → 기존 DNN의 한계를 극복하려 함
- Decoder LSTM: 벡터로부터 출력 시퀀스를 한 토큰씩 생성
→ LSTM을 활용함으로써 메모리 문제 해결, 입력과 해당 출력 사이의 상당한 시간 지연 문제 해결하면서 더 안정적이고 효과적인 학습이 가능하도록 개선하였다.
위의 모델을 보면 입력 문장 "ABC"를 읽고, 출력 문장 "WXYZ"를 생성함, 모델은 EOS 토큰을 통해 문장을 종료 시킨 후 예측을 멈춤, 특히 LSTM은 입력 문장을 역순으로 읽는다는 것이 특징이다.
→ 제안된 방법이 기존 기계 번역 시스템을 능가하며, 입력 데이터를 역순으로 배치하는 간단한 트릭이 모델 성능을 크게 향상시킴을 보여주었다.
The model (모델 구조)
2-1. 기존 RNN
RNN은 시퀀스 데이터를 처리하는 데 자연스러운 구조이지만, 입력과 출력의 길이가 다르거나 복잡한 비단조적(non-monotonic) 관계를 가질 경우 적용이 어렵다. 또한 기울기 소실(vanishing gradient) 문제로 인해 장거리 의존성(long-range dependency) 학습에 취약하다.
2.2 인코더-디코더 구조
모델이 학습하는 것은 다음의 조건부 확률이다.

인코더 LSTM은 입력 시퀀스를 순차적으로 읽어 마지막 은닉 상태(hidden state)로 고정 차원 벡터 vv 를 생성한다. 디코더 LSTM은 이 벡터 vv 를 초기 은닉 상태로 삼아, 각 타임스텝마다 다음 단어에 대한 소프트맥스 분포를 출력하며 시퀀스를 생성한다.
2.3 세 가지 핵심 설계 선택
1. 인코더와 디코더에 별도의 LSTM 사용
입력용과 출력용 LSTM을 분리함으로써 모델 파라미터 수를 늘리면서도 동시에 다양한 언어 쌍에 대한 학습이 자연스럽게 가능해진다.
2. 4층의 깊은(deep) LSTM 사용
단층(shallow) LSTM 대비 심층 LSTM이 훨씬 높은 성능을 보였다. 층을 추가할 때마다 perplexity가 약 10%씩 감소하였으며, 이는 더 큰 은닉 상태로부터 비롯된 표현력 향상에 기인한 것으로 분석된다.
3. 입력 시퀀스의 역전
가장 독창적이고 효과적인 기법으로, 입력 문장의 단어 순서를 반전시켜 학습하는 방법이다. 예를 들어 a, b, c → α, β, γ 매핑 대신 c, b, a → α, β, γ로 학습한다. 이를 통해 소스 시퀀스의 앞부분 단어들이 타깃 시퀀스의 초반 단어들과 가까워져 단기 의존성(short-term dependency)이 증가하고, 역전파(backpropagation)가 소스-타깃 간 "통신"을 훨씬 쉽게 확립할 수 있다. 실험 결과, 이 기법 하나만으로 테스트 BLEU 점수가 25.9에서 30.6으로 크게 향상되었다.
3. Experiments (실험)
3.1 데이터셋
WMT'14 영어-프랑스어 번역 데이터셋을 사용하였다. 전체 데이터셋에서 정제된 1,200만 문장 쌍(영어 3억 400만 단어, 프랑스어 3억 4,800만 단어)을 훈련에 활용하였으며, 소스 어휘 16만 개, 타깃 어휘 8만 개로 어휘 크기를 제한하였다. 어휘 외 단어는 <UNK> 토큰으로 대체하였다.
3.2 디코딩 및 리스코어링
번역 생성은 좌-우 빔 서치 방식으로 수행하였다. 이때, 빔 크기 1에서도 합리적인 성능을 보였고, 빔 크기 2만으로도 빔 서치의 효과 대부분을 얻을 수 있었다.
또한 기존 SMT 시스템이 생성한 1,000-best 후보 목록에 대해 LSTM으로 리스코어링(rescoring)하는 방식도 실험하였다. LSTM 점수와 SMT 점수를 동등 평균하여 최종 번역을 선택하였다.
3.3 학습 세부 사항
| 항목 | 설정 |
| LSTM 층 수 | 4층 |
| 각 층 셀 수 | 1,000개 |
| 워드 임베딩 차원 | 1,000 |
| 총 파라미터 수 | 384M (순환 연결 64M) |
| 옵티마이저 | SGD (모멘텀 없음), 학습률 0.7 |
| 학습률 감소 | 5 epoch 이후 매 0.5 epoch마다 절반 |
| 총 학습 epoch | 7.5 |
| 미니배치 크기 | 128 |
| 그래디언트 클리핑 | Norm 임계값 5 |
| 파라미터 초기화 | Uniform(-0.08, 0.08) |
| 학습 소요 시간 | 약 10일 (8-GPU 병렬화) |
특히 같은 길이의 문장들을 하나의 미니배치로 묶는 방식을 채택하여 불필요한 패딩 연산을 최소화하고 2배의 속도 향상
3.4 실험 결과
Direct Translation 결과
| Bahdanau et al. | 28.45 |
| SMT Baseline | 33.30 |
| Single forward LSTM (beam 12) | 26.17 |
| Single reversed LSTM (beam 12) | 30.59 |
| Ensemble of 5 reversed LSTMs (beam 2) | 34.50 |
| Ensemble of 5 reversed LSTMs (beam 12) | 34.81 |
Rescoring 결과
| SMT Baseline | 33.30 |
| Best WMT'14 result | 37.0 |
| Rescoring (single forward LSTM) | 35.61 |
| Rescoring (ensemble of 5 reversed LSTMs) | 36.5 |
5개의 역전 LSTM 앙상블은 직접 번역에서 SMT 기준선을 1.5점 넘어섰고, 리스코어링 모드에서는 최고 성능 결과(37.0)에 0.5점 차이까지 접근하였다.
→ 순수 신경망 기반 번역 시스템이 처음으로 대규모 과제에서 SMT 기준선을 넘은 결과
3.5 긴문장 처리 성능
기존 연구들에서 긴문장에 대한 성능이 떨어졌지만, Seq2Seq 모델은 35단어 미만의 문장에서는 성능 저하가 전혀 없었고, 가장 긴 문장에서도 미미한 수준의 저하만 발생하였다. 본논문의 저자들은 입력 역전 기법이 메모리 활용을 개선하고 장기 의존성 문제를 완화한 결과로 분석하였다.
3.6 모델 분석
LSTM 은닉 상태를 2차원 PCA로 투영한 결과, 의미적으로 유사한 문장들이 벡터 공간에서 가깝게 군집되었음을 확인하였다. 특히 능동태-수동태 변환에 대해 상대적으로 불변하면서도 어순에는 민감하게 반응하는 표현을 학습하였다. 이는 단순한 bag-of-words 모델로는 포착하기 어려운 구조적 의미 정보를 LSTM이 내재화하고 있음을 시사한다.
4. Related Work (관련 연구)
본 논문은 당시 신경망 기반 기계 번역 연구의 흐름 위에서 등장하였다.
- Kalchbrenner & Blunsom (2013): 입력 문장을 벡터로 매핑한 최초의 시도. 단, CNN을 사용해 어순 정보가 손실되는 한계가 있었다.
- Cho et al. (2014): LSTM 유사 RNN으로 문장 인코딩-디코딩을 수행하였으나, SMT 리스코어링 보조 역할에 국한되었고 장문장 성능이 부족하였다.
- Bahdanau et al. (2014): 어텐션(attention) 메커니즘을 도입하여 장문장 성능 저하를 완화한 연구. 본 논문과 함께 현대 NMT(Neural Machine Translation)의 양대 기초 논문으로 평가된다.
- Graves (2013): 차별화 가능한 어텐션 메커니즘을 처음 제안한 연구로, 본 모델도 Graves의 LSTM 공식을 따른다.
- Hermann & Blunsom (2014): 피드포워드 네트워크로 인코딩-디코딩을 구현하였으나, 번역 생성을 직접 수행하지 못하고 사전 계산된 벡터 데이터베이스 탐색에 의존하는 한계를 가졌다.
5. Conclusion (결론 및 의의)
본 논문의 결론 어휘 크기 제한이 있고 구조적 가정을 거의 하지 않은 단순한 LSTM 기반 모델이, 수십 년간 정교하게 엔지니어링된 SMT 시스템을 대규모 번역 과제에서 처음으로 넘어설 수 있음을 증명하였다.
Key Point
- 인코더-디코더 프레임워크의 유효성: 고정 차원 벡터를 중간 표현으로 사용하는 end-to-end 학습이 시퀀스 변환 문제에서 실용적으로 동작함을 최초로 대규모로 입증하였다.
- 입력 역전의 중요성: 간단한 데이터 전처리 트릭이 최적화 문제의 구조를 근본적으로 개선할 수 있다는 교훈을 제공한다. 이는 문제 인코딩 방식이 학습 가능성에 결정적임을 시사한다.
- 깊이(depth)의 중요성: 4층 구조가 단층 대비 perplexity를 약 40% 감소시켰으며, 이는 이후 트랜스포머(Transformer) 등 심층 아키텍처 연구의 방향성과 일치한다.