[기초 세션 복습] Transformer와 Attention

synapse

[기초 세션 복습] Transformer와 Attention

minjin 2026. 4. 6. 00:17

2026년 3월 30일 synapse 기초 세션 복습 과제입니다

1. 시퀀스 모델 개요

순서가 있는 데이터 처리 모델
앞의 정보가 뒤에 영향을 줌

2. RNN → LSTM → Seq2Seq

RNN

순차적으로 정보 처리

LSTM

장기 의존성 문제 해결
기억 유지 가능

Seq2Seq (Sequence to Sequence)

Encoder → Decoder 구조
하나의 벡터(context vector)에 모든 정보를 압축

→ 정보 손실 발생 (특히 문장이 길어질수록 심각)

3. Attention 등장 배경

기존 문제

장기 의존성 문제
정보 손실 문제

4. Attention 핵심 개념

모든 정보를 하나로 압축하지 않음
필요한 부분만 선택적으로 참고

→ 입력 전체를 참고하지만 중요도에 따라 다르게 반영

5. Attention 동작 과정

(1) Query, Key, Value

Query (Q): 현재 필요한 정보
Key (K): 비교 대상
Value (V): 실제 내용

(2) 연산 과정

Q와 K 유사도 계산 (dot product)
Softmax → 가중치 생성
Value에 가중치 적용
최종 Attention Value 생성

(3) 최종 출력

Attention Value → Decoder hidden state
이후 softmax → 단어 예측

6. Self-Attention

자기 자신에 대해 Attention 수행

→ 문장 내 단어들 간 관계 파악

Seq2Seq 모델의 정보 압축 문제를 해결하기 위해 Attention이 도입되었지만,

여전히 RNN 기반 구조로 인해 순차 처리의 한계가 존재하였다.

이러한 문제를 해결하기 위해 Attention 메커니즘만으로 구성된 Transformer 아키텍처가 등장했다

7. Transformer에서 Attention 종류

Encoder Self-Attention
Masked Self-Attention
Encoder-Decoder Attention

8. Transformer 구조

Encoder + Decoder 구조
Seq2Seq 기반

특징

RNN 사용 안함
순차 처리 X, 병렬 처리 가능
연산 속도 빨라짐

문제

순서 정보 반영 어려움

→ Positional Encoding으로 해결

단어의 위치 정보를 추가로 반영
단어 의미 + 위치 정보 함께 고려

추가 질문

1. 왜 Transformer는 RNN 없이도 문장의 순서를 이해할 수 있는가?

병렬적으로 처리를 하면 순차적인 구졸르 통해 위치 파악이 불가하다

따라서 각 단어의 임베팅 벡터에 Positional Encoding을 더하여 단어의 위치 정보를 명시적으로 포함하여 문장의 순서를 이해한다

2. Self-Attention 연산에서 d_k로 나누는 (scaling) 이유는 무엇인가?

Query와 Key의 내적 값은 벡터 차원 d_k와 비례한다

이 내적 값을 그대로 softmax 함수에 입력 시

특정 값에만 확률이 집중되어 분포가 한쪽으로 치우지게 된다

즉 gradient는 작아지고 이 결과 학습이 제대로 이루어지지 않는다

따라서 Attention Score를 √d_k 로 나누어

값의 크기를 조정하고 Softmax 함수가 안정적인 분포를 이루게 한다

3. Seq2Seq 모델과 비교했을 때 Attention이 해결한 가장 큰 문제점은?

기존 Seq2seq:

인코더가 입력 시퀀스를 하나의 Context Vector로 압축하여 디코더에 전달하는데

이 과정에서 입력 정보 손실이 발생한다

이는 문장의 길이가 길어질수록 심해진다

Attention:

입력 시퀀스 전체를 유지하면서

각출력 시점마다 필요한 부분에 선택적으로 집중이 가능하다

'synapse' 카테고리의 다른 글

[선형대수학] Least Squares Problem 소개 (0)	2026.04.06
[기초 세션 복습] 생성형 AI와 LLM, RAG, AGENT까지 (0)	2026.04.06
[기초 세션 복습] NLP 기초: 단어를 숫자로 (Embedding & RNN) (0)	2026.04.05
[선형대수학] 전사함수와 일대일함수 (0)	2026.03.30
[선형대수학] 선형변환 with Neural Network (0)	2026.03.30

현재글[기초 세션 복습] Transformer와 Attention

771

안넝하세요

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

771