※ 'LLM을 활용한 실전 AI 애플리케이션 개발' 책을 정리한 내용입니다.
트랜스포머 아키텍처를 활용한 모델은 크게 세 가지 그룹으로 나눌 수 있다.
- 인코더만 활용해 자연어 이해(Natural Language Understanding, NLU) 작업에 집중한 그룹
- 디코더만 활용해 자연어 생성(Natural Language Generation, NLG) 작업에 집중한 그룹
- 인코더 디코더를 모두 활용해 더 넓은 범위의 작업을 수행할 수 있도록 한 그룹
각 그룹의 장단점
인코더(구글의 BERT)
장점
- 양방향 이해를 통해 자연어 이해에서 일반적으로 디코더 모델 대비 높은 성능을 보임
- 입력에 대해 병렬 연산이 가능하므로 빠른 학습과 추론이 가능
- 다양한 작업에 대한 다운스트림 성능이 뛰어남
단점
- 자연어 생성 작업에 부적합한 형태
- 컨텍스트 길이가 제한적임
디코더(OPENAI의 GPT)
장점
- 생성 작업에서 뛰어난 성능을 보임
- 비교적 긴 컨텍스트 길이에 대해서도 성능이 좋음
단점
- 양방향이 아닌 단방향 방식이므로 자연어 이해 작업에서 비교적 성능이 낮음
- 모든 작업을 생성 작업으로 변환할 수 있으나 비효율적일 수 있음
인코더-디코더(메타의 BART, 구글의 T5)
장점
- 생성과 이해 작업 모두에서 뛰어난 성능을 보임
- 이해 작업에서 양방향 방식을 사용할 수 있고 인코더의 결과를 디코더에서 활용할 수 있어 문맥을 반영한 생성 능력이 뛰어남
단점
- 인코더와 디코더를 모두 활용하기 때문에 더 복잡함
- 학습에 더 많은 데이터와 컴퓨팅 자원이 필요함
양방향(bidirectional) 문맥
문장에서 단어의 의미를 문장의 앞뒤 문맥을 모두 고려하여 해석하는 것을 의미한다.
기존의 순방향(forward) 언어 모델은 문장을 왼쪽에서 오른쪽으로 순차적으로 처리하며, 각 단어의 의미를 그 앞에 있는 단어들만을 이용해 이해를 했는데, 이를 해결한 방법이다.
왜 NLP는 입력에 대해 병렬 연산이 가능할까?
셀프 어텐션(Self - Attention) 메커니즘을 통해 모든 단어가 다른 모든 단어와의 관계를 동시에 계산할 수 있기 때문이다.
다운스트림 작업(Downstream Tasks)
사전 학습된 모델이 특정한 작업에 맞게 미세 조정(fine-tuning)이 적용되는 응용 작업이다.
- 문서 분류 : 주어진 텍스트가 어떤 카테고리에 속하는지 분류하는 작업
- 질문 응답 : 질문에 대한 정확한 답변을 찾는 작업
- 문장 유사도 : 두 문장이 얼마나 유사한지 판단하는 작업
- 기계 번역 : 한 언어로 된 텍스트를 다른 언어로 번역하는 작업
'LLM' 카테고리의 다른 글
LLM 모델 만들기(1) (0) | 2024.08.15 |
---|---|
허깅페이스 트랜스포머 라이브러리(1) (0) | 2024.08.14 |
트랜스포머 아키텍처(5) (0) | 2024.08.12 |
트랜스포머 아키텍처(4) (0) | 2024.08.11 |
트랜스포머 아키텍처(3) (0) | 2024.08.10 |