LLM

트랜스포머 아키텍처(6)

won-ian 2024. 8. 13. 00:39

※ 'LLM을 활용한 실전 AI 애플리케이션 개발' 책을 정리한 내용입니다.

 

트랜스포머 아키텍처를 활용한 모델은 크게 세 가지 그룹으로 나눌 수 있다.

  • 인코더만 활용해 자연어 이해(Natural Language Understanding, NLU) 작업에 집중한 그룹
  • 디코더만 활용해 자연어 생성(Natural Language Generation, NLG) 작업에 집중한 그룹
  • 인코더 디코더를 모두 활용해 더 넓은 범위의 작업을 수행할 수 있도록 한 그룹

각 그룹의 장단점

 

인코더(구글의 BERT)

장점 

  • 양방향 이해를 통해 자연어 이해에서 일반적으로 디코더 모델 대비 높은 성능을 보임
  • 입력에 대해 병렬 연산이 가능하므로 빠른 학습과 추론이 가능
  • 다양한 작업에 대한 다운스트림 성능이 뛰어남

단점

  • 자연어 생성 작업에 부적합한 형태
  • 컨텍스트 길이가 제한적임

디코더(OPENAI의 GPT)

장점

  • 생성 작업에서 뛰어난 성능을 보임
  • 비교적 긴 컨텍스트 길이에 대해서도 성능이 좋음

단점

  • 양방향이 아닌 단방향 방식이므로 자연어 이해 작업에서 비교적 성능이 낮음
  • 모든 작업을 생성 작업으로 변환할 수 있으나 비효율적일 수 있음

인코더-디코더(메타의 BART, 구글의 T5)

장점

  • 생성과 이해 작업 모두에서 뛰어난 성능을 보임
  • 이해 작업에서 양방향 방식을 사용할 수 있고 인코더의 결과를 디코더에서 활용할 수 있어 문맥을 반영한 생성 능력이 뛰어남

단점

  • 인코더와 디코더를 모두 활용하기 때문에 더 복잡함
  • 학습에 더 많은 데이터와 컴퓨팅 자원이 필요함

 

양방향(bidirectional) 문맥

문장에서 단어의 의미를 문장의 앞뒤 문맥을 모두 고려하여 해석하는 것을 의미한다.

 

기존의 순방향(forward) 언어 모델은 문장을 왼쪽에서 오른쪽으로 순차적으로 처리하며, 각 단어의 의미를 그 앞에 있는 단어들만을 이용해 이해를 했는데, 이를 해결한 방법이다.

 

왜 NLP는 입력에 대해 병렬 연산이 가능할까?

셀프 어텐션(Self - Attention) 메커니즘을 통해 모든 단어가 다른 모든 단어와의 관계를 동시에 계산할 수 있기 때문이다.

 

다운스트림 작업(Downstream Tasks)

사전 학습된 모델이 특정한 작업에 맞게 미세 조정(fine-tuning)이 적용되는 응용 작업이다.

  • 문서 분류 : 주어진 텍스트가 어떤 카테고리에 속하는지 분류하는 작업
  • 질문 응답 : 질문에 대한 정확한 답변을 찾는 작업
  • 문장 유사도 : 두 문장이 얼마나 유사한지 판단하는 작업
  • 기계 번역 : 한 언어로 된 텍스트를 다른 언어로 번역하는 작업

'LLM' 카테고리의 다른 글

LLM 모델 만들기(1)  (0) 2024.08.15
허깅페이스 트랜스포머 라이브러리(1)  (0) 2024.08.14
트랜스포머 아키텍처(5)  (0) 2024.08.12
트랜스포머 아키텍처(4)  (0) 2024.08.11
트랜스포머 아키텍처(3)  (0) 2024.08.10