트랜스포머 아키텍처(6)

LLM

트랜스포머 아키텍처(6)

won-ian 2024. 8. 13. 00:39

※ 'LLM을 활용한 실전 AI 애플리케이션 개발' 책을 정리한 내용입니다.

트랜스포머 아키텍처를 활용한 모델은 크게 세 가지 그룹으로 나눌 수 있다.

인코더만 활용해 자연어 이해(Natural Language Understanding, NLU) 작업에 집중한 그룹
디코더만 활용해 자연어 생성(Natural Language Generation, NLG) 작업에 집중한 그룹
인코더 디코더를 모두 활용해 더 넓은 범위의 작업을 수행할 수 있도록 한 그룹

각 그룹의 장단점

인코더(구글의 BERT)

장점

양방향 이해를 통해 자연어 이해에서 일반적으로 디코더 모델 대비 높은 성능을 보임
입력에 대해 병렬 연산이 가능하므로 빠른 학습과 추론이 가능
다양한 작업에 대한 다운스트림 성능이 뛰어남

단점

자연어 생성 작업에 부적합한 형태
컨텍스트 길이가 제한적임

디코더(OPENAI의 GPT)

장점

생성 작업에서 뛰어난 성능을 보임
비교적 긴 컨텍스트 길이에 대해서도 성능이 좋음

단점

양방향이 아닌 단방향 방식이므로 자연어 이해 작업에서 비교적 성능이 낮음
모든 작업을 생성 작업으로 변환할 수 있으나 비효율적일 수 있음

인코더-디코더(메타의 BART, 구글의 T5)

장점

생성과 이해 작업 모두에서 뛰어난 성능을 보임
이해 작업에서 양방향 방식을 사용할 수 있고 인코더의 결과를 디코더에서 활용할 수 있어 문맥을 반영한 생성 능력이 뛰어남

단점

인코더와 디코더를 모두 활용하기 때문에 더 복잡함
학습에 더 많은 데이터와 컴퓨팅 자원이 필요함

양방향(bidirectional) 문맥

문장에서 단어의 의미를 문장의 앞뒤 문맥을 모두 고려하여 해석하는 것을 의미한다.

기존의 순방향(forward) 언어 모델은 문장을 왼쪽에서 오른쪽으로 순차적으로 처리하며, 각 단어의 의미를 그 앞에 있는 단어들만을 이용해 이해를 했는데, 이를 해결한 방법이다.

왜 NLP는 입력에 대해 병렬 연산이 가능할까?

셀프 어텐션(Self - Attention) 메커니즘을 통해 모든 단어가 다른 모든 단어와의 관계를 동시에 계산할 수 있기 때문이다.

다운스트림 작업(Downstream Tasks)

사전 학습된 모델이 특정한 작업에 맞게 미세 조정(fine-tuning)이 적용되는 응용 작업이다.

문서 분류 : 주어진 텍스트가 어떤 카테고리에 속하는지 분류하는 작업
질문 응답 : 질문에 대한 정확한 답변을 찾는 작업
문장 유사도 : 두 문장이 얼마나 유사한지 판단하는 작업
기계 번역 : 한 언어로 된 텍스트를 다른 언어로 번역하는 작업

'LLM' 카테고리의 다른 글

LLM 모델 만들기(1) (0)	2024.08.15
허깅페이스 트랜스포머 라이브러리(1) (0)	2024.08.14
트랜스포머 아키텍처(5) (0)	2024.08.12
트랜스포머 아키텍처(4) (0)	2024.08.11
트랜스포머 아키텍처(3) (0)	2024.08.10

현재글트랜스포머 아키텍처(6)

won-ian 님의 블로그

won-ian 님의 블로그 입니다.

LLM, 17298번, 2164번, 인공지능, 주택청약종합저축, 백준, 딥러닝, 백준 #파이썬 #1874번, 부동산, 파이썬, 백준 #10986번 #파이썬, llm을 활용한 실전 ai 애플리케이션 개발,

Today :
Yesterday :

티스토리툴바