LLM

트랜스포머 아키텍처(1)

won-ian 2024. 8. 9. 00:16

※ 'LLM을 활용한 실전 AI 애플리케이션 개발' 책을 정리한 내용입니다.

 

현재 대부분의 LLM이 트랜스포머 아키텍처를 기반을 사용한다.

 

트랜스포머 아키텍처의 장점

  • 확장성 : 더 깊은 모델을 만들어도 학습이 잘된다. 동일한 블록을 반복해 사용하기 때문에 확장이 용이하다.
  • 효율성 : 학습할 때 병렬 연산이 가능하기 때문에 학습 시간이 단축된다.
  • 더 긴 입력 처리 : 입력이 길어져도 성능이 거의 떨어지지 않는다.

트랜스포머 아키텍처는 인코더와 디코더로 나뉘는데, 언어를 이해하는 역할을 하는 것이 인코더이고 언어를 생성하는 역할을 하는 것이 디코더이다. 공통적으로 입력을 입베딩(embedding) 층을 통해 숫자 집합인 임베딩으로 변환하고 위치 인코딩(positional encoding) 층에서 문장의 위치 정보를 더한다. 인코더에서는 층 정규화(layer normalization), 멀티 헤드 어텐션(multi-head attention), 피드 포워드(feed forward) 층을 거치며 영어 문장을 이해하고 그 결과를 디코더로 전달한다. 디코더에서는 층 정규화, 멀티 헤드 어텐션 연산을 수행하면서 크로스 어텐션 연산을 통해 인코더가 전달한 데이터를 출력과 함께 피드 포워드 층을 거쳐 결과를 생성한다.

 

 

'LLM' 카테고리의 다른 글

트랜스포머 아키텍처(3)  (0) 2024.08.10
트랜스포머 아키텍처(2)  (0) 2024.08.09
딥러닝과 언어 모델링(3)  (0) 2024.08.08
딥러닝과 언어 모델링(2)  (0) 2024.08.07
딥러닝과 언어 모델링(1)  (0) 2024.08.06