LLM

딥러닝과 언어 모델링(1)

won-ian 2024. 8. 6. 16:43

※ 'LLM을 활용한 실전 AI 애플리케이션 개발' 책을 정리한 내용입니다.

 

Chat GPT의 등장으로 인해 대규모 언어 모델(Large Language Model(이하 LLM))이 세상을 뒤흔들고 있다.

사실 Chat GPT는 굉장히 단순한 과정으로 동작하는데, 주어진 입력에서 다음에 올 적절한 단어를 확률적으로 선택(예측)하고, 선택한 단어를 입력에 더해 문장이 끝날 때까지 선택하는 작업을 반복한다. 다음 단어를 선택하는 가장 단순한 행동에서 혁신적인 제품이 탄생한 것이다.

 

우선, LLM은 딥러닝에 기반을 두고 있다. 딥러닝(deep learning)은 인간의 두뇌에 영감을 받아 만들어진 신경망(neural network)로 데이터의 패턴을 학습하는 머신러닝(machine learning)의 한 분야이다. 딥러닝은 표 형태의 정형 데이터 뿐만 아니라 텍스트와 이미지 같은 비정형 데이터(unstructured data)에서도 뛰어난 패턴 인식 성능을 보여준다. 현재 AI의 주류 모델로 사용되고 있으며 LLM은 사람의 언어를 컴퓨터가 이해하고 생성할 수 있도록 연구하는 자연어 처리(natural language processing) 분야에 속하며, 특히 사람과 비슷하게 텍스트를 생성하는 방법을 연구하는 자연어 생성(natural language generation)에 속한다.

 

LLM은 다음에 올 단어가 무엇일지 예측하면서 문장을 하나씩 만들어 가는 방식으로 텍스트를 생성하는데, 이렇게 다음에 올 단어를 예측하는 모델을 언어 모델(language model)이라고 한다.

 

딥러닝의 문제 해결 방법

  • 문제의 유형에 따라 일반적으로 사용되는 모델을 준비한다.
  • 풀고자 하는 문제에 대한 학습 데이터를 준비한다.
  • 학습 데이터를 반복적으로 모델에 입력한다.

머신러닝은 데이터의 특징을 연구자 또는 개발자가 찾고 모델에 입력으로 넣어 결과를 출력하는 방식을 거치지만, 딥러닝은 모델이 스스로 데이터의 특징을 찾고 분류하는 모든 과정을 학습한다.

 

컴퓨터는 숫자만 처리할 수 있기 때문에 찾은 데이터의 특징을 숫자의 집합으로 표현한다. 이를 임베딩(embedding)이라 한다.

 

임베딩의 장점 : 데이터의 사이의 거리를 계산하고 거리를 바탕으로 데이터가 관련이 있는지 없는지를 구분할 수 있다.

 

단어의 경우 워드투벡(word2vec)이라는 모델을 통해 임베딩으로 변환할 수 있는데, 이를 단어 임베딩(word embedding)이라고 한다.

 

언어 모델링이란, 모델이 입력받은 텍스트의 다음 단어를 예측해 텍스트를 생성하는 방식이다. 언어 모델링은 텍스트를 생성하는 모델을 학습시키는 방법과 대량의 데이터에서 언어의 특성을 학습하는 사전 학습 과제로도 사용된다.

 

딥러닝 분야에서 하나의 문제를 해결하는 과정에서 얻은 지식과 정보를 다른 문제를 풀 때 사용하는 방식으로 많이 활용되는데, 이를 전이 학습(transfer learning)이라고 부른다. 전이 학습에는 대량의 데이터로 모델을 학습시키는 사전 학습과 특정한 문제를 해결하기 위한 데이터로 추가 학습하는 미세 조정(fine-tuning)의 두 단계로 나누어 학습을 진행한다.

미세 조정은 사전 학습에 비해 적은 양의 학습 데이터를 사용한다는 것을 알 수 있다.

 

 

'LLM' 카테고리의 다른 글

트랜스포머 아키텍처(3)  (0) 2024.08.10
트랜스포머 아키텍처(2)  (0) 2024.08.09
트랜스포머 아키텍처(1)  (0) 2024.08.09
딥러닝과 언어 모델링(3)  (0) 2024.08.08
딥러닝과 언어 모델링(2)  (0) 2024.08.07