LLM

딥러닝과 언어 모델링(3)

won-ian 2024. 8. 8. 15:19

※ 'LLM을 활용한 실전 AI 애플리케이션 개발' 책을 정리한 내용입니다.

 

LLM이 사회에 큰 영향을 미치고 있는 이유는 하나의 언어 모델이 다양한 작업에서 뛰어난 능력을 보여주기 때문이다. 기존의 언어에 대해 다루는 자연어 처리 분야는 언어를 이해하는 자연어 처리(natural language understanding) 와 언어를 생성하는 자연어 생성 두 분야로 나눠 접근했다. 또 각각의 영역에서도 일부 좁은 영역의 작업을 해결하기 위해서 별도의 모델을 개발하는 방식으로 접근하는 경우가 많았다.

 

하지만 LLM은 자연어 생성을 위한 모델이기 때문에 언어 생성 능력이 뛰어나고 모델의 크기가 커지면서 언어 이해 능력이 발달했다. 또한 사용자의 요청에 응답하는 방식을 학습하면서 다양한 작업(multitasking)에 응답하는 능력도 갖추었다.

 

그렇다면 LLM이 왜 잘 활용될 수 있을까?

 

사람이 하는 일의 대부분은 새로운 요구사항을 바탕으로 이해를 하고 작업을 진행하는 방식으로 진행이 된다. 그런데 LLM의 작동 방식이 이와 매우 유사함을 알 수 있으며, 하나의 LLM으로도 이 모든 작업을 진행할 수 있어서 복잡도가 낮다. 복잡도가 낮다는 소리는 빠른 시간안에 결과를 도출해 낼 수 있다는 뜻으로 넓은 범위로 활용이 될 수 있다고 말할 수 있다.

 

오픈소스 LLM을 활용해 LLM API를 생성하면, 원하는 도메인의 데이터, 작업을 위한 데이터를 자유롭게 추가할 수 있다는 장점이 있는데, 이런 경우 모델의 크기가 작으면서도 특정 도메인 데어터나 작업에서 높은 성능을 높일 수 있다. 이를 sLLM이라고 한다.

 

LLM은 많은 연산량을 빠르게 처리하기 위해서 GPU(그래픽 처리 장치)를 사용한다. GPU는 많은 연산을 병렬로 처리하는 데 특화된 처리 장치이지만, 고가의 장비여서 LLM을 사용하기 위한 비용 중 상당 부분을 차지한다. 그렇기 때문에 적은 GPU 자원으로 LLM을 활용할 수 있는 기술이 발전하고 있다. 대표적으로 모델 파라미터를 더 적은 비트로 표현하는 양자화(quantization) 과 모델 전체를 학습하는 것이 아니라 모델의 일부만 학습하는 LoRA(Low Rank Adaption) 방식이 있다. 또한 무거운 어텐션 연산을 개선해 효율적인 학습과 추론을 가능하게 하는 연구도 있다.

 

LLM은 '환각 현상'이라고 불리는 잘못된 정보나 실제로 존재하지 않는 정보를 만들어내는 문제가 존재한다. 

 

정확한 원인은 알 수 없지만 압축과정에서 정보 소실로 인한 문제, 지도 미세 조정을 하는 과정에서 발생하는 문제 등으로 추정하고 있다고 한다. 이런 환각 현상을 해결하기 위해서 RAG(Retrieval Augmented Generation)이라는 프롬프트에 LLM이 답변할 때 미리 필요한 정보를 추가함으로써 잘못된 정보를 생성하는 문제를 줄이는 기술이 존재한다.

 

LLM의 새로운 방향

  • 멀티 모달(multi model) LLM은 이미지,비디오,오디오 등 다양한 형식의 데이터를 입력받을 수 있게 되었고 출력도 여러 행태의 데이터를 생성할 수 있도록 발전시킨 것이다.
  • 에이전트(agent)는 LLM이 계획을 세우거나 의사결정을 내리고 필요한 행동까지 수행하는 것이다.
  • 현재 오디오와 비디오 같은 데이터는 텍스트에 비해 입력이 훨씬 긴데, LLM이 더 긴 입력을 처리할 수 있으면 오디오와 비디오 데이터를 처리하는 능력이 향상될 것이므로 새로운 아키텍처를 개발하고자 노력하고 있다.

'LLM' 카테고리의 다른 글

트랜스포머 아키텍처(3)  (0) 2024.08.10
트랜스포머 아키텍처(2)  (0) 2024.08.09
트랜스포머 아키텍처(1)  (0) 2024.08.09
딥러닝과 언어 모델링(2)  (0) 2024.08.07
딥러닝과 언어 모델링(1)  (0) 2024.08.06