트랜스포머와 LLM 기본 원리 | AI 인사이트 허브

개요

트랜스포머(Transformer)란?

트랜스포머는 문장 내 단어 관계를 병렬적으로 처리해, 긴 문맥에서도 중요한 정보를 잘 포착하는 신경망 구조입니다.

핵심 아이디어는 Self-Attention입니다.

각 토큰이 다른 모든 토큰과의 관련도를 계산
관련도가 높은 정보에 더 큰 가중치를 부여
RNN 계열보다 병렬화가 쉬워 대규모 학습에 유리

LLM(Large Language Model)이란?

LLM은 대규모 텍스트 데이터로 학습된 언어 모델입니다.

다음 토큰 예측 기반으로 언어 패턴 학습
질문 답변, 요약, 번역, 코드 생성 등 다목적 활용 가능
모델 크기와 데이터 규모가 성능에 큰 영향을 줌

동작 흐름(아주 단순화)

입력 텍스트를 토큰으로 분해
각 토큰을 벡터(임베딩)로 변환
여러 층의 트랜스포머 블록을 통과
다음에 올 토큰 확률을 계산
확률이 높은 토큰을 순차적으로 생성

장점과 한계

장점

다양한 작업을 하나의 모델로 수행 가능
프롬프트만 바꿔도 동작 방식 조절 가능

한계

사실과 다른 답변(할루시네이션) 가능
최신 정보 반영 한계(학습 시점 제약)
긴 문맥/복잡한 추론에서 오류 가능

실무 팁

중요한 결과는 반드시 검증 단계를 넣기
고정 지식이 중요한 업무는 RAG를 고려
비용/지연시간 요구사항에 맞춰 모델 선택