Skip to content

개요

트랜스포머(Transformer)란?

트랜스포머는 문장 내 단어 관계를 병렬적으로 처리해, 긴 문맥에서도 중요한 정보를 잘 포착하는 신경망 구조입니다.

핵심 아이디어는 Self-Attention입니다.

  • 각 토큰이 다른 모든 토큰과의 관련도를 계산
  • 관련도가 높은 정보에 더 큰 가중치를 부여
  • RNN 계열보다 병렬화가 쉬워 대규모 학습에 유리

LLM(Large Language Model)이란?

LLM은 대규모 텍스트 데이터로 학습된 언어 모델입니다.

  • 다음 토큰 예측 기반으로 언어 패턴 학습
  • 질문 답변, 요약, 번역, 코드 생성 등 다목적 활용 가능
  • 모델 크기와 데이터 규모가 성능에 큰 영향을 줌

동작 흐름(아주 단순화)

  1. 입력 텍스트를 토큰으로 분해
  2. 각 토큰을 벡터(임베딩)로 변환
  3. 여러 층의 트랜스포머 블록을 통과
  4. 다음에 올 토큰 확률을 계산
  5. 확률이 높은 토큰을 순차적으로 생성

장점과 한계

장점

  • 다양한 작업을 하나의 모델로 수행 가능
  • 프롬프트만 바꿔도 동작 방식 조절 가능

한계

  • 사실과 다른 답변(할루시네이션) 가능
  • 최신 정보 반영 한계(학습 시점 제약)
  • 긴 문맥/복잡한 추론에서 오류 가능

실무 팁

  • 중요한 결과는 반드시 검증 단계를 넣기
  • 고정 지식이 중요한 업무는 RAG를 고려
  • 비용/지연시간 요구사항에 맞춰 모델 선택