개요
트랜스포머(Transformer)란?
트랜스포머는 문장 내 단어 관계를 병렬적으로 처리해, 긴 문맥에서도 중요한 정보를 잘 포착하는 신경망 구조입니다.
핵심 아이디어는 Self-Attention입니다.
- 각 토큰이 다른 모든 토큰과의 관련도를 계산
- 관련도가 높은 정보에 더 큰 가중치를 부여
- RNN 계열보다 병렬화가 쉬워 대규모 학습에 유리
LLM(Large Language Model)이란?
LLM은 대규모 텍스트 데이터로 학습된 언어 모델입니다.
- 다음 토큰 예측 기반으로 언어 패턴 학습
- 질문 답변, 요약, 번역, 코드 생성 등 다목적 활용 가능
- 모델 크기와 데이터 규모가 성능에 큰 영향을 줌
동작 흐름(아주 단순화)
- 입력 텍스트를 토큰으로 분해
- 각 토큰을 벡터(임베딩)로 변환
- 여러 층의 트랜스포머 블록을 통과
- 다음에 올 토큰 확률을 계산
- 확률이 높은 토큰을 순차적으로 생성
장점과 한계
장점
- 다양한 작업을 하나의 모델로 수행 가능
- 프롬프트만 바꿔도 동작 방식 조절 가능
한계
- 사실과 다른 답변(할루시네이션) 가능
- 최신 정보 반영 한계(학습 시점 제약)
- 긴 문맥/복잡한 추론에서 오류 가능
실무 팁
- 중요한 결과는 반드시 검증 단계를 넣기
- 고정 지식이 중요한 업무는 RAG를 고려
- 비용/지연시간 요구사항에 맞춰 모델 선택