반응형
Kanana: 효율적인 한국어 및 영어 이중 언어 모델
개요
Kanana는 한국어와 영어에서 뛰어난 성능을 발휘하는 이중 언어 모델 시리즈입니다. 이 모델은 유사한 크기의 최첨단 모델들과 비교해도 경쟁력이 있으며, 특히 연산 비용이 크게 절감되었습니다. 보고서에서는 Kanana 모델의 사전 훈련 및 후처리 과정에서 사용된 기술들을 설명하며, 특정 시나리오(예: 임베딩, 검색 강화 생성, 함수 호출)에 맞게 적응하는 방법도 제시합니다.
1. 도입 배경
최근 대형 언어 모델(LLM)의 발전은 방대한 학습 데이터와 모델의 크기를 증가시키는 방향으로 진행되었습니다. 하지만, 이러한 접근 방식은 높은 연산 비용을 유발하며, 이는 연구 및 산업에서 독자적인 LLM을 개발하는 데 장애 요인이 됩니다. Kanana는 이러한 문제를 해결하기 위해 개발되었으며, 연산 비용을 최소화하면서도 최첨단 성능을 유지하는 것이 목표입니다.
2. Kanana 모델의 특징
Kanana는 2.1B, 9.8B, 32.5B 크기의 모델로 구성되어 있으며, 한국어와 영어에서 강력한 성능을 발휘합니다. 특히, 사전 훈련 비용을 낮추면서도 높은 성능을 유지하는 데 중점을 두었습니다.
(1) 데이터 효율성
- 3조 개의 토큰으로 구성된 데이터셋을 구축하여 학습 효율성을 높였습니다.
- 고품질 데이터를 선별하여 기존의 대규모 모델보다 적은 데이터로도 높은 성능을 유지할 수 있도록 설계되었습니다.
(2) 훈련 효율성
- 단계적 사전 훈련(Staged Pre-training): 초기에는 중간 품질의 대량 데이터를 활용하고, 이후 고품질 데이터의 비율을 증가시키는 방식으로 훈련을 진행했습니다.
- 깊이 확장(Depth Up-scaling): 기존 모델의 층을 추가하는 방식으로 성능을 높이는 기법을 적용하였습니다.
- 가지치기 및 지식 증류(Pruning & Distillation): 모델 크기를 효율적으로 줄이면서도 성능을 유지하는 방법을 사용했습니다.
3. 성능 비교
Kanana 모델은 다양한 벤치마크에서 최첨단 모델들과 경쟁력을 보였습니다. 특히 한국어 관련 평가에서는 뛰어난 성능을 보였으며, 연산 비용 대비 성능 효율성(Pareto Frontier)에서도 우수한 결과를 나타냈습니다.
모델 크기 | MMLU (영어) | KMMLU (한국어) | HAE-RAE (한국어) |
---|---|---|---|
Kanana 32.5B | 77.68% | 62.10% | 90.47% |
Kanana 9.8B | 67.61% | 50.57% | 84.97% |
Kanana 2.1B | 54.83% | 44.80% | 77.09% |
4. 후처리 과정
Kanana 모델은 사전 훈련 이후 추가적인 후처리 과정을 통해 성능을 더욱 향상시켰습니다.
(1) 감독 학습 튜닝(Supervised Fine-tuning)
- 대화, 일반 지식, 코드 생성, 수학 문제 해결 등의 다양한 작업에 맞춰 모델을 튜닝하였습니다.
(2) 선호도 최적화(Preference Optimization)
- 사용자와의 상호작용을 자연스럽게 하기 위해 선호도 기반의 추가 학습을 진행했습니다.
(3) 특정 응용 분야에 맞춘 적응
- 임베딩(Embedding): 검색 엔진 등에 활용할 수 있도록 설계되었습니다.
- 검색 강화 생성(Retrieval-Augmented Generation, RAG): 외부 데이터를 활용하여 보다 정확한 답변을 생성할 수 있도록 개선되었습니다.
- 함수 호출(Function Calling): API 호출 등의 기능을 포함하는 방식으로 모델을 확장하였습니다.
반응형
'DeepLearining' 카테고리의 다른 글
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding (0) | 2025.02.28 |
---|---|
GHOST 2.0: generative high-fidelity one shot transfer of heads (0) | 2025.02.28 |
딥러닝 하드웨어 : GPU와 TPU란? (0) | 2025.02.24 |
Hugging Face Transformers - 딥러닝 라이브러리 (1) | 2025.01.03 |
텐서플로우 딥러닝 GridSearchCV 이용 방법 (1) | 2021.03.12 |