AWS Cloud

AWS 실전 LLM 셀프 호스팅, 최적화 배포 가이드북

Pro.Dev 2025. 4. 7. 02:42

💡 실전 LLM 셀프 호스팅 배포 가이드북

조직 또는 개인이 대규모 언어 모델(LLM)을 자체적으로 배포(Self-hosting)하고 운영할 때 필요한 핵심 지침을 정리한 실무 가이드입니다.

유튜브 설명 링크 : https://youtu.be/YiCqDJFExEE

📌 1. 왜 Self-Hosting을 고려해야 하는가?

조건	Self-hosting 고려 대상 여부
대규모 트래픽을 처리하고 싶다	✅ Yes
API 비용이 부담된다	✅ Yes
보안/컴플라이언스 이슈가 있다	✅ Yes
특정 도메인 특화 모델이 필요하다	✅ Yes
벡터 검색/임베딩 모델을 운영한다	✅ Yes

✅ 위 항목 중 하나라도 해당되면, self-hosting은 현실적인 대안이 될 수 있습니다.

🚧 2. 배포 준비: 인프라 경계 정의

🔍 배포 전에 다음 질문에 답해보세요:

어느 정도의 GPU/CPU 자원을 쓸 수 있는가?
목표 지연 시간(latency)과 동시 사용자 수는?
어떤 유형의 모델과 워크로드를 다루는가?

✅ 목표 문장 예시:

"월 100만 원 이하 비용으로, 4초 이하 응답 속도로, 100명 동시 사용자 처리할 수 있어야 한다."

이 문장을 기준으로 모델 크기, 프롬프트 최적화, 서빙 방식 등을 결정할 수 있습니다.

📦 3. 양자화 모델 적극 활용하기

장점	설명
메모리 절감	4bit 양자화로 대형 모델도 단일 GPU에 적재 가능
성능 유지	정확도 손실 없이 속도 향상 (논문: The Case for 4-bit Precision)
비용 절감	같은 GPU에서 더 많은 요청 처리 가능

🔧 추천 저장소:

Hugging Face: TheBloke, nousresearch, mlx-community
포맷: GGUF, GPTQ, AWQ

🔁 4. GPU 활용률을 높이는 배치 전략

❌ 하지 말 것:

요청마다 1회 실행 (No Batching)
정적 배치만 사용 (Spiky Utilization)

✅ 추천 전략: Continuous Batching

토큰 단위로 요청을 처리하여 GPU를 계속 활용
vLLM 등 프레임워크에서 지원

⚙️ 5. 워크로드 최적화 기술

기술	설명	효과
Prefix Caching	공유되는 긴 프롬프트 캐시 재사용	응답 속도 최대 7배 향상
SSD (Speculative Decoding)	반복되는 출력 패턴 캐싱	JSON 추출 등에서 2.5배 성능 향상

내 워크로드를 아는 것은 API 제공자가 절대 따라올 수 없는 장점입니다.

🧠 6. 모델 선택 전략

LLM은 전체 파이프라인의 일부일 뿐
검색(Retrieval) 성능이 좋다면 작은 모델로도 충분

🔧 추천 모델

소형: Gemma 2B, TinyLlama, Phi-2
중형: Llama 2 7B, Mistral, Qwen 7B
대형: Mixtral, Llama 2 70B (정말 필요할 때만)

🏗️ 7. 조직 내 인프라 통합 전략

❌ 나쁜 예:

팀마다 Ollama, vLLM, HuggingFace 따로 운영
GPU 중복 사용, 운영 복잡도 증가

✅ 좋은 예: 중앙 API 시스템

내부 OpenAI API 또는 Bedrock을 만들어, 모든 팀이 공유 API로 사용

구성 요소	설명
추론 서버	vLLM 기반 통합 모델 API
모델 종류	대형 + 중형 + 소형 + 보조 모델(임베딩 등)
내부 사용자	애플리케이션 개발자, ML 엔지니어 등

🎯 “서빙은 어렵다. 한 번만 잘 하고 모두가 공유하자.”

🔍 vLLM이란?

vLLM = "Very Fast LLM"
오픈소스로 개발된 LLM 추론 최적화 프레임워크입니다.
Meta, Google, Microsoft 같은 대기업들도 참고할 정도로 성능이 뛰어납니다.

공식 깃허브: https://github.com/vllm-project/vllm

🎯 왜 vLLM이 중요한가요?

vLLM은 기존 Hugging Face transformers나 Text Generation Inference보다도 훨씬 더 빠른 추론 성능을 제공합니다.

✅ 핵심 특징:

기능설명

Continuous Batching	여러 요청을 토큰 단위로 실시간 배치 → GPU 사용률 극대화
PagedAttention	필요한 메모리만 동적으로 할당해서 사용 → 큰 모델도 효율적으로 돌림
Prefix Caching 지원	RAG처럼 동일한 맥락을 반복 사용하는 작업에서 성능 대폭 향상
OpenAI API와 거의 동일한 인터페이스	chat/completions 엔드포인트 그대로 지원 (GPT처럼 사용 가능)
다양한 모델 지원	LLaMA, Mistral, Falcon, Baichuan 등 Hugging Face 모델 대부분 호환
빠른 추론 속도	GPU 한 장으로도 수십 명의 동시 사용자 응답 가능

💡 실제 사용 예시

# vLLM 설치

pip install vllm

# 모델 다운로드 및 서버 실행

python3 -m vllm.entrypoints.openai.api_server \ --model mistralai/Mistral-7B-Instruct-v0.2 \ --quantization awq

이제 http://localhost:8000/v1/chat/completions 으로 OpenAI처럼 API 요청이 가능합니다.

📊 성능 예시 (실제 벤치마크)

항목기존 방식 (HuggingFace)vLLM

추론 속도	느림 (100ms/token 이상)	빠름 (10~20ms/token)
GPU 활용률	낮음 (~30%)	높음 (70~90%)
동시 요청 처리	제한적	수십~수백 동시 요청 가능

✨ vLLM 추천 상황

고성능이 필요한 웹 서비스 기반 챗봇 운영
RAG 기반 문서 질의응답 시스템
GPU가 제한된 환경에서 효율적으로 모델을 돌려야 하는 경우
OpenAI API처럼 chat/completion REST API 서버를 직접 만들고 싶은 경우

🚫 참고로 이런 건 직접 안 해줍니다

**모델 학습(training)**은 지원하지 않음 → 추론(inference)만!
완전한 AI 파이프라인 프레임워크(X) → 추론 서버 전용(O)

✅ vLLM에서 파인튜닝 모델을 서빙할 수 있는 조건

vLLM은 기본적으로 Hugging Face Transformers 형식의 모델을 서빙합니다.
파인튜닝 후에 vLLM으로 서빙하려면 다음 요건을 충족해야 합니다:

1. ✅ 모델 포맷: transformers compatible (.bin, safetensors, gguf는 X)

vLLM은 transformers 형식의 config.json, pytorch_model.bin 등의 파일 구조를 따릅니다.
파인튜닝을 PEFT, LoRA, QLoRA 등으로 했다면 → 최종 병합(merge) 후 서빙해야 합니다.

2. ✅ LoRA를 병합해야 함 (merge)

vLLM은 현재 LoRA adapter를 동적으로 로드해서 inference하지 못합니다.
즉, LoRA나 QLoRA로 파인튜닝한 경우에는 반드시 베이스 모델과 병합한 모델을 export 해야 합니다.

# 예시: peft + transformers 환경에서 병합
from peft import PeftModel
from transformers import AutoModelForCausalLM

base_model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-Instruct-v0.2")
ft_model = PeftModel.from_pretrained(base_model, "./lora-checkpoint")
ft_model = ft_model.merge_and_unload()
ft_model.save_pretrained("./merged-model")

✅ vLLM으로 파인튜닝 모델 실행하는 방법

python3 -m vllm.entrypoints.openai.api_server \
  --model ./merged-model \
  --dtype float16 \
  --gpu-memory-utilization 0.90 \
  --max-model-len 4096

POST http://localhost:8000/v1/chat/completions
Authorization: Bearer ...
Content-Type: application/json

🔁 요약: 파인튜닝 모델 vLLM 서빙 체크리스트

항목설명필요 여부

모델이 Transformers 호환 포맷인가?	HuggingFace 형식 (config.json, tokenizer 포함)	✅ 필수
LoRA/QLoRA 사용 시 병합했는가?	.merge_and_unload() 필수	✅ 필수
GPU 메모리 최적화했는가?	quantization or dtype 설정	⚙️ 성능 향상
토크나이저 포함했는가?	tokenizer.json, vocab 파일 등	✅ 필수

🐳 중요 : vLLM 도커 템플릿 + ECS 배포 예제

**배포 단계**:

- **1단계**: Dockerfile 작성

```dockerfile

FROM nvidia/cuda:12.1.0-devel-ubuntu22.04

RUN apt-get update && apt-get install -y python3 python3-pip

RUN pip3 install vllm transformers accelerate

# 모델 ID 설정 (예: Llama-2-7b-chat)

ENV MODEL_ID="meta-llama/Llama-2-7b-chat-hf"

ENV QUANTIZATION="awq" # 양자화 방식 선택 (bitsandbytes, awq, gptq 등)

COPY start.sh /start.sh

RUN chmod +x /start.sh

ENTRYPOINT ["/start.sh"]

```

- **2단계**: start.sh 스크립트 작성

```bash

#!/bin/bash

python3 -m vllm.entrypoints.openai.api_server \

--model $MODEL_ID \

--quantization $QUANTIZATION \

--gpu-memory-utilization 0.9 \

--tensor-parallel-size $GPU_COUNT \

--enable-prefix-caching

```

- **3단계**: AWS 인프라 설정

- 모델 크기에 맞는 GPU 인스턴스 골라주세요. g4dn은 작은 모델, g5나 p3/p4는 큰 모델에 좋아요

- 보안 그룹이랑 IAM 역할도 잊지 말고 설정해주시고요

- 만든 Docker 이미지를 ECR에 푸시하면 됩니다

- **4단계**: ECS나 EKS에 배포하기

- ECS는 Fargate 말고 EC2 방식으로 해야 해요 (GPU 써야 하니까요)

- 배포할 때 GPU 드라이버랑 Docker GPU 지원 확인하는 거 잊지 마세요

- CloudWatch로 모니터링하면서 오토스케일링 설정해주면 좋아요

📦 Dockerfile 예시

FROM nvidia/cuda:12.1.1-runtime-ubuntu22.04

RUN apt update && apt install -y git python3 python3-pip
RUN pip install vllm transformers accelerate

# 모델은 사전에 다운로드하거나 볼륨 마운트 필요
COPY ./merged-model /models/merged-model

CMD ["python3", "-m", "vllm.entrypoints.openai.api_server", "--model", "/models/merged-model"]

🐳 Docker 이미지 빌드 및 로컬 실행

docker build -t my-vllm-image .
docker run --gpus all -p 8000:8000 my-vllm-image

☁️ AWS ECS (Fargate GPU) 배포 요약