๐ ์คํ์์ค LLM – ๊ธฐ์ ์ ์ด๋ป๊ฒ ์ฌ์ฉํด์ผ ํ์ง?
์ด ๊ธ์ “์คํ์์ค LLM์ ์ค๋ฌด์์ ์ด๋ป๊ฒ ๋ค๋ค์ผ ํ ๊น?”์ ๋ํด ๊ณ ๋ฏผํ๋ ๋ถ๋ค์ ์ํด ์ค๋นํ์ต๋๋ค. ์, ์ธ์ , ๊ทธ๋ฆฌ๊ณ ์ด๋ป๊ฒ ์คํ์์ค LLM์ ์ ํํด์ผ ํ ์ง๋ฅผ ์ง๊ด์ ์ผ๋ก ์ค๋ช ํด๋๋ฆด๊ฒ์.
๐ ์ง๊ธ์ ์คํ์์ค LLM์ ์๋
๋ช ๋ ์ ๋ง ํด๋ “์คํ์์ค ๋ชจ๋ธ์ด GPT-4์ฒ๋ผ ๋ ์ ์์๊น?”๋ผ๋ ์ง๋ฌธ์ ๋ค์ ๋๊ด์ ์ด๊ฑฐ๋ ํ๋ฌด๋งน๋ํ๊ฒ ๋ค๋ ธ์ต๋๋ค. ๊ทธ๋ฐ๋ฐ 2024๋ , ์ํฉ์ด ์์ ํ ๋ฐ๋์์ต๋๋ค.
- Meta์ LLaMA 3.1 (405B): ์ฌ์ ์ฒ์์ผ๋ก ํ์ํ ๋ชจ๋ธ๊ณผ ์ฑ๋ฅ์ด ๋๋ฑํ ์คํ์์ค ๋ชจ๋ธ
- Alibaba์ Qwen 2.5 (72B): ๋ฌด๋ ค 5๋ฐฐ๋ ์์ ํฌ๊ธฐ๋ก LLaMA 3.1๊ณผ ๊ฑฐ์ ๊ฐ์ ์ฑ๋ฅ
- ๋ฉํฐ๋ชจ๋ฌ ์๋ ๊ฐ๋ง: LLaMA 3.2๋ ํ ์คํธ๋ฟ ์๋๋ผ ์ด๋ฏธ์ง๋ ์ดํดํ๊ณ ์์ฑ ๊ฐ๋ฅ
์ฆ, ์ฑ๋ฅ๊ณผ ์ ๊ทผ์ฑ ๋ชจ๋์์ ์คํ์์ค ๋ชจ๋ธ์ด ์ค์ฉ์ ์ธ ์ ํ์ด ๋์ด๊ฐ๊ณ ์์ต๋๋ค.
๐ง ๋ฒค์น๋งํฌ๊ฐ ๋งํด์ฃผ๋ ๊ฒ๋ค
๋ํ์ ์ธ ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ์คํ์์ค ๋ชจ๋ธ๋ค์ด ์ผ๋ง๋ ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๋์ง๋ฅผ ์ ์ ์์ต๋๋ค.
- MMLU: ์ธ์ด ๊ธฐ๋ฐ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ ์ธก์
- HumanEval: ์ฝ๋ ์์ฑ ๋ฐ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ ํ ์คํธ
- LLaMA 3.1์ GPT-4 ๋ฐ Claude 3.5์ ๋น์ทํ๊ฑฐ๋ ๋ฐ์ด๋ ์ ์๋ฅผ ํ๋ํ์ต๋๋ค
ํนํ LLaMA๋ ๋จ์ํ ๋ชจ๋ธ์ด ์๋๋๋ค. ‘LLaMA Stack’์ด๋ผ๋ ํ๋ซํผ์ผ๋ก, ์์ด์ ํธ, ํ๊ฐ ๋๊ตฌ, ํ์ธํ๋ ํด ๋ฑ ๋ค์ํ ๊ฐ๋ฐ์ ๋๊ตฌ๋ฅผ ํฌํจํ๊ณ ์์ต๋๋ค.
โ๏ธ ์คํ์์ค vs ํ์ํ, ์ ์ฐ๋ฆฌ๋ ์คํ์์ค๋ฅผ ์ฃผ๋ชฉํด์ผ ํ ๊น?
์ง๊ธ๊น์ง๋ ๋๋ถ๋ถ์ ๊ธฐ์ ๋ค์ด OpenAI, Anthropic ๋ฑ ํ์ํ ๋ชจ๋ธ์ ํตํด GenAI๋ฅผ ๋์ ํด ์์ต๋๋ค. ํ์ง๋ง ์ฅ๊ธฐ์ ์ผ๋ก๋ ๋ค์๊ณผ ๊ฐ์ ํ๊ณ์ ๋ถ๋ชํ๋๋ค.
- ์ปค์คํฐ๋ง์ด์ง ์ ์ฝ
- ๋น์ฉ ์ฆ๊ฐ
- ๋ฐ์ดํฐ ๋ณด์ ๋ฐ ์ข ์์ฑ ๋ฌธ์
- ๊ฒฝ์๋ ฅ์ ์ธ์ฃผํ
์์ผ๋ก์ ๊ฒฝ์๋ ฅ์ AI๋ฅผ ์ด๋ป๊ฒ ์ ‘ํ์ฉ’ํ๋๋์ ๋ฌ๋ ค ์์ต๋๋ค. ์ง์ LLM์ ๋ค๋ฃฐ ์ ์์ด์ผ ์ง์ง ๊ฒฝ์๋ ฅ์ ํ๋ณดํ ์ ์๋ ์๋์ ๋๋ค.
๐ง ์คํ์์ค LLM์ ์ค์ ๋ก ์ฐ๋ ค๋ฉด?
LLM์ ์ค์ ์ ๋ฌด์ ํ์ฉํ๋ ค๋ฉด ๊ฐ์ฅ ๋จผ์ ๋ง์ฃผ์น๋ ํ์ค: GPU ๋ถ์กฑ.
๐ธ ๋ฌธ์ 1: GPU ๋ฉ๋ชจ๋ฆฌ
LLaMA 3.1 (405B) ๋ชจ๋ธ์ ๋๋ฆฌ๊ธฐ ์ํด์ 810GB๊ฐ ํ์ํฉ๋๋ค. ์ด๋ ๊ณ ์ฑ๋ฅ GPU 8๊ฐ์ง๋ฆฌ ์๋ฒ ๋ ๋๊ฐ ํ์ํ ์์ค์ ๋๋ค.
๐ง ํด๊ฒฐ์ฑ 1: ์์ํ(Quantization)
๋ชจ๋ธ์ด ์ฌ์ฉํ๋ ์ซ์์ ์ ๋ฐ๋๋ฅผ ๋ฎ์ถ์ด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๋ ๋ฐฉ๋ฒ์ ๋๋ค.
- FP16 → FP8 → INT4 ๋ฑ์ผ๋ก ๋ณํ
- ์ฑ๋ฅ ์์ค์ ํฌ์ง ์๊ณ ๋๋ถ๋ถ ๋ฌด์ ๊ฐ๋ฅ
- LLaMA 3.1๋ FP8 ์ฌ์ฉ์ ๊ถ์ฅ
๐ง ํด๊ฒฐ์ฑ 2: LoRA (Low Rank Adaptation)
์ ์ฒด ๋ชจ๋ธ์ด ์๋ ์ผ๋ถ๋ถ๋ง ํ์ต์ํค๋ ๊ธฐ๋ฒ์ผ๋ก, ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ ํ์ํฉ๋๋ค.
- ์ฌ์ ํ์ต๋ ‘Frozen’ ๊ฐ์ค์น๋ ๊ทธ๋๋ก
- ‘Adapter’๋ง ๋ก๋ฉํ๊ณ ํ์ธํ๋
- ๋ฉํฐ ๋ชจ๋ธ ์ถ๋ก ์์๋ ์ฌ์ฌ์ฉ ๊ฐ๋ฅ
๐ง Quantization + LoRA ์กฐํฉ์ GPU ๋น์ฉ ์์ด๋ ์ถ๋ก ๋ฐ ํ์ธํ๋์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ญ๋๋ค.
๐ ๏ธ ํ์ต ๊ณผ์ ์ ์ด๋ป๊ฒ ๊ตฌ์ฑ๋ ๊น?
๋ชจ๋ธ์ ํ์ตํ๋ ๊ณผ์ ์ ๋๋ต ์๋ 4๋จ๊ณ๋ก ๋๋ ์ ์์ต๋๋ค.
- ์ ์ฒ๋ฆฌ (Preprocessing) – ๋ฐ์ดํฐ ์์ง, ์ ์ , ์ ์ฒ๋ฆฌ
- ์ฌ์ ํ์ต (Pretraining) – ๋์ฉ๋ ๋ฐ์ดํฐ๋ก ์ผ๋ฐ์ ์ง์ ํ์ต
- ํ์ฒ๋ฆฌ/์ ๋ ฌ (Post-training) – ํน์ ์ ๋ฌด์ ๋ง๊ฒ ์ ๋ ฌ (SFT, RLHF, DPO ๋ฑ)
- ์ต์ ํ (Optimization) – ์ค์ ์ถ๋ก , ๋ฐฐํฌ ํ๊ฒฝ์ ๋ง๊ฒ ์ต์ ํ
๐ฏ ํนํ ์์ฆ์ ๊ณ ์ฑ๋ฅ ๋ชจ๋ธ์ ํ์ฉํด ‘ํฉ์ฑ ๋ฐ์ดํฐ’๋ฅผ ์์ฑํ๊ณ , ์ด๊ฑธ ๋ค์ ํ์ต์ ์ฌ์ฉํ๋ ๋ฐฉ์์ด ์ ํ์ ๋๋ค. Hugging Face ๋ฑ์ ํ๋ซํผ์์ ์ฝ๊ฒ ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
๐งฐ ์ด๋ค ํด์ ์ฐ๋ฉด ์ข์๊น?
- ์ถ๋ก ํ๋ ์์ํฌ
- vLLM, TGI, NIM: ๊ณ ์ฑ๋ฅ ์ถ๋ก ์ ์ํ ๋๊ตฌ๋ค
- ํ์ธํ๋ ํ๋ ์์ํฌ
- TRL (by Hugging Face): RLHF, DPO ๋ฑ ์ง์
- Axolotl: ์ฝ๊ฒ ํ์ธํ๋ ํ๊ฒฝ ๊ตฌ์ฑ ๊ฐ๋ฅ
- ํ๋์จ์ด ๊ฐ์๊ธฐ
- NVIDIA → CUDA
- AMD → ROCm
- Google TPU → XLA
ํ๋ซํผ๋ง๋ค ์ต์ ํ ๋๋ผ์ด๋ฒ๊ฐ ์๊ธฐ ๋๋ฌธ์, ํ์ฉ ๋ชฉ์ ์ ๋ฐ๋ผ ๊ณจ๋ผ ์ฐ๋ฉด ๋ฉ๋๋ค.
๐ฏ Q1. “๊ตณ์ด ํ์ธํ๋์ ํด์ผ ํ๋์? ๊ทธ๋ฅ ๋ ์ข์ ๋ชจ๋ธ์ ์ฐ๋ฉด ์ ๋๋์?”
์ง๋ฌธ ์์ฝ: ํ์ธํ๋์ ๋ฆฌ์์ค๋ฅผ ๋ง์ด ์๋ชจํฉ๋๋ค. ์ฐจ๋ผ๋ฆฌ ๋ ์ฑ๋ฅ ์ข์ ๋ชจ๋ธ(OpenAI ๋ฑ)์ ์ฌ์ฉํ๊ณ , ๊ทธ ๋น์ฉ์ ๊ฐ๋นํ๋ ๊ฒ ๋ซ์ง ์๋์?
โ ๋ต๋ณ ์์ฝ:
- ์ด ์ง๋ฌธ์ ์ค์ ํ์ฅ์์ ๋ง์ด ๋์ต๋๋ค.
- ๊ฒฐ์ ์ ๊ฒฐ๊ตญ "์์๊ณผ ๋น์ฉ"์ ๋ฌธ์ ์ ๋๋ค.
๐ก ๊ธฐ๋ณธ ํ๋ฆ:
- ์ด๊ธฐ์๋ ๊ทธ๋ฅ ์ ๋๋ ๋ชจ๋ธ๋ถํฐ ์๋๋ค.
์: OpenAI ๋ชจ๋ธ์ ์จ๋ดค๋๋ ์ ๋จ → “์ข๋ค, ์ด์ ์ต์ ํ ํด๋ณผ๊น?” - ๊ทธ๋ค์ ์๊ฐํฉ๋๋ค – “์ด๊ฑฐ ๊ณ์ ์ฐ๋ฉด ๋ ๋ง์ด ๋ค๊ฒ ๋๋ฐ?”
→ ์ฌ๊ธฐ์ ํ์ธํ๋์ ๊ณ ๋ฏผํ๊ฒ ๋ฉ๋๋ค. - ์ง์ ํ์ธํ๋ํ ๋ชจ๋ธ์ด ๋ ์ธ๊ณ ์ฑ๋ฅ๋ ์ข๋ค๋ฉด ๋น์ฐํ ๊ทธ๊ฑธ ์๋๋ค.
→ ์ด์ : ํ์ธํ๋์ ํ ๋ฒ๋ง ํ์ง๋ง **์ถ๋ก (inference)**์ ๊ณ์ ๋๋๊น์.
๐ ํต์ฌ ํ๋จ ๊ธฐ์ค:
- ๋น์ฉ ์ต์ ํ๊ฐ ๋ชฉ์ ์ด๋ฉด → ํ์ธํ๋ ์๋
- ๋ฆฌ์์ค ์ฌ์ ์์ผ๋ฉด → ๊ธฐ์กด ๋ชจ๋ธ ๊ทธ๋๋ก ์ฌ์ฉ
- ๋ฒ์ /์ ์ฑ ์ ์ผ๋ก ์์ฉ ๋ชจ๋ธ ์ฌ์ฉ์ด ๋ถ๊ฐํ ๊ฒฝ์ฐ → ์คํ์์ค ๋์ ํ์
๐ฌ Q2. “์์ฆ AI๋ ์ด๋ค ๋ถ์ผ์ ๊ฐ์ฅ ๋ง์ด ์ฐ์ด๋์? ๊ด์ฐฐํ๊ณ ์ฑ๋ฅ ์ธก์ ํ๋ ๋๊ตฌ๋ ์๋์?”
โ ๋ต๋ณ ์์ฝ:
๐จ AI๋ ์ด์ "์ ์ฐ์ "์ ์ฌ์ฉ๋ฉ๋๋ค:
- ์ท ๋์์ธ, ์์ ๊ฐ๋ฐ, ๊ธ์ต, ํฌ์ค์ผ์ด ๋ฑ ๋ชจ๋ ์ฐ์ ์์ ํ์ฉ ์ค
- ๊ฐ์ฅ ํํ ์ฌ๋ก๋:
- ์ฑ๋ด
- ์ฝํ์ผ๋ฟ(Copilot, ๋ณด์กฐ AI)
์์ผ๋ก AI๊ฐ ์ํฅ์ ๋ฏธ์น์ง ์์ ๋ถ์ผ๋ฅผ ์ฐพ๋ ๊ฒ ๋ ๋น ๋ฅผ ์๋ ์์ต๋๋ค.
๐ ๏ธ LLM ์ฑ๋ฅ์ ์ด๋ป๊ฒ ์ธก์ ํ๋์? (Observability & ํ๊ฐ)
- ๋ง์ ์ฌ๋๋ค์ด “LLM ํ๊ฐ๋ฒ ์ข ์๋ ค์ค์!”๋ผ๊ณ ๋งํ์ง๋ง,
์์งํ ๋งํ๋ฉด “์๋ฒฝํ ๋ฐฉ๋ฒ์ ์์ง ์์ต๋๋ค.”
๐ ํ์ฌ ํ์ฉ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ:
- ๋ฒค์น๋งํฌ: MMLU, HumanEval ๋ฑ ๊ฐ์ข ๊ณต๊ฐ ํ ์คํธ ๊ธฐ์ค
- LLM๋ผ๋ฆฌ ํ๊ฐ: ๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ(GPT-4 ๋ฑ)๋ก ์ ๋ ดํ ๋ชจ๋ธ์ ์๋ต ํ์ง์ ํ๊ฐ
- ํด๋จผ ํผ๋๋ฐฑ: ๊ฐ์ฅ ์ด์์ ์ด์ง๋ง ๋น์ฉ์ด ํผ
- LLMOps ํด: ๋ฉํธ๋ฆญ ์์ง์ ๊ฐ๋ฅํ์ง๋ง, ๊ทผ๋ณธ์ ์ธ ํ์ง ํ๋จ์ ์ด๋ ค์
๐ ์์ฝ: ์ ๋์ ํ๊ฐ๋ ์์ง ๋ถ์์ , ์คํ๊ณผ ์ฌ๋์ด ์ฌ์ ํ ์ค์ํฉ๋๋ค.
๐งช ๊ฒฐ๋ก : ์คํ ์์ด ์ ๋ต์ ์๋ค
“์ฐ๋ฆฌ ํ์ฌ ์๋น์ค์ LLM์ ์ธ ์ ์์๊น?”
→ ์ ๋ต์ ์คํ์ ํด๋ด์ผ ์๋๋ค.
- ์์ ์ ์ ์ค์ผ์ด์ค์ ๋ง๋ LLM์ ์ ํํ๊ณ , ์ง์ ์คํํด๋ณด์ธ์.
- ์ด๊ธฐ์ ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ๋ก ํ ์คํธ, ์ดํ ๋น์ฉ ์ค์ด๊ธฐ ์ํด ์คํ์์ค๋ก ์ต์ ํ