LlamaIndex

LlamaIndex로 개인 비서 만들기

Pro.Dev 2025. 1. 22. 11:24
반응형

LlamaIndex로 Python 기반 개인 비서 만들기

LlamaIndex와 대형 언어 모델(LLM)을 결합하면 질문 응답형 개인 비서를 손쉽게 구축할 수 있습니다. 이 글에서는 간단한 Python 프로젝트를 통해 LlamaIndex를 활용하여 개인 비서를 만드는 방법을 소개합니다.


1. 프로젝트 개요

목표

  • 사용자가 질문을 입력하면 적절한 답변을 제공하는 개인 비서를 구축합니다.
  • LlamaIndex를 활용해 데이터를 인덱싱하고, OpenAI GPT 모델을 사용해 답변을 생성합니다.

주요 기능

  • 다양한 데이터 소스를 기반으로 응답 생성
  • 자연어 처리(NLP)를 활용한 직관적인 질문 응답
  • 지속 가능한 데이터 업데이트 및 관리

2. 개발 환경 준비

2.1 필수 라이브러리 설치

아래 명령어를 실행해 필요한 라이브러리를 설치합니다.

pip install llama-index openai

참고: OpenAI API 사용을 위해 API 키를 발급받아야 합니다.

2.2 기본 설정

Python 3.8 이상의 버전을 사용하는 것이 권장됩니다. 가상 환경(venv, Conda)을 설정하면 라이브러리 간 충돌을 방지할 수 있습니다.


3. 개인 비서 애플리케이션 구현

3.1 데이터 준비

개인 비서가 사용할 데이터를 준비합니다. 예를 들어, 아래와 같은 JSON 형식의 파일 data.json을 생성합니다.

data.json:

[
    {"question": "LlamaIndex는 무엇인가요?", "answer": "LlamaIndex는 데이터를 효율적으로 인덱싱하고 검색할 수 있도록 돕는 Python 라이브러리입니다."},
    {"question": "Python이란?", "answer": "Python은 범용 프로그래밍 언어로, 다양한 응용 프로그램 개발에 사용됩니다."}
]

3.2 Python 코드 작성

LlamaIndex를 사용해 데이터를 인덱싱하고, 사용자가 입력한 질문에 대한 답변을 제공합니다.

import os
import json
from llama_index import GPTSimpleVectorIndex, Document

# OpenAI API 키 설정
os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY"

# 1. JSON 데이터 불러오기 및 Document 생성
def load_data(file_path):
    with open(file_path, "r", encoding="utf-8") as file:
        data = json.load(file)
    documents = [Document(f"Q: {item['question']}\nA: {item['answer']}") for item in data]
    return documents

# 2. 데이터 인덱싱
print("데이터를 인덱싱합니다...")
file_path = "data.json"
documents = load_data(file_path)
index = GPTSimpleVectorIndex.from_documents(documents)
print("인덱싱 완료!")

# 3. 질문 응답
while True:
    query = input("질문을 입력하세요 (종료하려면 'exit' 입력): ")
    if query.lower() == "exit":
        print("프로그램을 종료합니다.")
        break
    response = index.query(query)
    print(f"답변: {response}")

3.3 코드 설명

  1. JSON 데이터 로드: load_data 함수는 JSON 파일에서 데이터를 읽어와 LlamaIndex의 Document 객체로 변환합니다.
  2. 데이터 인덱싱: GPTSimpleVectorIndex.from_documents를 사용해 데이터를 인덱싱합니다.
  3. 질문 응답 루프: 사용자가 입력한 질문에 대해 적절한 답변을 생성합니다.

4. 실행 결과

실행 흐름

  1. 프로그램 실행 시 JSON 데이터를 인덱싱합니다.
  2. 사용자가 질문을 입력하면, 관련된 답변을 생성해 출력합니다.
  3. "exit"를 입력하면 프로그램이 종료됩니다.

예시

질문을 입력하세요 (종료하려면 'exit' 입력): LlamaIndex는 무엇인가요?
답변: LlamaIndex는 데이터를 효율적으로 인덱싱하고 검색할 수 있도록 돕는 Python 라이브러리입니다.

질문을 입력하세요 (종료하려면 'exit' 입력): exit
프로그램을 종료합니다.

5. 확장 가능성

5.1 다양한 데이터 소스 추가

  • PDF, 텍스트 파일, 데이터베이스 등 다양한 데이터 소스를 추가로 인덱싱할 수 있습니다.

5.2 사용자 인터페이스 개발

  • Streamlit, Flask 또는 FastAPI를 사용해 웹 기반 인터페이스를 구축할 수 있습니다.

5.3 고급 NLP 기능 통합

  • 사용자의 질문 의도를 파악하고, 답변의 품질을 높이기 위해 추가적인 NLP 모델을 통합할 수 있습니다.

참고 자료

반응형