반응형
LlamaIndex로 Python 기반 개인 비서 만들기
LlamaIndex와 대형 언어 모델(LLM)을 결합하면 질문 응답형 개인 비서를 손쉽게 구축할 수 있습니다. 이 글에서는 간단한 Python 프로젝트를 통해 LlamaIndex를 활용하여 개인 비서를 만드는 방법을 소개합니다.
1. 프로젝트 개요
목표
- 사용자가 질문을 입력하면 적절한 답변을 제공하는 개인 비서를 구축합니다.
- LlamaIndex를 활용해 데이터를 인덱싱하고, OpenAI GPT 모델을 사용해 답변을 생성합니다.
주요 기능
- 다양한 데이터 소스를 기반으로 응답 생성
- 자연어 처리(NLP)를 활용한 직관적인 질문 응답
- 지속 가능한 데이터 업데이트 및 관리
2. 개발 환경 준비
2.1 필수 라이브러리 설치
아래 명령어를 실행해 필요한 라이브러리를 설치합니다.
pip install llama-index openai
참고: OpenAI API 사용을 위해 API 키를 발급받아야 합니다.
2.2 기본 설정
Python 3.8 이상의 버전을 사용하는 것이 권장됩니다. 가상 환경(venv, Conda)을 설정하면 라이브러리 간 충돌을 방지할 수 있습니다.
3. 개인 비서 애플리케이션 구현
3.1 데이터 준비
개인 비서가 사용할 데이터를 준비합니다. 예를 들어, 아래와 같은 JSON 형식의 파일 data.json
을 생성합니다.
data.json:
[
{"question": "LlamaIndex는 무엇인가요?", "answer": "LlamaIndex는 데이터를 효율적으로 인덱싱하고 검색할 수 있도록 돕는 Python 라이브러리입니다."},
{"question": "Python이란?", "answer": "Python은 범용 프로그래밍 언어로, 다양한 응용 프로그램 개발에 사용됩니다."}
]
3.2 Python 코드 작성
LlamaIndex를 사용해 데이터를 인덱싱하고, 사용자가 입력한 질문에 대한 답변을 제공합니다.
import os
import json
from llama_index import GPTSimpleVectorIndex, Document
# OpenAI API 키 설정
os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY"
# 1. JSON 데이터 불러오기 및 Document 생성
def load_data(file_path):
with open(file_path, "r", encoding="utf-8") as file:
data = json.load(file)
documents = [Document(f"Q: {item['question']}\nA: {item['answer']}") for item in data]
return documents
# 2. 데이터 인덱싱
print("데이터를 인덱싱합니다...")
file_path = "data.json"
documents = load_data(file_path)
index = GPTSimpleVectorIndex.from_documents(documents)
print("인덱싱 완료!")
# 3. 질문 응답
while True:
query = input("질문을 입력하세요 (종료하려면 'exit' 입력): ")
if query.lower() == "exit":
print("프로그램을 종료합니다.")
break
response = index.query(query)
print(f"답변: {response}")
3.3 코드 설명
- JSON 데이터 로드:
load_data
함수는 JSON 파일에서 데이터를 읽어와 LlamaIndex의Document
객체로 변환합니다. - 데이터 인덱싱:
GPTSimpleVectorIndex.from_documents
를 사용해 데이터를 인덱싱합니다. - 질문 응답 루프: 사용자가 입력한 질문에 대해 적절한 답변을 생성합니다.
4. 실행 결과
실행 흐름
- 프로그램 실행 시 JSON 데이터를 인덱싱합니다.
- 사용자가 질문을 입력하면, 관련된 답변을 생성해 출력합니다.
- "exit"를 입력하면 프로그램이 종료됩니다.
예시
질문을 입력하세요 (종료하려면 'exit' 입력): LlamaIndex는 무엇인가요?
답변: LlamaIndex는 데이터를 효율적으로 인덱싱하고 검색할 수 있도록 돕는 Python 라이브러리입니다.
질문을 입력하세요 (종료하려면 'exit' 입력): exit
프로그램을 종료합니다.
5. 확장 가능성
5.1 다양한 데이터 소스 추가
- PDF, 텍스트 파일, 데이터베이스 등 다양한 데이터 소스를 추가로 인덱싱할 수 있습니다.
5.2 사용자 인터페이스 개발
- Streamlit, Flask 또는 FastAPI를 사용해 웹 기반 인터페이스를 구축할 수 있습니다.
5.3 고급 NLP 기능 통합
- 사용자의 질문 의도를 파악하고, 답변의 품질을 높이기 위해 추가적인 NLP 모델을 통합할 수 있습니다.
참고 자료
반응형
'LlamaIndex' 카테고리의 다른 글
LlamaIndex를 사용한 JSON 데이터 인덱싱 (0) | 2025.01.22 |
---|---|
LlamaIndex와 SQLite를 이용한 데이터베이스 검색 최적화 (0) | 2025.01.22 |
LlamaIndex로 PDF 문서 검색 (0) | 2025.01.22 |
LlamaIndex를 활용한 텍스트 파일 데이터 검색 (0) | 2025.01.22 |
LlamaIndex Python 데이터 인덱싱 (0) | 2025.01.22 |