생성형 AI 활용하기

Par TTS로 로컬에서 AI 음성 생성하기

Pro.Dev 2024. 12. 9. 21:04
반응형

Hugging Face의 Par TTS로 로컬에서 AI 음성 생성하기

Par TTS는 Hugging Face에서 제공하는 강력한 텍스트-음성 변환(Text-to-Speech, TTS) 모델입니다. 이 모델은 Python 기반으로 작동하며, 클라우드 없이도 로컬에서 실행 가능합니다. 이 글에서는 Python 환경 설정부터 Par TTS 설치 및 실행 방법까지 3단계로 간단히 안내합니다.


1단계: Python 환경 설정

Python 버전 확인

먼저 시스템에 설치된 Python 버전을 확인하세요. Par TTS는 Python 3.10 이상에서 작동합니다. 터미널에서 다음 명령어를 실행하세요:

python --version

가상 환경 생성

Python 가상 환경을 사용하여 작업 디렉토리를 깨끗하게 유지하세요. 가상 환경 생성과 활성화는 다음과 같습니다:

python -m venv par_tts_env
source par_tts_env/bin/activate  # macOS/Linux
par_tts_env\Scripts\activate  # Windows

활성화 후, Python 패키지 관리 도구를 최신 버전으로 업데이트하세요:

pip install --upgrade pip setuptools wheel

2단계: Par TTS 설치

Par TTS는 Hugging Face에서 제공하는 pip 패키지로 간단히 설치할 수 있습니다. 공식 GitHub 리포지토리의 설치 명령어를 참고하여 실행하세요:

pip install par-tts

설치가 완료되면 패키지가 정상적으로 설치되었는지 확인합니다:

pip list

여기에서 par-tts 패키지가 표시되면 설치가 완료된 것입니다.


3단계: Par TTS 실행 및 음성 생성

Par TTS를 실행하려면 Python 스크립트를 작성해야 합니다. 아래는 랜덤 음성을 생성하는 예제 코드입니다:

예제 1: 랜덤 음성 생성

from par_tts import generate_audio

prompt = "Hello, how are you today?"
description = "A calm and clear female voice."
output_path = "random_voice.wav"

generate_audio(prompt=prompt, description=description, output_path=output_path)
print(f"Audio generated: {output_path}")

이 스크립트를 실행하면 random_voice.wav 파일로 음성이 생성됩니다.

예제 2: 특정 화자 음성 생성

특정 화자의 목소리를 설정하려면 description을 조정하세요:

prompt = "Welcome to our service."
description = "John's voice, slightly fast delivery, very clear audio."
output_path = "specific_voice.wav"

generate_audio(prompt=prompt, description=description, output_path=output_path)
print(f"Audio generated: {output_path}")

이 스크립트는 John의 목소리를 시뮬레이션한 음성을 생성합니다.


Par TTS의 주요 특징

  • 오픈 소스: Par TTS는 완전히 오픈 소스로 제공되며, 데이터셋, 전처리 코드, 학습 코드 및 가중치 모두 사용 가능합니다.
  • 유연한 음성 스타일: 텍스트 프롬프트를 사용하여 음성 스타일을 세부적으로 조정할 수 있습니다.
  • 로컬 실행 가능: 클라우드 의존 없이 로컬에서 작동합니다.

팁과 주의 사항

  1. 모델 다운로드 속도: 처음 실행 시 모델 파일이 다운로드되므로 시간이 걸릴 수 있습니다.
  2. 환경 관리: 프로젝트마다 가상 환경을 사용해 충돌을 방지하세요.
  3. 텍스트 프롬프트 실험: 다양한 텍스트와 스타일로 음성을 실험해 보세요.

결론

Par TTS는 로컬에서 실행할 수 있는 간단하면서도 강력한 AI 음성 생성 솔루션입니다. Python 환경만 설정하면 누구나 쉽게 고품질 음성을 생성할 수 있습니다. 이 가이드를 따라 Par TTS를 활용한 재미있고 창의적인 프로젝트를 시작해 보세요!

반응형