qwen3-tts

한국어 음성(TTS) 생성 — edge-tts (기본) / Qwen3-TTS (카글, 필요시 수동 구동)

한국어 음성 생성

⚠️ 2026-04-16 변경: 기본 TTS를 edge-tts로 전환. 카글 Qwen3-TTS는 필요시 수동 구동.

현재 방식: edge-tts (기본)

로컬에서 즉시 실행, 외부 서버 불필요.

음성

ko-KR-SunHiNeural (여성, 기본)
ko-KR-InJoonNeural (남성)
ko-KR-HyunsuMultilingualNeural (남성, 다국어)

사용법

edge-tts --voice ko-KR-SunHiNeural --rate=-5% --text "안녕하세요" --write-media output.mp3

한계

Qwen3-TTS보다 자연스러움 떨어짐
커스텀 보이스 불가
감정 표현 제한적

레거시: 카글 Qwen3-TTS (사용 중단)

Qwen3-TTS-12Hz 사양

| 항목 | 값 |
|---|---|
| 모델 | Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice |
| 보이스 | Sohee, Chelsie, Nick 등 |
| GPU | T4 16GB (카글) |
| 출력 | wav → ffmpeg mp3 변환 |

사용 중단 사유

카글 40분 유휴 타임아웃
주간 GPU 30시간 제한
ICBM2가 서버 원격 재시작 불가

레거시 참고

카글 커널: icbm3112k/qwen3-tts-test
스크립트: ~/.hermes/scripts/kaggle_account3_audio_gen.py
노트북: ~/.hermes/scripts/kaggle/qwen3-tts.ipynb

Related Skills / 관련 스킬

creative

ace-step-music

Kaggle T4 GPU에서 ACE-Step 1.5 터보로 가사 없는 인스트루멘탈 음악 생성 — 30초~60초 곡, 프롬프트 기반

creative v1.0.0

architecture-diagram

Generate dark-themed SVG diagrams of software systems and cloud infrastructure as standalone HTML files with inline SVG graphics. Semantic component colors (cyan=frontend, emerald=backend, violet=database, amber=cloud/AWS, rose=security, orange=message bus), JetBrains Mono font, grid background. Best suited for software architecture, cloud/VPC topology, microservice maps, service-mesh diagrams, database + API layer diagrams, security groups, message buses — anything that fits a tech-infra deck with a dark aesthetic. If a more specialized diagramming skill exists for the subject (scientific, educational, hand-drawn, animated, etc.), prefer that — otherwise this skill can also serve as a general-purpose SVG diagram fallback. Based on Cocoon AI's architecture-diagram-generator (MIT).

creative v4.0.0

ZIP

ascii-art

pyfiglet(571폰트), cowsay, boxes, toilet 등으로 ASCII 아트 생성. API 키 불필요.

creative

ZIP

ascii-video

ASCII 아트 비디오 프로덕션 파이프라인 — 비디오/오디오/이미지를 컬러 ASCII 캐릭터 비디오(MP4, GIF)로 변환