輸入欲合成之文字
選擇語音合成模型
IndexTTS (Main)
高音質主模型,支援多種預設中文音色與上傳複製
IndexTTS (TW)
專為台灣腔調與閩南話優化之語音模型
CosyVoice 3
阿里開源最新語音複製模型,支援零樣本極速克隆
Qwen TTS
基於通義千問的 1.7B 多語言大模型,自然度高
語音播放器
尚無播放中的音訊,請先點擊「開始語音合成」
0:00
/
0:00
取樣率: 16000Hz
歷史合成紀錄
尚無合成紀錄
合成的語音檔將保存在瀏覽器 IndexedDB 中
API 連線與代理設定
所有 TTS 連接的預設主機。部署到 GitHub Pages 時將預設指向 talk-dev.aitago.tw。
如果遭遇瀏覽器的 CORS 阻擋或混合內容封鎖,可在所有 API 請求前加上此代理路徑(留空則直連)。
系統控制台資訊
如果您需要重啟服務或切換模型,這裏有一些實用的 Curl 工具與指令指引。
# 手動切換 CosyVoice 3 模型
curl -X POST "http://talk-dev.aitago.tw:8003/model/reload" \
-H "Content-Type: application/json" \
-d '{"model_name": "CosyVoice3-0.5B-Finetuned-1222"}'
# 查詢當前 CosyVoice 3 模型載入狀態
curl http://talk-dev.aitago.tw:8003/models
語音模型指南與對照表
1. IndexTTS 主模型 (8001 / 8002)
基於 VLLM 推理加速技術。預設音色庫十分豐富,生成速度最快。8002 專門為閩南腔及台灣國語優化,發音更具在地親切感。
語音複製 (tts_upload): 支援上傳包含人聲的聲音檔,並指定 Seed 種子,模型將極速學習該聲音特徵來發音。
2. CosyVoice 3 大模型 (8003)
阿里開源的最新高自然度語音複製框架。特色是強大的零樣本 (Zero-Shot) 克隆,僅需 3 秒以上的參考音檔即可產出高品質的擬真複製語音。
推理模式: SFT 模式(預訓練)需要模型預先封裝的音色名稱;而 Zero-Shot(複製)模式需要上傳參考語音並給予對應的文字逐字稿 (Prompt Text),以達到最極致的聲音克隆表現。
3. Qwen TTS 大模型 (8005)
阿里 Qwen 家族研發的多語言語音合成大模型。自然度高,且對多國語言(中、英、日、韓、法、德等)的混合發音擁有優秀的表現力。
API 接口總覽
| 模型項目 | API 端點 | 核心請求格式 |
|---|---|---|
| IndexTTS Preset | POST /audio/speech | JSON: {"model":"tts-1","input":"文字","voice":"jay"} |
| IndexTTS Clone | POST /tts_upload | Query: ?text=文字&seed=8 + FormData (audio_file) |
| CosyVoice 3 | POST /tts | FormData: text, mode, speed, seed, speaker, prompt_audio, prompt_text |
| Qwen TTS | POST /v1/audio/speech | JSON: {"model":"...","input":"文字","voice":"hayley_normal","language":"Chinese"} |