La Voce Sta In 25 Megabyte

Un pip install, una riga di Python, esce una voce umana. KittenTTS: 14M parametri, 23MB, CPU only. Apro l'ONNX, estraggo i voice vectors dal.npz, interpolo tra voci, confronto 4 varianti. StyleTTS 2 distillato: la diffusion è sparita, WavLM è sparito. Funziona perché il lavoro pesante era già stato fatto offline. 6 script Python, 5 grafici, 15 audio.

Marzo 20, 2026 - 18:00
 0  0
La Voce Sta In 25 Megabyte
Un pip install, una riga di Python, esce una voce umana. KittenTTS: 14M parametri, 23MB, CPU only. Apro l'ONNX, estraggo i voice vectors dal.npz, interpolo tra voci, confronto 4 varianti. StyleTTS 2 distillato: la diffusion è sparita, WavLM è sparito. Funziona perché il lavoro pesante era già stato fatto offline. 6 script Python, 5 grafici, 15 audio.
Signal Pirate Smonto cose, studio come funzionano e scrivo quello che trovo.

Questo sito utilizza i cookie. Continuando a navigare nel sito accetterai l'uso dei cookie.