La Voce Sta In 25 Megabyte
Un pip install, una riga di Python, esce una voce umana. KittenTTS: 14M parametri, 23MB, CPU only. Apro l'ONNX, estraggo i voice vectors dal.npz, interpolo tra voci, confronto 4 varianti. StyleTTS 2 distillato: la diffusion è sparita, WavLM è sparito. Funziona perché il lavoro pesante era già stato fatto offline. 6 script Python, 5 grafici, 15 audio.
Un pip install, una riga di Python, esce una voce umana. KittenTTS: 14M parametri, 23MB, CPU only. Apro l'ONNX, estraggo i voice vectors dal.npz, interpolo tra voci, confronto 4 varianti. StyleTTS 2 distillato: la diffusion è sparita, WavLM è sparito. Funziona perché il lavoro pesante era già stato fatto offline. 6 script Python, 5 grafici, 15 audio.
Signal Pirate
Smonto cose, studio come funzionano e scrivo quello che trovo.