style-bert-vits2というttsが有名だったらしく、gpuは持っていないのでgoogle colabで音声モデルを作ってローカルで再生していた。

最近はqwen3-ttsというものも出てきたそうで、それもやりたいと思いcolabで動かそうとした。

そしたらメモリが足りないエラーが多発して動かなかった。

一応入力する音声を3sにしたら生成はできたが、やはりあまり似ていなかった。

じゃあsbv2の方をfinetuningしたほうがいいのかなと考えたけれど、下記ブログの比較動画を聞いてみると結構大きな差が出ていた。


https://www.ipentec.com/document/software/audio-generation-install-qwen3-tts


やっぱりqwenの方をなんとか動かす方法を考えた方が良い?

それとも最近買ったgpuが届くまでsbv2で何とかする??


colabで動かしている人もいるらしい。やっぱり動かせるのか

https://qiita.com/Ruuchami/items/7d3edb55bb0ef94115ac


だめだ、またメモリエラーだ。gpu買ったからcolabに課金はなー


普通に入力音声が長過ぎただけだった。3minならいけた。