style-bert-vits2というttsが有名だったらしく、gpuは持っていないのでgoogle colabで音声モデルを作ってローカルで再生していた。

最近はqwen3-ttsというものも出てきたそうで、それもやりたいと思いcolabで動かそうとした。

そしたらメモリが足りないエラーが多発して動かなかった。

一応入力する音声を3sにしたら生成はできたが、やはりあまり似ていなかった。

じゃあsbv2の方をfinetuningしたほうがいいのかなと考えたけれど、下記ブログの比較動画を聞いてみると結構大きな差が出ていた。


https://www.ipentec.com/document/software/audio-generation-install-qwen3-tts


やっぱりqwenの方をなんとか動かす方法を考えた方が良い?

それとも最近買ったgpuが届くまでsbv2で何とかする??


colabで動かしている人もいるらしい。やっぱり動かせるのか

https://qiita.com/Ruuchami/items/7d3edb55bb0ef94115ac


だめだ、またメモリエラーだ。gpu買ったからcolabに課金はなー


普通に入力音声が長過ぎただけだった。3minならいけた。


長文を生成しようとすると叫びだして苦しんでいるのか喘いでいるのかよくわからない声が生成されて怖すぎる。

だから一文ずつ生成しようとしたが、これでもときどき数秒の音声の間に10分程度のよくわからない気味の悪い生成が入っていることがある。

テキストの入力が間違っていたのか、colabのgpuの調子が悪くなることで生成が変になってしまったのだろうか。

やっぱりローカル環境で実行させたほうが安定するのだろうか。

制限時間もなくなるし早くPC届いてほしいな。