5070Tiのvram16gbでローカルAgent AIを動かしたい。
その候補として下記があげられる。

■GPU
5070Ti vram16gb

■agent tool
openclaw
hermes-agent

■local llm
qwen3.5 9b
gemma4 e4b

■provider
ollama
llama.cpp(python)

llmの方はvram16gbの範囲で収まる最大のサイズのもの。
qwen3.5は27b、gemma4は26bが最高という声をよく聞くが、vram16gbの環境では遅くて実用的ではないので使えなかった。
12gbくらいまでもっと圧縮されるのを待つしかなさそう。





hermesの方がなんか少し安定してる?
openclawをollamaで動かすとqwenはすぐ止まって、gemmaはある程度動いて止まる感触。
llama.cppからなら両方ともある程度動く。

hermesはollamaから動かして両方ともある程度動いた。

でも結局メモリ不足で途中で勝手にllmが無言停止してしまう。
メモリ管理がネックみたい。
hermesも一日おきのメモリは圧縮管理が最適化されているみたいだけど、一回のセッション当たりのメモリ管理はそこまで最適化されていない?
むしろollama側でするもの??

llama.cppとかでメモリ管理をうまく最適化したいな。
agentが長時間自律的に動けるようにしたい。
やっぱりクラウドモデルはメモリが膨大だから気にせず動かせるんだろうな。
お金がその分かかるけど。

モデルサイズよりコンテキスト保持するためのメモリが一番重要なのかもしれない??
agent側で一回のセッション中のメモリ管理をうまく最適化できないかな。


もっと詳細にここに書きたかったが、なかなかllmが思い通りに動かなくて疲れてまとめる気力が消えて日曜日の夜を迎えた。
AIに作業を任せているはずなのになぜかものすごく疲れる。