Minisforum X1 ProでLemonade serverでローカルLLMを試す
作業用に便利に使っていた Minisforum um773が、ファンが不安定気味になってきまして、発熱が問題になってきました。特に動画周りの処理になるとサーマルスロットリングが顕著と申しますが、もう見ていられないレベルです。買い替えを決意したものの、PC価格の高騰が問題になっている昨今、おなじMinisforumのX! Proが気になりました。ミニPCなのにCopilot +認定されるNPUを搭載というあたりが、あまり触ってこなかったので興味をそそり、ローカルAI利用あたりで何かしら面白いことができるやろと購入です。ファン2つ搭載で懸念の熱対策も大丈夫なんじゃないかというあたりもポイント高いです。今は後継機種の HX470 を搭載したモデルが発売されていますが、HX370で32GB x 2 の方がむしろ安い割にはデュアルチャネルでメモリ積んでいる分、速度のコスパが高かろうと旧モデルを購入です。この辺は貧乏性です。ものすごくCPUのベンチマークが良くなったという記事も見かけないし。
一通り生活環境を整えた後、ローカルLLMでも触ってみるかと定番のLLM Studioあたりを入れてみるに、あまりうまくNPUを使ってくれない。高いCopilot+ PCを買った意味が無くなりそうなので、他の選択肢を探してみると、Windows Foundry と Lemonade server が目につきます。後者はRyzen CPUのNPUを上手く使ってくれるらしいとの評があり、まずはこちらから。
インストールして起動してみるに、画面右下の常住エリアにアイコンが表示されるだけなので、右クリックで「Open Lemonade App」にてアプリを起動。ここから設定を入れていきます。
各モデル名の右側に、うっすらダウンロードボタンが見えるので、それをクリックしてダウンロード & ローディングして利用できるようになります。右側にチャットエリアがあるので、それで挙動を確認できます。
上の添付の例では “Qwen2.5-Coder-7B instruct"での例。TPS 8.0程度でした。軽めのものから重量級までさまざまなモデルがありますが、モデル名が -NPU で終わっているものはNPUで動くように、-Hybrid で終わっているものは CPU/iGPUと NPUをいい感じに割り振って動いてくれるようです。-NPUモデルをロードして、何か適当にやり取りしていると、タスクマネージャで見るとNPU使用率が100%近くまで上がっていきます。これだよ、これ!これ! NVIDIAの爆熱GPUを使って電気バカ食い、夏は灼熱地獄の片道切符のようなLLM PCと比較すると、何と省エネ&エレガントなんでしょう。
Visual Studio Codeとの連携
モデルが動くことが分かったので、次に実用に向けての環境の検討となるわけですが、まずはみんな大好き VS Codeとの連携です。ググってみると「AI Toolkit for VS Codeがええで」という記事を見かけて試してみたのですが、結論から言うとハマりました。呼び出し先の形式が OpenAI APIと同じ形式にというのは良いのだが、 http:localhost:8000/v1 と /v1 を付けるのが正しいのか、無いのが正解なのかが良くわからず、いろいろ試した挙句に、モデル名が正確じゃないと 404エラーがが多発です。おそらくは AI Toolkitがモデル名の先頭に、勝手に"custom/"という文字列を付けてAPI呼び出しをかけるみたいです。これがLemonade側から見ると、「そんなモデルないで」と返す原因になっているっぽい。
他の選択肢として、Continue を試したところ、うまく使えています。
「モデル」画面の+をクリック
Provider で Lemonade を選択
“connect" をクリック
Lemonadeにダウンロードされているモデルの一覧が表示されますので、お気に入りのモデルを選択します。
他にもいろいろ設定項目がありますが、最低限、これで動きます。モデルがインストールされていれば、コード補完もやってくれました。
後は X1 Pro側のパフォーマンスとモデルの重さや性能とのバランス次第なので、いい感じのモデルを選んでください。Github CopilotやClaudeほどのサクサク感は望めないものの、予算を気にせず、データ漏洩を気にせずにAIをぶん回せるのは何よりローカルLLMの醍醐味と思います。