ローカルLLMで使う
OpenForge MCP は、クラウドの AI サービスだけでなく、ローカルで動作する LLM(大規模言語モデル)でも利用できる。このガイドでは、LM Studio と Ollama を使ったセットアップ方法を詳しく解説するよ。
なぜローカルLLMを使うのか
ローカルLLMには、クラウドサービスにはないメリットがある。
| 項目 | クラウドAI | ローカルLLM |
|---|---|---|
| プライバシー | データがサーバーに送信される | データは自分のPC内で完結 |
| API利用料 | 従量課金が発生する | 無料(電気代のみ) |
| インターネット | 常時接続が必要 | 不要(オフラインで動作) |
| 応答速度 | ネットワーク遅延あり | GPUの性能次第で高速 |
| モデルの自由度 | プロバイダーが提供するモデルのみ | 好みのモデルを選べる |
- プロジェクトのデータを外部に出したくない
- API の月額コストを抑えたい
- インターネット環境が不安定な場所で作業する
- 特定のモデルを試してみたい
LM Studio でのセットアップ
LM Studio は、ローカルLLMを簡単に動かせるデスクトップアプリ。GUIで操作できるので、初めてでも扱いやすいよ。
手順1: LM Studio をインストールする
- LM Studio の公式サイト(https://lmstudio.ai)にアクセスする
- 自分のOSに合ったインストーラーをダウンロードする
- インストーラーを実行して、画面の指示に従ってインストールする
手順2: モデルをダウンロードする
LM Studio を起動したら、モデルをダウンロードしよう。
- 左側のメニューから検索画面を開く
- 検索バーにモデル名を入力する(推奨モデルは後述)
- ダウンロードボタンをクリックする
- ダウンロードが完了するまで待つ(モデルのサイズによっては時間がかかる)
手順3: ローカルサーバーを起動する
- 左側のメニューからローカルサーバー画面を開く
- ダウンロードしたモデルを選択する
- 「Start Server」ボタンをクリックする
- サーバーが起動すると、
http://localhost:1234でアクセスできるようになる
手順4: OpenForge MCP の設定を変更する
OpenForge MCP の設定で、AI クライアントの接続先をローカルサーバーに向ける。MCP の設定ファイル、または AI クライアント側の設定で、API エンドポイントを以下のように変更する:
{
"api_base": "http://localhost:1234/v1",
"api_key": "not-needed"
}
LM Studio のローカルサーバーは認証不要だけど、一部のAIクライアントは api_key フィールドが必須になっている。その場合は「not-needed」など適当な文字列を入れておけばOKだよ。
手順5: 接続を確認する
あなた:
Unityのシーンにあるオブジェクトを一覧表示して
正常に動作していれば、ローカルLLM 経由で OpenForge MCP が Unity と通信して、シーン内のオブジェクト一覧が返ってくるはず。
Ollama でのセットアップ
Ollama はコマンドライン操作に慣れている人向けのツール。軽量で、サーバーの起動が速いのが特徴だよ。
手順1: Ollama をインストールする
Windows の場合:
公式サイト(https://ollama.com)からインストーラーをダウンロードして実行する。
macOS の場合:
brew install ollama
Linux の場合:
curl -fsSL https://ollama.com/install.sh | sh
手順2: モデルをダウンロードして起動する
ターミナルで以下のコマンドを実行する:
ollama run llama3:8b
初回はモデルのダウンロードが始まる。ダウンロードが完了すると、対話モードが起動する。対話モードは Ctrl+D で終了できる。
手順3: API サーバーとして利用する
Ollama は起動しているだけで API サーバーとしても動作する。デフォルトでは http://localhost:11434 でリクエストを受け付ける。
OpenForge MCP の設定:
{
"api_base": "http://localhost:11434/v1",
"api_key": "not-needed"
}
手順4: バックグラウンドで起動する
毎回対話モードに入る必要はない。以下のコマンドでサーバーだけを起動できる:
ollama serve
別のターミナルから動作確認:
curl http://localhost:11434/api/tags
モデル一覧が返ってくれば、サーバーは正常に動作しているよ。
Essential モードについて
ローカルLLM は、クラウドの大規模モデルと比べてコンテキストウィンドウが小さく、推論能力も限られることがある。OpenForge MCP の Essential モード は、こうした制約のあるモデルでも快適に使えるように設計されたモード。
Essential モードの特徴
- 公開するツール数を最小限に絞る(頻繁に使う基本ツールのみ)
- ツール定義のトークン消費を抑える
- シンプルな応答を促すプロンプト設計
Essential モードの有効化
設定ファイルで以下のように指定する:
{
"tool_mode": "essential"
}
- Essential モード: 7B パラメータ以下の小さなモデル向け
- Dynamic モード: 13B 以上のモデルで、トークン効率を重視する場合
- Full モード: 70B 以上の大きなモデル、またはクラウドAI向け
詳しくは ツールモード を参照してね。
推奨モデル
用途とPCのスペックに応じて、適切なモデルを選ぼう。
7B パラメータクラス(VRAM 8GB 程度)
- Llama 3 8B -- バランスが良く、基本的な操作には十分
- Mistral 7B -- コード生成が比較的得意
- Gemma 2 9B -- 軽量ながら高い推論能力
Essential モードとの組み合わせ推奨。基本的なオブジェクト操作、シーン構築には対応できるけど、複雑なスクリプト生成は苦手なことがある。
13B パラメータクラス(VRAM 16GB 程度)
- Llama 3 13B -- 7B より正確な指示理解
- CodeLlama 13B -- スクリプト生成に強い
Dynamic モードで快適に動作する。スクリプト生成やクロスアプリ操作もこなせるよ。
70B パラメータクラス(VRAM 48GB 以上)
- Llama 3 70B -- クラウドAIに迫る性能
- Mixtral 8x22B -- MoEアーキテクチャで効率的に動作
Full モードで全機能を活用できる。クラウドAIとほぼ同等の体験が得られるけど、ハイエンドGPUが必要。
VRAM が足りない場合は、量子化(quantization)されたモデルを使う方法がある。Q4_K_M や Q5_K_M などの量子化形式なら、必要なVRAMを大幅に削減できる。ただし、量子化するほど精度は低下するので、まずは Q5_K_M あたりから試すのがおすすめだよ。
パフォーマンスを上げるコツ
GPU オフロードを最大化する
ローカルLLM の速度は GPU に大きく依存する。モデルの全レイヤーを GPU に載せると最速になるよ。
- LM Studio: 設定画面で「GPU Offload」のレイヤー数を最大にする
- Ollama: 自動で GPU を利用するけど、
OLLAMA_NUM_GPU環境変数で調整できる
コンテキスト長を調整する
デフォルトのコンテキスト長は多くの場合4096トークン。OpenForge MCP を快適に使うには、8192以上を推奨する。
- LM Studio: サーバー設定の「Context Length」を変更する
- Ollama: Modelfile で
num_ctxパラメータを設定する
# Ollama Modelfile の例
FROM llama3:8b
PARAMETER num_ctx 8192
不要なアプリを閉じる
ローカルLLM は大量のメモリと GPU リソースを消費する。ブラウザのタブや不要なアプリケーションを閉じて、リソースを確保しよう。
トラブルシューティング
応答が極端に遅い
原因: モデルがCPUで動作している可能性がある。
対処法:
- GPU ドライバーが最新か確認する
- NVIDIA の場合、CUDA が正しくインストールされているか確認する
- LM Studio / Ollama のログで GPU が認識されているかチェックする
- モデルサイズを小さいものに変更してみる
接続エラーが出る
原因: ローカルサーバーが起動していないか、ポート番号が違っている。
対処法:
- LM Studio / Ollama のサーバーが起動しているか確認する
- ポート番号が設定と一致しているか確認する(LM Studio: 1234、Ollama: 11434)
- ファイアウォールがローカル通信をブロックしていないか確認する
AIの応答がおかしい・ツールを正しく呼べない
原因: モデルの能力が不足している可能性がある。
対処法:
- Essential モードに切り替える
- より大きなモデルに変更する
- 量子化レベルを上げる(Q4 から Q5 へ、など)
- 指示をより具体的にしてみる
メモリ不足でクラッシュする
原因: モデルのサイズに対して VRAM / RAM が不足している。
対処法:
- より小さなモデルに変更する
- 量子化レベルを下げる(Q5 から Q4 へ)
- コンテキスト長を短くする
- 他のアプリケーションを閉じてメモリを確保する
まとめ
ローカルLLM を使えば、プライバシーを守りながら、API コストをかけずに OpenForge MCP を活用できる。セットアップは最初だけ手間がかかるけど、一度設定してしまえば、あとはクラウドAIと同じ感覚で使えるよ。
まずは 7B モデル + Essential モードから始めて、自分の環境に合った設定を探っていこう。