ローカルLLMで使う

OpenForge MCP は、クラウドの AI サービスだけでなく、ローカルで動作する LLM（大規模言語モデル）でも利用できる。このガイドでは、LM Studio と Ollama を使ったセットアップ方法を詳しく解説するよ。

なぜローカルLLMを使うのか

ローカルLLMには、クラウドサービスにはないメリットがある。

項目	クラウドAI	ローカルLLM
プライバシー	データがサーバーに送信される	データは自分のPC内で完結
API利用料	従量課金が発生する	無料（電気代のみ）
インターネット	常時接続が必要	不要（オフラインで動作）
応答速度	ネットワーク遅延あり	GPUの性能次第で高速
モデルの自由度	プロバイダーが提供するモデルのみ	好みのモデルを選べる

こんな人におすすめ

プロジェクトのデータを外部に出したくない
API の月額コストを抑えたい
インターネット環境が不安定な場所で作業する
特定のモデルを試してみたい

LM Studio でのセットアップ

LM Studio は、ローカルLLMを簡単に動かせるデスクトップアプリ。GUIで操作できるので、初めてでも扱いやすいよ。

手順1: LM Studio をインストールする

LM Studio の公式サイト（https://lmstudio.ai）にアクセスする
自分のOSに合ったインストーラーをダウンロードする
インストーラーを実行して、画面の指示に従ってインストールする

手順2: モデルをダウンロードする

LM Studio を起動したら、モデルをダウンロードしよう。

左側のメニューから検索画面を開く
検索バーにモデル名を入力する（推奨モデルは後述）
ダウンロードボタンをクリックする
ダウンロードが完了するまで待つ（モデルのサイズによっては時間がかかる）

手順3: ローカルサーバーを起動する

左側のメニューからローカルサーバー画面を開く
ダウンロードしたモデルを選択する
「Start Server」ボタンをクリックする
サーバーが起動すると、http://localhost:1234 でアクセスできるようになる

手順4: OpenForge MCP の設定を変更する

OpenForge MCP の設定で、AI クライアントの接続先をローカルサーバーに向ける。MCP の設定ファイル、または AI クライアント側の設定で、API エンドポイントを以下のように変更する:

{
  "api_base": "http://localhost:1234/v1",
  "api_key": "not-needed"
}

api_key について

LM Studio のローカルサーバーは認証不要だけど、一部のAIクライアントは api_key フィールドが必須になっている。その場合は「not-needed」など適当な文字列を入れておけばOKだよ。

手順5: 接続を確認する

あなた:

Unityのシーンにあるオブジェクトを一覧表示して

正常に動作していれば、ローカルLLM 経由で OpenForge MCP が Unity と通信して、シーン内のオブジェクト一覧が返ってくるはず。

Ollama でのセットアップ

Ollama はコマンドライン操作に慣れている人向けのツール。軽量で、サーバーの起動が速いのが特徴だよ。

手順1: Ollama をインストールする

Windows の場合:

公式サイト（https://ollama.com）からインストーラーをダウンロードして実行する。

macOS の場合:

brew install ollama

Linux の場合:

curl -fsSL https://ollama.com/install.sh | sh

手順2: モデルをダウンロードして起動する

ターミナルで以下のコマンドを実行する:

ollama run llama3:8b

初回はモデルのダウンロードが始まる。ダウンロードが完了すると、対話モードが起動する。対話モードは Ctrl+D で終了できる。

手順3: API サーバーとして利用する

Ollama は起動しているだけで API サーバーとしても動作する。デフォルトでは http://localhost:11434 でリクエストを受け付ける。

OpenForge MCP の設定:

{
  "api_base": "http://localhost:11434/v1",
  "api_key": "not-needed"
}

手順4: バックグラウンドで起動する

毎回対話モードに入る必要はない。以下のコマンドでサーバーだけを起動できる:

ollama serve

別のターミナルから動作確認:

curl http://localhost:11434/api/tags

モデル一覧が返ってくれば、サーバーは正常に動作しているよ。

Essential モードについて

ローカルLLM は、クラウドの大規模モデルと比べてコンテキストウィンドウが小さく、推論能力も限られることがある。OpenForge MCP の Essential モード は、こうした制約のあるモデルでも快適に使えるように設計されたモード。

Essential モードの特徴

公開するツール数を最小限に絞る（頻繁に使う基本ツールのみ）
ツール定義のトークン消費を抑える
シンプルな応答を促すプロンプト設計

Essential モードの有効化

設定ファイルで以下のように指定する:

{
  "tool_mode": "essential"
}

モードの選び方

Essential モード: 7B パラメータ以下の小さなモデル向け
Dynamic モード: 13B 以上のモデルで、トークン効率を重視する場合
Full モード: 70B 以上の大きなモデル、またはクラウドAI向け

詳しくはツールモードを参照してね。

推奨モデル

用途とPCのスペックに応じて、適切なモデルを選ぼう。

7B パラメータクラス（VRAM 8GB 程度）

Llama 3 8B -- バランスが良く、基本的な操作には十分
Mistral 7B -- コード生成が比較的得意
Gemma 2 9B -- 軽量ながら高い推論能力

Essential モードとの組み合わせ推奨。基本的なオブジェクト操作、シーン構築には対応できるけど、複雑なスクリプト生成は苦手なことがある。

13B パラメータクラス（VRAM 16GB 程度）

Llama 3 13B -- 7B より正確な指示理解
CodeLlama 13B -- スクリプト生成に強い

Dynamic モードで快適に動作する。スクリプト生成やクロスアプリ操作もこなせるよ。

70B パラメータクラス（VRAM 48GB 以上）

Llama 3 70B -- クラウドAIに迫る性能
Mixtral 8x22B -- MoEアーキテクチャで効率的に動作

Full モードで全機能を活用できる。クラウドAIとほぼ同等の体験が得られるけど、ハイエンドGPUが必要。

量子化について

VRAM が足りない場合は、量子化（quantization）されたモデルを使う方法がある。Q4_K_M や Q5_K_M などの量子化形式なら、必要なVRAMを大幅に削減できる。ただし、量子化するほど精度は低下するので、まずは Q5_K_M あたりから試すのがおすすめだよ。

パフォーマンスを上げるコツ

GPU オフロードを最大化する

ローカルLLM の速度は GPU に大きく依存する。モデルの全レイヤーを GPU に載せると最速になるよ。

LM Studio: 設定画面で「GPU Offload」のレイヤー数を最大にする
Ollama: 自動で GPU を利用するけど、OLLAMA_NUM_GPU 環境変数で調整できる

コンテキスト長を調整する

デフォルトのコンテキスト長は多くの場合4096トークン。OpenForge MCP を快適に使うには、8192以上を推奨する。

LM Studio: サーバー設定の「Context Length」を変更する
Ollama: Modelfile で num_ctx パラメータを設定する

# Ollama Modelfile の例
FROM llama3:8b
PARAMETER num_ctx 8192

不要なアプリを閉じる

ローカルLLM は大量のメモリと GPU リソースを消費する。ブラウザのタブや不要なアプリケーションを閉じて、リソースを確保しよう。

トラブルシューティング

応答が極端に遅い

原因: モデルがCPUで動作している可能性がある。

対処法:

GPU ドライバーが最新か確認する
NVIDIA の場合、CUDA が正しくインストールされているか確認する
LM Studio / Ollama のログで GPU が認識されているかチェックする
モデルサイズを小さいものに変更してみる

接続エラーが出る

原因: ローカルサーバーが起動していないか、ポート番号が違っている。

対処法:

LM Studio / Ollama のサーバーが起動しているか確認する
ポート番号が設定と一致しているか確認する（LM Studio: 1234、Ollama: 11434）
ファイアウォールがローカル通信をブロックしていないか確認する

AIの応答がおかしい・ツールを正しく呼べない

原因: モデルの能力が不足している可能性がある。

対処法:

Essential モードに切り替える
より大きなモデルに変更する
量子化レベルを上げる（Q4 から Q5 へ、など）
指示をより具体的にしてみる

メモリ不足でクラッシュする

原因: モデルのサイズに対して VRAM / RAM が不足している。

対処法:

より小さなモデルに変更する
量子化レベルを下げる（Q5 から Q4 へ）
コンテキスト長を短くする
他のアプリケーションを閉じてメモリを確保する

まとめ

ローカルLLM を使えば、プライバシーを守りながら、API コストをかけずに OpenForge MCP を活用できる。セットアップは最初だけ手間がかかるけど、一度設定してしまえば、あとはクラウドAIと同じ感覚で使えるよ。

まずは 7B モデル + Essential モードから始めて、自分の環境に合った設定を探っていこう。

なぜローカルLLMを使うのか​

LM Studio でのセットアップ​

手順1: LM Studio をインストールする​

手順2: モデルをダウンロードする​

手順3: ローカルサーバーを起動する​

手順4: OpenForge MCP の設定を変更する​

手順5: 接続を確認する​

Ollama でのセットアップ​

手順1: Ollama をインストールする​

手順2: モデルをダウンロードして起動する​

手順3: API サーバーとして利用する​

手順4: バックグラウンドで起動する​

Essential モードについて​

Essential モードの特徴​

Essential モードの有効化​

推奨モデル​

7B パラメータクラス（VRAM 8GB 程度）​

13B パラメータクラス（VRAM 16GB 程度）​

70B パラメータクラス（VRAM 48GB 以上）​

パフォーマンスを上げるコツ​

GPU オフロードを最大化する​

コンテキスト長を調整する​

不要なアプリを閉じる​

トラブルシューティング​

応答が極端に遅い​

接続エラーが出る​

AIの応答がおかしい・ツールを正しく呼べない​

メモリ不足でクラッシュする​

まとめ​

なぜローカルLLMを使うのか

LM Studio でのセットアップ

手順1: LM Studio をインストールする

手順2: モデルをダウンロードする

手順3: ローカルサーバーを起動する

手順4: OpenForge MCP の設定を変更する

手順5: 接続を確認する

Ollama でのセットアップ

手順1: Ollama をインストールする

手順2: モデルをダウンロードして起動する

手順3: API サーバーとして利用する

手順4: バックグラウンドで起動する

Essential モードについて

Essential モードの特徴

Essential モードの有効化

推奨モデル

7B パラメータクラス（VRAM 8GB 程度）

13B パラメータクラス（VRAM 16GB 程度）

70B パラメータクラス（VRAM 48GB 以上）

パフォーマンスを上げるコツ

GPU オフロードを最大化する

コンテキスト長を調整する

不要なアプリを閉じる

トラブルシューティング

応答が極端に遅い

接続エラーが出る

AIの応答がおかしい・ツールを正しく呼べない

メモリ不足でクラッシュする

まとめ