はじめに
ローカルLLMの世界で、モデルサイズの小型化は常に重要なテーマです。特にiOSやメモリ制約のあるデバイスでは、モデルサイズが実用性を左右します。
今回は、1-bit量子化という極端なアプローチで話題のBonsai 8B(1.28GB)と、実績あるGemma 4 E2B(3.37GB)を、RAG連携タスクで比較検証しました。
結論を先に言うと、サイズ差は約2.6倍だが、実用性ではGemma 4 E2Bが圧勝という結果になりました。
モデル概要
| 項目 | Bonsai 8B 1-bit | Gemma 4 E2B 4bit |
|---|---|---|
| パラメータ | 8.19B | 4B |
| サイズ | 1.28GB | 3.37GB |
| 量子化 | 1-bit g128 | 4-bit |
| 圧縮率 | FP16比 12.8x | FP16比 4x |
| 公称ベンチマーク | 70.5 | – |
1-bitモデルとは?
通常の量子化は4-bit(16段階)や8-bit(256段階)で重みを表現しますが、1-bitモデルは重みを2段階(-1と+1)のみで表現します。これにより劇的なサイズ削減が可能ですが、情報の損失も大きくなります。
Bonsai 8Bは、PrismML社がこの技術を実用レベルまで引き上げたモデルで、8Bパラメータながらわずか1.28GBという驚異的なサイズを実現しています。
テスト環境
| 項目 | 詳細 |
|---|---|
| マシン | Mac (Apple Silicon M1 Max, 64GB RAM) |
| Bonsai実行環境 | カスタムMLX(PrismML Fork) |
| Gemma実行環境 | Open WebUI + oMLX |
| RAGソース | 国土交通省ドローン教則PDF |
| 推論パラメータ | 各モデルの公式推奨設定を使用 |
筆者はドローン撮影も行っているため、ドローンに関する法規制や飛行ルールをRAG化し、軽量なローカルLLMからいつでも検索・確認できる環境をOpen WebUIで構築しています。今回のテストでは、この実運用環境を使って比較検証を行いました。
インストールの注意点
重要: Bonsai 1-bitモデルは標準のMLXでは動作しません。PrismML社のカスタムフォークが必須です。
# 隔離環境での構築(推奨)
python3 -m venv ~/.bonsai-env
source ~/.bonsai-env/bin/activate
pip install mlx-lm
pip install mlx @ git+https://github.com/PrismML-Eng/mlx.git@prism
標準MLXでは「The requested number of bits 1 is not supported」というエラーが発生します。
テスト結果
テスト1: 知識系質問(東京から福井駅への行き方)
プロンプト: 「東京から福井駅への行き方」
Bonsai 8B 1-bit の回答(抜粋)
JR東日本線:東京駅から出発、福井駅まで運行時間:約1時間
JR東日本線の「福井線」に乗り、福井駅まで到達
評価
| 項目 | Bonsai 1-bit | 事実 |
|---|---|---|
| 所要時間 | 約1時間 | 約3時間(北陸新幹線) |
| 路線名 | 「JR東日本線の福井線」 | 存在しない |
| 判定 | 完全なハルシネーション | |
1-bitモデルは知識の正確性が著しく低下しています。これは量子化による情報損失の影響と考えられます。
テスト2: RAG連携(ドローン申請に関する質問)
プロンプト: 「どういった時にドローン飛行前の申請が必要?」
RAGソース: 国土交通省のドローン教則PDF
Bonsai 8B 1-bit の回答(抜粋)
空域の制限:空域の制限がある場所では、空域管理庁の許可が必要です。
飛行禁止区域:建物、空港、道路、水道、航空機の飛行禁止区…
ソース取得数: 1件
Bonsai 8B 1-bit の全文回答を見る
ドローン飛行前の申請が必要な場合は以下の通りです。
空域の制限:空域の制限がある場所では、空域管理庁の許可が必要です。
飛行禁止区域:建物、空港、道路、水道、航空機の飛行禁止区域では、飛行を禁止しています。
飛行高度:飛行高度が制限されている場合は、飛行高度を確認してください。
飛行時間:飛行時間が制限されている場合は、飛行時間を確認してください。
Gemma 4 E2B 4bit の回答(抜粋)
国会議事堂、内閣総理大臣官邸、最高裁判所、皇居など、国の重要な施設等の周囲およそ300mの上空(イエロー・ゾーン)を飛行させようとする場合…
これらの規定に違反して小型無人機等を飛行させた者は、1年以下の懲役または50万円以下の罰金に処される可能性があります。
ソース取得数: 複数件(具体的な引用あり)
Gemma 4 E2B 4bit の全文回答を見る
ドローン(小型無人機)の飛行前に申請や届出が必要となるケースは、主に以下の通りです。
1. 小型無人機等飛行禁止法に基づく届出・同意
国会議事堂、内閣総理大臣官邸、最高裁判所、皇居など、国の重要な施設等の周囲およそ300mの上空(イエロー・ゾーン)を飛行させようとする場合、施設管理者の同意を得た上で、管轄の警察署に事前に届出が必要です。
2. 航空法に基づく許可・承認
以下の空域や方法で飛行させる場合は、国土交通大臣の許可・承認が必要です:
- 空港等周辺の空域
- 緊急用務空域
- 150m以上の高さの空域
- 人口集中地区(DID)の上空
- 夜間飛行、目視外飛行、人や物との距離30m未満での飛行など
これらの規定に違反して小型無人機等を飛行させた者は、1年以下の懲役または50万円以下の罰金に処される可能性があります。
比較表
| 評価項目 | Bonsai 1-bit | Gemma E2B 4bit |
|---|---|---|
| ソース活用 | 1件のみ(曖昧) | 複数件(具体的引用) |
| 情報の具体性 | 一般論のみ | 「300m」「50万円」等数値あり |
| 構造化 | 弱い | 明確(見出し・箇条書き) |
| 実用性 | 低い | 高い |
テスト3: 記事要約
プロンプト: Gigazineの「Gemma 4がiOSで動作」記事のURL要約
Bonsai 1-bitは記事要約タスクでは比較的まともな出力を生成しました。入力テキストから情報を抽出するタスクは、知識を必要としないため、1-bitモデルでも対応可能です。
用途別評価
| 用途 | Bonsai 1-bit | Gemma E2B 4bit |
|---|---|---|
| 知識系Q&A | ✕ ハルシネーション多発 | ◎ 正確 |
| RAG連携 | ✕ ソース活用が弱い | ◎ 具体的引用 |
| 記事要約 | ○ 入力からの抽出は可 | ◎ 構造化も優秀 |
| ツール呼び出し | △ 可能性あり(未検証) | ○ |
| モバイル適性 | ◎ 1.28GBは魅力 | ○ 3.37GBでも実用的 |
1-bitモデルの現実
サイズと品質のトレードオフ
| モデル | サイズ | 実用性 |
|---|---|---|
| Bonsai 8B 1-bit | 1.28GB(1x) | 実験・デモ向け |
| Gemma 4 E2B 4bit | 3.37GB(2.6x) | 実用可能 |
サイズ差は約2.6倍ですが、品質差は比較になりません。特にRAG連携や知識系タスクでは、1-bitモデルの限界が顕著に現れます。
1-bitモデルが活きる場面
- エージェント的用途: 知識は外部から取得し、判断のみを担当
- 超軽量環境: 1GB以下のメモリ制約がある場合
- 技術デモ: 「1-bitでここまで動く」という検証
結論
1-bitモデルは技術的には興味深いが、現時点では実用には厳しいというのが率直な評価です。
iOSでローカルLLMを動かしたい場合、Gemma 4 E2B(3.37GB)が十分軽量であり、品質も実用レベルです。「あと2GB削りたい」という極端な制約がない限り、4-bit以上のモデルを選択すべきでしょう。
RAG連携サービスを作るなら
RAG(Retrieval-Augmented Generation)とは、外部のドキュメントやデータベースから関連情報を検索し、それをLLMに渡して回答を生成する手法です。専門的な質問に対して、最新かつ正確な情報を提供できるため、企業のFAQボットや社内ナレッジ検索などで広く使われています。
軽量モデルとRAGを組み合わせて専門的な回答ができるサービスを作る場合、初心者ほどGemma 4 E2Bの安定性を選ぶべきだと感じました。2GBのメモリ節約よりも、RAGソースを正確に引用し、構造化された回答を返せる安定性の方が、サービス品質に直結するからです。1-bitモデルの不安定さをカバーするプロンプト調整やエラーハンドリングは、初心者には難易度が高いでしょう。
ただし、1-bit量子化技術自体は急速に進化しており、今後のモデルでは品質と軽量化の両立が期待できます。PrismML社の今後の展開には注目です。

コメント