1-bitモデルは実用的か？Bonsai 8B vs Gemma 4 E2B をRAG連携で徹底比較

はじめに

ローカルLLMの世界で、モデルサイズの小型化は常に重要なテーマです。特にiOSやメモリ制約のあるデバイスでは、モデルサイズが実用性を左右します。

今回は、1-bit量子化という極端なアプローチで話題のBonsai 8B（1.28GB）と、実績あるGemma 4 E2B（3.37GB）を、RAG連携タスクで比較検証しました。

結論を先に言うと、サイズ差は約2.6倍だが、実用性ではGemma 4 E2Bが圧勝という結果になりました。

モデル概要

項目	Bonsai 8B 1-bit	Gemma 4 E2B 4bit
パラメータ	8.19B	4B
サイズ	1.28GB	3.37GB
量子化	1-bit g128	4-bit
圧縮率	FP16比 12.8x	FP16比 4x
公称ベンチマーク	70.5	–

1-bitモデルとは？

通常の量子化は4-bit（16段階）や8-bit（256段階）で重みを表現しますが、1-bitモデルは重みを2段階（-1と+1）のみで表現します。これにより劇的なサイズ削減が可能ですが、情報の損失も大きくなります。

Bonsai 8Bは、PrismML社がこの技術を実用レベルまで引き上げたモデルで、8Bパラメータながらわずか1.28GBという驚異的なサイズを実現しています。

テスト環境

項目	詳細
マシン	Mac (Apple Silicon M1 Max, 64GB RAM)
Bonsai実行環境	カスタムMLX（PrismML Fork）
Gemma実行環境	Open WebUI + oMLX
RAGソース	国土交通省ドローン教則PDF
推論パラメータ	各モデルの公式推奨設定を使用

筆者はドローン撮影も行っているため、ドローンに関する法規制や飛行ルールをRAG化し、軽量なローカルLLMからいつでも検索・確認できる環境をOpen WebUIで構築しています。今回のテストでは、この実運用環境を使って比較検証を行いました。

インストールの注意点

重要: Bonsai 1-bitモデルは標準のMLXでは動作しません。PrismML社のカスタムフォークが必須です。

# 隔離環境での構築（推奨）
python3 -m venv ~/.bonsai-env
source ~/.bonsai-env/bin/activate
pip install mlx-lm
pip install mlx @ git+https://github.com/PrismML-Eng/mlx.git@prism

標準MLXでは「The requested number of bits 1 is not supported」というエラーが発生します。

テスト結果

テスト1: 知識系質問（東京から福井駅への行き方）

プロンプト: 「東京から福井駅への行き方」

Bonsai 8B 1-bit の回答（抜粋）

JR東日本線：東京駅から出発、福井駅まで運行時間：約1時間

JR東日本線の「福井線」に乗り、福井駅まで到達

評価

項目	Bonsai 1-bit	事実
所要時間	約1時間	約3時間（北陸新幹線）
路線名	「JR東日本線の福井線」	存在しない
判定	完全なハルシネーション

1-bitモデルは知識の正確性が著しく低下しています。これは量子化による情報損失の影響と考えられます。

テスト2: RAG連携（ドローン申請に関する質問）

プロンプト: 「どういった時にドローン飛行前の申請が必要？」

RAGソース: 国土交通省のドローン教則PDF

Bonsai 8B 1-bit の回答（抜粋）

空域の制限：空域の制限がある場所では、空域管理庁の許可が必要です。

飛行禁止区域：建物、空港、道路、水道、航空機の飛行禁止区…

ソース取得数: 1件

Bonsai 8B 1-bit の全文回答を見る

ドローン飛行前の申請が必要な場合は以下の通りです。

空域の制限：空域の制限がある場所では、空域管理庁の許可が必要です。

飛行禁止区域：建物、空港、道路、水道、航空機の飛行禁止区域では、飛行を禁止しています。

飛行高度：飛行高度が制限されている場合は、飛行高度を確認してください。

飛行時間：飛行時間が制限されている場合は、飛行時間を確認してください。

Gemma 4 E2B 4bit の回答（抜粋）

国会議事堂、内閣総理大臣官邸、最高裁判所、皇居など、国の重要な施設等の周囲およそ300mの上空（イエロー・ゾーン）を飛行させようとする場合…

これらの規定に違反して小型無人機等を飛行させた者は、1年以下の懲役または50万円以下の罰金に処される可能性があります。

ソース取得数: 複数件（具体的な引用あり）

Gemma 4 E2B 4bit の全文回答を見る

ドローン（小型無人機）の飛行前に申請や届出が必要となるケースは、主に以下の通りです。

1. 小型無人機等飛行禁止法に基づく届出・同意

国会議事堂、内閣総理大臣官邸、最高裁判所、皇居など、国の重要な施設等の周囲およそ300mの上空（イエロー・ゾーン）を飛行させようとする場合、施設管理者の同意を得た上で、管轄の警察署に事前に届出が必要です。

2. 航空法に基づく許可・承認

以下の空域や方法で飛行させる場合は、国土交通大臣の許可・承認が必要です：

空港等周辺の空域

緊急用務空域

150m以上の高さの空域

人口集中地区（DID）の上空

夜間飛行、目視外飛行、人や物との距離30m未満での飛行など

これらの規定に違反して小型無人機等を飛行させた者は、1年以下の懲役または50万円以下の罰金に処される可能性があります。

比較表

評価項目	Bonsai 1-bit	Gemma E2B 4bit
ソース活用	1件のみ（曖昧）	複数件（具体的引用）
情報の具体性	一般論のみ	「300m」「50万円」等数値あり
構造化	弱い	明確（見出し・箇条書き）
実用性	低い	高い

テスト3: 記事要約

プロンプト: Gigazineの「Gemma 4がiOSで動作」記事のURL要約

Bonsai 1-bitは記事要約タスクでは比較的まともな出力を生成しました。入力テキストから情報を抽出するタスクは、知識を必要としないため、1-bitモデルでも対応可能です。

用途別評価

用途	Bonsai 1-bit	Gemma E2B 4bit
知識系Q&A	✕ ハルシネーション多発	◎ 正確
RAG連携	✕ ソース活用が弱い	◎ 具体的引用
記事要約	○ 入力からの抽出は可	◎ 構造化も優秀
ツール呼び出し	△ 可能性あり（未検証）	○
モバイル適性	◎ 1.28GBは魅力	○ 3.37GBでも実用的

1-bitモデルの現実

サイズと品質のトレードオフ

モデル	サイズ	実用性
Bonsai 8B 1-bit	1.28GB（1x）	実験・デモ向け
Gemma 4 E2B 4bit	3.37GB（2.6x）	実用可能

サイズ差は約2.6倍ですが、品質差は比較になりません。特にRAG連携や知識系タスクでは、1-bitモデルの限界が顕著に現れます。

1-bitモデルが活きる場面

エージェント的用途: 知識は外部から取得し、判断のみを担当
超軽量環境: 1GB以下のメモリ制約がある場合
技術デモ: 「1-bitでここまで動く」という検証

結論

1-bitモデルは技術的には興味深いが、現時点では実用には厳しいというのが率直な評価です。

iOSでローカルLLMを動かしたい場合、Gemma 4 E2B（3.37GB）が十分軽量であり、品質も実用レベルです。「あと2GB削りたい」という極端な制約がない限り、4-bit以上のモデルを選択すべきでしょう。

RAG連携サービスを作るなら

RAG（Retrieval-Augmented Generation）とは、外部のドキュメントやデータベースから関連情報を検索し、それをLLMに渡して回答を生成する手法です。専門的な質問に対して、最新かつ正確な情報を提供できるため、企業のFAQボットや社内ナレッジ検索などで広く使われています。

軽量モデルとRAGを組み合わせて専門的な回答ができるサービスを作る場合、初心者ほどGemma 4 E2Bの安定性を選ぶべきだと感じました。2GBのメモリ節約よりも、RAGソースを正確に引用し、構造化された回答を返せる安定性の方が、サービス品質に直結するからです。1-bitモデルの不安定さをカバーするプロンプト調整やエラーハンドリングは、初心者には難易度が高いでしょう。

ただし、1-bit量子化技術自体は急速に進化しており、今後のモデルでは品質と軽量化の両立が期待できます。PrismML社の今後の展開には注目です。