1-bitモデルは実用的か?Bonsai 8B vs Gemma 4 E2B をRAG連携で徹底比較

AI活用

はじめに

ローカルLLMの世界で、モデルサイズの小型化は常に重要なテーマです。特にiOSやメモリ制約のあるデバイスでは、モデルサイズが実用性を左右します。

今回は、1-bit量子化という極端なアプローチで話題のBonsai 8B(1.28GB)と、実績あるGemma 4 E2B(3.37GB)を、RAG連携タスクで比較検証しました。

結論を先に言うと、サイズ差は約2.6倍だが、実用性ではGemma 4 E2Bが圧勝という結果になりました。

モデル概要

項目 Bonsai 8B 1-bit Gemma 4 E2B 4bit
パラメータ 8.19B 4B
サイズ 1.28GB 3.37GB
量子化 1-bit g128 4-bit
圧縮率 FP16比 12.8x FP16比 4x
公称ベンチマーク 70.5

1-bitモデルとは?

通常の量子化は4-bit(16段階)や8-bit(256段階)で重みを表現しますが、1-bitモデルは重みを2段階(-1と+1)のみで表現します。これにより劇的なサイズ削減が可能ですが、情報の損失も大きくなります。

Bonsai 8Bは、PrismML社がこの技術を実用レベルまで引き上げたモデルで、8Bパラメータながらわずか1.28GBという驚異的なサイズを実現しています。

テスト環境

項目 詳細
マシン Mac (Apple Silicon M1 Max, 64GB RAM)
Bonsai実行環境 カスタムMLX(PrismML Fork)
Gemma実行環境 Open WebUI + oMLX
RAGソース 国土交通省ドローン教則PDF
推論パラメータ 各モデルの公式推奨設定を使用

筆者はドローン撮影も行っているため、ドローンに関する法規制や飛行ルールをRAG化し、軽量なローカルLLMからいつでも検索・確認できる環境をOpen WebUIで構築しています。今回のテストでは、この実運用環境を使って比較検証を行いました。

インストールの注意点

重要: Bonsai 1-bitモデルは標準のMLXでは動作しません。PrismML社のカスタムフォークが必須です。

# 隔離環境での構築(推奨)
python3 -m venv ~/.bonsai-env
source ~/.bonsai-env/bin/activate
pip install mlx-lm
pip install mlx @ git+https://github.com/PrismML-Eng/mlx.git@prism

標準MLXでは「The requested number of bits 1 is not supported」というエラーが発生します。

テスト結果

テスト1: 知識系質問(東京から福井駅への行き方)

プロンプト: 「東京から福井駅への行き方」

Bonsai 8B 1-bit の回答(抜粋)

JR東日本線:東京駅から出発、福井駅まで運行時間:約1時間

JR東日本線の「福井線」に乗り、福井駅まで到達

評価

項目 Bonsai 1-bit 事実
所要時間 約1時間 約3時間(北陸新幹線)
路線名 「JR東日本線の福井線」 存在しない
判定 完全なハルシネーション

1-bitモデルは知識の正確性が著しく低下しています。これは量子化による情報損失の影響と考えられます。

テスト2: RAG連携(ドローン申請に関する質問)

プロンプト: 「どういった時にドローン飛行前の申請が必要?」

RAGソース: 国土交通省のドローン教則PDF

Bonsai 8B 1-bit の回答(抜粋)

空域の制限:空域の制限がある場所では、空域管理庁の許可が必要です。

飛行禁止区域:建物、空港、道路、水道、航空機の飛行禁止区…

ソース取得数: 1件

Bonsai 8B 1-bit の全文回答を見る

ドローン飛行前の申請が必要な場合は以下の通りです。

空域の制限:空域の制限がある場所では、空域管理庁の許可が必要です。

飛行禁止区域:建物、空港、道路、水道、航空機の飛行禁止区域では、飛行を禁止しています。

飛行高度:飛行高度が制限されている場合は、飛行高度を確認してください。

飛行時間:飛行時間が制限されている場合は、飛行時間を確認してください。

Gemma 4 E2B 4bit の回答(抜粋)

国会議事堂、内閣総理大臣官邸、最高裁判所、皇居など、国の重要な施設等の周囲およそ300mの上空(イエロー・ゾーン)を飛行させようとする場合…

これらの規定に違反して小型無人機等を飛行させた者は、1年以下の懲役または50万円以下の罰金に処される可能性があります。

ソース取得数: 複数件(具体的な引用あり)

Gemma 4 E2B 4bit の全文回答を見る

ドローン(小型無人機)の飛行前に申請や届出が必要となるケースは、主に以下の通りです。

1. 小型無人機等飛行禁止法に基づく届出・同意

国会議事堂、内閣総理大臣官邸、最高裁判所、皇居など、国の重要な施設等の周囲およそ300mの上空(イエロー・ゾーン)を飛行させようとする場合、施設管理者の同意を得た上で、管轄の警察署に事前に届出が必要です。

2. 航空法に基づく許可・承認

以下の空域や方法で飛行させる場合は、国土交通大臣の許可・承認が必要です:

  • 空港等周辺の空域
  • 緊急用務空域
  • 150m以上の高さの空域
  • 人口集中地区(DID)の上空
  • 夜間飛行、目視外飛行、人や物との距離30m未満での飛行など

これらの規定に違反して小型無人機等を飛行させた者は、1年以下の懲役または50万円以下の罰金に処される可能性があります。

比較表

評価項目 Bonsai 1-bit Gemma E2B 4bit
ソース活用 1件のみ(曖昧) 複数件(具体的引用)
情報の具体性 一般論のみ 「300m」「50万円」等数値あり
構造化 弱い 明確(見出し・箇条書き)
実用性 低い 高い

テスト3: 記事要約

プロンプト: Gigazineの「Gemma 4がiOSで動作」記事のURL要約

Bonsai 1-bitは記事要約タスクでは比較的まともな出力を生成しました。入力テキストから情報を抽出するタスクは、知識を必要としないため、1-bitモデルでも対応可能です。

用途別評価

用途 Bonsai 1-bit Gemma E2B 4bit
知識系Q&A ✕ ハルシネーション多発 ◎ 正確
RAG連携 ✕ ソース活用が弱い ◎ 具体的引用
記事要約 ○ 入力からの抽出は可 ◎ 構造化も優秀
ツール呼び出し △ 可能性あり(未検証)
モバイル適性 ◎ 1.28GBは魅力 ○ 3.37GBでも実用的

1-bitモデルの現実

サイズと品質のトレードオフ

モデル サイズ 実用性
Bonsai 8B 1-bit 1.28GB(1x) 実験・デモ向け
Gemma 4 E2B 4bit 3.37GB(2.6x) 実用可能

サイズ差は約2.6倍ですが、品質差は比較になりません。特にRAG連携や知識系タスクでは、1-bitモデルの限界が顕著に現れます。

1-bitモデルが活きる場面

  • エージェント的用途: 知識は外部から取得し、判断のみを担当
  • 超軽量環境: 1GB以下のメモリ制約がある場合
  • 技術デモ: 「1-bitでここまで動く」という検証

結論

1-bitモデルは技術的には興味深いが、現時点では実用には厳しいというのが率直な評価です。

iOSでローカルLLMを動かしたい場合、Gemma 4 E2B(3.37GB)が十分軽量であり、品質も実用レベルです。「あと2GB削りたい」という極端な制約がない限り、4-bit以上のモデルを選択すべきでしょう。

RAG連携サービスを作るなら

RAG(Retrieval-Augmented Generation)とは、外部のドキュメントやデータベースから関連情報を検索し、それをLLMに渡して回答を生成する手法です。専門的な質問に対して、最新かつ正確な情報を提供できるため、企業のFAQボットや社内ナレッジ検索などで広く使われています。

軽量モデルとRAGを組み合わせて専門的な回答ができるサービスを作る場合、初心者ほどGemma 4 E2Bの安定性を選ぶべきだと感じました。2GBのメモリ節約よりも、RAGソースを正確に引用し、構造化された回答を返せる安定性の方が、サービス品質に直結するからです。1-bitモデルの不安定さをカバーするプロンプト調整やエラーハンドリングは、初心者には難易度が高いでしょう。

ただし、1-bit量子化技術自体は急速に進化しており、今後のモデルでは品質と軽量化の両立が期待できます。PrismML社の今後の展開には注目です。

参考リンク

コメント

タイトルとURLをコピーしました