LLMの量子化がもたらす「アライメントの崩壊」

LLM(大規模言語モデル)をクラウドやエッジ環境で実運用する際、推論コストやメモリ使用量を削減するための「量子化」は欠かせない技術です。しかし、実社会のハイステークスな領域への適用が進むにつれ、量子化がハルシネーションや社会的バイアスを増幅させるという懸念が強まっています。
従来のモデル圧縮に関する研究は、パープレキシティや一般的な正答率のようなマクロな「集約的品質指標」に頼ってきたため、圧縮の度合いに応じて突然発生する致命的な安全性の低下を見逃してしまう限界がありました。LLMの社会的バイアスには、有害なテキストを生成する「退化による害(degeneration harm)」と、特定の集団に対するステレオタイプを補強する「表現上の害(representational harm)」があります。本記事では、QAタスクなどにおいて特定の層が不利益を被る後者の害に焦点を当てます。
Transformerの量子化では、注意機構(Attention)の計算に不可欠な「構造化外れ値(structured outliers)」と呼ばれる一部の極端な値の精度が落ちてしまいます。これが、モデルの微妙なニュアンスを判断する能力を劣化させる原因として考えられています。この記事では、量子化がもたらす見えない「アライメントの崩壊」の実態を詳しく解説します。
1. 実験のセットアップ
この研究では、量子化がLLMの安全性(アライメント)にどのような影響を与えるかを厳密に測定するため、以下のような実験環境が構築されています。
評価対象のモデル
まず、すでに指示チューニング(人間が意図する安全な振る舞いや指示に従うための調整)が施された、アーキテクチャの異なる3つのモデルが選定されています。
- Qwen2.5-7B-Instruct
- Mistral-7B-Instruct-v0.3
- Phi-3.5-Mini-Instruct
ここでパラメータ数の少ない Phi-3.5(3.8B)を含めているのは、小規模なモデルが圧縮に対してどのような脆弱性を示すかを検証する狙いがあります。ただし、パラメータ数の違い自体が結果に影響を与える交絡因子となる可能性も考慮して分析を進めます。
量子化の条件
実運用でよく用いられる手法を再現するため、「MLX」フレームワークを利用し、Weight-only(重みのみ)量子化、グループサイズ64という設定が採用されています。精度については、圧縮なしのベースラインであるBF16から、8-bit、6-bit、4-bit、そして極端な圧縮である3-bitまでの5段階を用意し、圧縮の度合いによる段階的な変化を追跡しています。
評価データセットの工夫
評価には、質問応答におけるバイアスを測るベンチマーク「BBQ (Bias Benchmark for Question Answering)」が使用されました。 ここで非常に重要なのが、テストデータの中から「ambiguous condition(曖昧な条件)」のアイテムのみを抽出している点です。これは、提示された文脈だけでは正解の属性を特定できないように作られた問題です。 十分に安全性が調整されたモデルであれば、このような質問には「わからない(unknown / cannot be determined)」と答えるべきです。つまり、「わからない」と答えずに特定の属性を選んでしまった場合、モデルが文脈ではなく「事前のステレオタイプ(偏見)」に依存して回答したことを直接的に示すよう設計されています。
推論パラメータと複数回サンプリング
推論時のパラメータは、temperature=0.3、max_tokens=5に設定され、1つの質問(アイテム)につき5つの異なるシード値を用いて回答が生成されました。 ベンチマーク評価では毎回同じ回答を返す貪欲復号(temperature=0)が使われることも多いですが、あえて0.3としたのには理由があります。ある程度の揺らぎ(サンプリング分散)を許容しつつ同じ質問を5回繰り返すことで、「たまたま間違えた」のか、それとも「量子化によってそのアイテムへの回答が一貫して偏るようになった」のかを正確に見極めるためです。
2. 評価指標とメカニズム
偏見と不確実性を測る2つの指標
この研究では、モデルの偏見と不確実性を定量的に測るために、主に以下の2つの指標を用いて検証が進められています。
- ステレオタイプ依存スコア (SRS: Stereotype Reliance Score) モデルの有効な回答のうち、ステレオタイプな(偏見に基づく)選択肢を選んだ割合を示します。数式では、
$$\text{SRS} = \frac{n_{\text{stereotype}}}{n_{\text{valid}}}$$
と定義されます。曖昧な質問に対して完全に調整されたモデルであればスコアは\(0\)になりますが、当てずっぽう(ランダムゲス)で回答した場合は約\(0.333\)となります。 - 不明選択率 (USR: Unknown Selection Rate) モデルの有効な回答のうち、「わからない(情報不足で判定できない)」という選択肢を正しく選んだ割合を示します。数式では
$$\text{USR} = \frac{n_{\text{unknown}}}{n_{\text{valid}}}$$
と定義されます。適切にキャリブレーション(調整)された安全なモデルであれば、この値は\(1.0\)に近づくべきです。
また、圧縮前後のモデルの振る舞いを比較するため、統計的検定には \(2 \times 2\) の分割表を用いたカイ二乗検定を実施しています。さらに、量子化が与える影響の大きさ(効果量)を測る指標として「Cohen’s \(h\)」を採用しています。
偏見増幅のメカニズム
では、なぜ量子化を実施するとモデルの偏見が増幅するのでしょうか。その答えは、モデルの「不確実性を認識する能力」の欠如にあります。
実験の結果、3-bitに圧縮したモデルでは、平均のUSRが全体で\(17.4%\)(\(0.764\)から\(0.631\)へ)低下することが確認されました。これは、モデルが「わからない」と正直に回答する能力(論文内では「認識論的謙虚さ」と呼ばれます)が、量子化によって直接的に損なわれたことを示しています。
モデルが「わからない」と判断を保留できなくなると、曖昧な入力に直面した際、事前学習のコーパスに内在する強力な統計的推測に頼って回答を生成するようになります。事前学習データには様々なステレオタイプが含まれているため、モデルは結果として偏見に満ちた選択をしてしまいます。
つまり、モデル自身が圧縮によって突然「より強い偏見を持つようになった」わけではありません。事後学習(指示チューニング)によって獲得した「判断を保留する」という繊細な能力が破壊され、事前学習時のステレオタイプな事前分布がむき出しになってしまうのです。これこそが、量子化によって引き起こされるバイアス増幅の正体です。
3. 量子化によるバイアス増幅の実態
マクロな影響とカテゴリごとの差異
まず、モデル全体における偏見の強さ(SRS)と圧縮レベルの関係を見てみましょう。3-bitに圧縮して評価を実施した際、Mistral-7Bはランダムに回答した場合のベースライン(\(0.333\))を超過してしまいました。これは「わからない」と答えないだけでなく、積極的に偏見のある選択肢を選んでいることを意味します。一方で、Qwen2.5-7Bはすべての圧縮レベルでベースラインを下回っており、量子化に対して強い耐性を示しました。 また、5つのバイアスカテゴリのなかで全モデル共通して最も強い影響を受けたのは「社会経済的地位(SES: Socioeconomic Status)」でした。これは、事前学習のコーパスにSESに関するステレオタイプが深く埋め込まれているためだと考えられます。

遷移分析が暴く「新たな偏見の出現」
続いて、個々の質問(アイテム)ごとに圧縮前後の回答の変化を追跡する「遷移分析(Transition Analysis)」を実施しました。
- 学習済みパターンの無差別な破壊: フル精度(BF16)の時点では、SRSの分布はほぼ\(0.0\)か\(1.0\)の双峰性を示し、中途半端なバイアスを持つアイテムはほぼ存在しませんでした。このことから、圧縮がモデルの学習済みパターンを無差別に破壊していることがわかります。
- 新たな偏見の発生率: BF16では完全にバイアスがなかった(\(\text{SRS}=0.0\))アイテムのうち、3-bitへの圧縮によって新たにバイアスが生じた割合は、Phi-3.5で\(21.1%\)、Mistral-7Bで\(17.7%\)、Qwen2.5-7Bでも\(6.0%\)に達しました。
- 用量反応(Dose-Response)パターン: アイテムごとのSRS相対誤差は、ビット幅が減少するにつれて新しいバイアスが単調に出現する「用量反応パターン」を明確に示しています。ロジスティック回帰分析でも、ビット幅の係数(\(\beta_1 = -0.0205\))が算出され、ビット幅の減少(より強い圧縮)がステレオタイプへの依存確率を有意に高めることが統計的にも証明されています。
- 潜在的なバイアスの増幅: BF16の段階で既に「潜在的なバイアス(\(\text{SRS} \geq 0.2\))」を持っていたアイテムに絞って分析を進めると、効果量(Cohen’s \(h\))は全体分析時の\(0.179\)から\(0.742\)へと大幅に上昇しました。これは、元々脆弱なアイテムに対して圧縮がより致命的な影響を与えることを浮き彫りにしています。

品質評価の乖離
最後に、こうしたバイアスの出現が、従来の評価指標でどのように見えているかを確認します。
Mistral-7Bを3-bitに量子化した場合、言語モデルの一般的な性能指標であるパープレキシティ(Perplexity)の悪化はわずか\(10.2%\)に留まりました。しかし前述の通り、新たにバイアスが出現したアイテムの割合は\(17.7%\)にも上ります。 集約的な品質指標であるパープレキシティのわずかな変化の裏で、アイテムレベルでの公平性はすでに大きく崩れ始めています。論文内ではこのマクロな品質評価とアイテムレベルの公平性指標との間に「\(173\)倍」もの乖離があると指摘されており、従来の品質評価だけに頼ることの危険性を強く示唆しています。
| Model | BF16 PPL | Q8 (Δ%) | Q6 (Δ%) | Q4 (Δ%) | Q3 (Δ%) | Q3 New Biases |
|---|---|---|---|---|---|---|
| Qwen2.5-7B | 4.77 | 4.78 (+0.05%) | 4.79 (+0.40%) | 4.96 (+3.96%) | 6.09 (+27.5%) | 6.0% |
| Mistral-7B | 4.37 | 4.37 (+0.05%) | 4.39 (+0.44%) | 4.49 (+2.80%) | 4.82 (+10.2%) | 17.7% |
| Phi-3.5-mini | 4.44 | 4.43 (−0.18%) | 4.50 (+1.50%) | 4.90 (+10.5%) | 8.13 (+83.3%) | 21.1% |
4. 考察と研究の限界
ニュアンスとキャリブレーションの喪失
今回の実験結果から、アグレッシブな量子化はモデルのすべての能力に対して均一なノイズを乗せるわけではないことがわかります。むしろ、「情報が足りない」という微細なニュアンスの判断や、自らの不確実性を把握して判断を保留するキャリブレーション(認識論的謙虚さ)といった高度な能力から先に劣化させる性質を持っています。
モデルの圧縮耐性を決める要因
また興味深いことに、パラメータ数が同じ7BクラスのMistralとQwen2.5で、新たなバイアスの出現率に大きな差(\(17.7%\) 対 \(6.0%\))が生じました。これは、モデルの圧縮に対する耐性が単なるパラメータサイズだけでなく、ベースとなるアーキテクチャや事前学習データの構成、さらには事後学習(アライメント)の手法に強く依存していることを示唆しています。
本研究の限界と今後の課題
一方で、本研究にはいくつかの限界も存在し、今後の取り組みに向けた課題となっています。
- 量子化手法の限定: 今回は重みのみ(Weight-only)の量子化を対象としているため、今後はアクティベーションの量子化がもたらすノイズの影響も検証する必要があります。
- 未評価のカテゴリ: BBQベンチマークに用意された9つのバイアスカテゴリのうち、5つのみを評価しています。障害、国籍、身体的特徴、性的指向といった残りの4カテゴリについては未検証です。
- 評価指標の死角とサンプリング分散: 生成テキストのパース(構文解析)の失敗率が報告されていないため、集計データに選択バイアスが生じている可能性があります。また、本実験では
temperature=0.3に設定しましたが、このサンプリング分散による影響を完全に排除するため、今後の研究では貪欲復号(temperature=0)での検証が求められます。
5. 実務における対策と今後の展望
本研究の結果から、圧縮されたモデルを安全に実運用するためには、単にパープレキシティを測るだけでなく、開発プロセス全体の評価体系を見直す必要があることがわかります。LLMエンジニアが今後取り組むべき具体的な対策と展望を、3つの観点から整理します。
- 統合評価プロトコルの導入: 従来の平均SRSのような集約メトリクス(マクロな指標)に依存した評価だけでは不十分です。水面下で進む隠れた劣化を見抜くための「遷移分析(Transition Analysis)」や、モデルが不確実性を正しく表現できているかを測る「認識論的キャリブレーション(USRの測定)」を組み込む必要があります。さらに、複数シードを用いた「一貫性分析」を実施することで、ランダムな揺らぎと構造的な劣化を区別する包括的な評価が必須となります。
- 品質認識型混合精度量子化の活用: 3-bit量子化によるメモリ削減の恩恵を最大限に得つつ、バイアスの出現を防ぐ新たなアプローチが「混合精度量子化(Mixed-Precision Quantization)」です。モデル内のすべての重みを一律に圧縮するのではなく、認識論的キャリブレーション(「わからない」と判断する能力)に関わる重要なパラメータグループを特定し、そこだけを高精度で保持する戦略が有効だと考えられています。
- 圧縮認識型アライメントの実施: 現在のSFT(教師あり微調整)やRLHFといった事後学習は、フル精度で稼働することを前提に進められており、これがアライメント層の脆弱性を生んでいます。これを克服するため、事後学習のフェーズであらかじめ量子化ノイズをシミュレートして導入するアプローチ(QATに似た手法)が提案されています。また、圧縮が完了したモデルに対して、曖昧なプロンプトを用いた少量のデータで事後チューニングを実施し、失われたキャリブレーション能力を効率的に回復させる手法も今後の有望な選択肢です。
推論コストの削減だけでなく、「公平性」や「安全性」を量子化アルゴリズムの第一級の目的として扱うことが、今後のAIシステムにおける信頼性担保の鍵となります。
おわりに
本記事で見てきたように、LLMの量子化による影響は「全体的な性能の一様な低下」ではありません。事後学習によってモデルが獲得したアライメント(安全性や不確実性の認識)を選択的に破壊するという事態をもたらします。
パープレキシティのようなマクロな精度指標のみに依存して評価を進めると、「圧縮後のモデルも元のフル精度モデルと行動面で等価である」という誤った保証を与える危険性があります。
今後、実際のシステムをデプロイするにあたっては、推論コスト削減や高速化のメリットと、それに伴う安全性低下のトレードオフを正確に把握しなければなりません。実運用を成功させる鍵は、偏見や安全性に特化した統合評価プロトコルを導入し、圧縮による見えない劣化を適切に管理していくことにあります。
More Information
- arXiv:2605.15208, Plawan Kumar Rath, Rahul Maliakkal, 「Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels」, https://arxiv.org/abs/2605.15208