SaluNet: ディープラーニングに正規化は必要なのか？

ディープラーニングモデルの学習を安定させる上で、Batch Normalization (バッチ正規化) や Layer Normalization (レイヤー正規化) といった正規化層は、長らく不可欠な技術とされてきました。しかし、安定化の代償として、これらの正規化がネットワーク本来の柔軟な学習能力を制限してしまうというジレンマも指摘されています。

今回紹介する論文「SaluNet」は、この常識を根本から覆す新しいアプローチを提案しています。SaluNetは正規化層を完全に排除し、内在的な安定性を備えた新しい活性化関数 SALU (Saturated Adaptive Linear Unit) を採用しています。これにより、正規化に頼ることなく信号の伝播を安定させつつ、ネットワーク全体が適応的に変化する Total Plasticity (完全可塑性) という高い表現力の両立を実現しました。

本記事では、SaluNetがどのようにして正規化なしで学習を安定させるのか、その数理的なメカニズムからネットワーク全体の動態、そして実践的な実装のポイントまでを詳細に解説します。

1. 正規化が抱えるジレンマ

可塑性の抑制（Plasticity suppression effect）

ディープラーニングにおいて、バッチ正規化などの正規化層は学習の安定化に大きく貢献してきました。しかしSaluNetの論文では、正規化層が活性化関数の学習能力を抑え込んでしまう「可塑性の抑制（Plasticity suppression effect）」という重大な課題を指摘しています。

論文内の実験では、学習可能なパラメータ（傾き $\alpha$）を持つ活性化関数であるPReLUを用いて、この現象を視覚的に示しています。具体的には、バッチ正規化を適用せずに学習を進めると、パラメータ $\alpha$ は際限なく変動を続けてしまいます（発散）。一方で、バッチ正規化を適用した場合、今度は$\alpha$ が急激に狭い範囲に収束してしまい、ネットワークの状況に応じた適応的な変化を失ってしまいます。つまり、正規化による「安定」は、活性化関数から「柔軟な表現力」を奪うことで成り立っていたのです。

活性化関数に求められる4つの基本要件

このジレンマを解消し、バッチサイズなどの外部統計量に依存することなく「学習の安定化」と「高い表現力」を両立するためには、活性化関数自身が以下の4つの基本要件を満たす必要があると論文は提唱しています。

有界性 (Boundedness): 信号が際限なく増幅するのを防ぐ仕組みを持つこと。
学習可能性 (Learnability): 学習を通じて、柔軟に適応・変化できること。
状態非依存性 (Statelessness): バッチごとの統計量などに依存しないこと。
自己完結的安定化 (Self-contained stabilization): $\gamma$ や $\beta$ といった、正規化のための外部パラメータを持たずに安定化できること。

これらを満たした上で、先の実験においてSALUを用いた場合は、発散と収束の両極端に陥ることなく、安定性を保ちながらも適応的にパラメータが変動し続けることが確認されています。次章では、これら様々な要件を満たすために考案されたSALUの仕組みについて掘り下げていきます。

2. SALUの数学的定義と自己安定化メカニズム

前章で触れた4つの要件を満たすため、論文では正規化層を完全に置き換える新しい活性化関数 SALU (Saturated Adaptive Linear Unit) を提案しています。本章では、SALUがどのようにして外部の助けを借りずに自己安定化を実施するのか、その数学的なメカニズムを紐解いていきます。

SALUの定義とパラメータの役割

SALUは、以下の数式で定義されます。

$$ \text{SALU}(x; a, b) = \frac{ax}{\sqrt{1 + abx^2}} \quad (a > 0, b > 0) $$

この式には、学習を通じて最適化される2つのパラメータ、$a$ と $b$ が含まれています。それぞれの役割は非常に直感的です。

局所的なゲイン ($a$): 原点付近での直線の傾き（反応の強さ）を決定します。
飽和振幅 ($\pm\sqrt{a/b}$): 出力信号がとりうる最大値と最小値を制限し、信号の暴走を防ぐ仕組みです。
線形領域の幅 ($1/\sqrt{ab}$): 入力がそのまま通過する（線形に振る舞う）範囲をコントロールします。

このように、SALUはパラメータによって自分自身の形（幾何学）を柔軟に変化させる能力を持っています。

多項式減衰と勾配伝播

ディープラーニングの学習において、勾配（学習のシグナル）が消えてしまう「勾配消失」は大きな課題です。tanhやsigmoidといった従来の活性化関数は、入力が大きくなると勾配が「指数関数的」に急激に減少してしまいます。

一方で、SALUの導関数は $|x|^{-3}$ に比例する「多項式減衰」を示します。この緩やかな減衰のおかげで、入力が様々な範囲（Dynamic Range; ダイナミックレンジ）に及んだとしても勾配が消失しにくく、学習のシグナルがネットワークの奥深くまでしっかりと伝播します。

自己調節勾配特性

さらに興味深いのは、SALUが自身の状態に応じて勾配を自律的に調整するメカニズムを備えている点です。SALUの導関数は、以下のように変形できます。

$$ \text{SALU}'(x) = \left(\frac{SALU(x)}{x}\right)^3 \cdot \frac{1}{a^2} $$

この式は、活性化関数が飽和（出力が限界に近づく）すると、それ自体が直接的に勾配の大きさを制限することを示しています。つまり、外部からの制御がなくても、ネットワークが自動的に過剰な学習を抑える仕組みになっているのです。

独立したLipschitz（リプシッツ）定数

学習の安定性を語る上で、関数がどれくらい急激に変化するかを示す Lipschitz (リプシッツ) 定数 は重要な指標となります。

SALUの最大の特徴の一つは、このLipschitz定数がパラメータ $a$ のみに依存し、出力の限界値である飽和振幅（$\sqrt{a/b}$）からは完全に独立している点です。これにより、ネットワークが表現力を高めるために振幅を大きく広げたとしても、勾配が過剰に増幅されることがなく、常に安定して最適化を進めることができます。

分布シフトへの幾何学的適応

通常、バッチ正規化やその他の代替手法（DyTやDerfなど）は、入力データの分布が変化した際に対処するため、データを中央に寄せ直す $\gamma$ や $\beta$ といったアフィンパラメータ（外部パラメータ）を必要とします。

しかし、SALUはそのような外部パラメータを一切持ちません。データの分布がシフトした場合、SALUは自身が持つ $a$ と $b$ を調整することで、活性化関数の形そのものを変化させる「幾何学的な適応」によってのみ対処します。これにより、バッチサイズなどの外部要因に振り回されることなく、一貫した性能を発揮できるのです。

次章では、このSALUを組み込んだネットワーク全体が、実際にどのような動態を示すのかを詳しく見ていきます。

3. ネットワークの動的解析

前章では、SALUという単一の活性化関数が持つ特性について確認しました。本章では、このSALUを多層のディープラーニングモデルに組み込んだ際、ネットワーク全体として信号がどのように伝播するのか（動的解析）を見ていきます。

順伝播における分散のバウンド

ネットワークの入力から出力へと信号が伝わる「順伝播（Forward Propagation）」において、信号のばらつき（分散）が層を追うごとにどう変化するかは、学習の安定性に直結します。

SALUは出力値が一定の範囲に収まる「有界性」を持っているため、ネットワークがどれほど深くなっても、次層の分散 $v_{\ell+1}$ は以下の範囲に収まることが数学的に証明されています。

$$ v_{\ell+1} \le \sigma_w^2 \frac{a_{\ell}}{b_{\ell}} $$

ここで、$\sigma_w^2$ は重みの分散、$\frac{a_{\ell}}{b_{\ell}}$ はSALUの飽和振幅の二乗です。この上限が存在するおかげで、正規化層がなくても信号が際限なく発散（爆発）してしまうのを確実に防ぐことができます。

有効伝播ゲインと「カオスの縁」

信号の分散が伝播する様子は、有効伝播ゲイン（$\chi_0 = \sigma_w^2 a_{\ell}^2$）という指標に支配されます。

一般的な活性化関数では、このゲインが $\chi_0 > 1$（増幅領域）になると信号が急激に発散してしまいます。しかし、SALUの場合は、信号が大きくなると自動的に飽和に向かう性質があるため、増幅領域であっても信号が暴走しません。結果として、ネットワークは表現力が高く、かつ安定性が保たれる「カオスの縁（Edge of chaos）」と呼ばれる理想的な境界領域で振る舞うことができます。

逆伝播における勾配増幅の制御

一方、出力から入力へ向かって誤差信号を伝える「逆伝播（Backward Propagation）」についても見てみましょう。論文における平均場近似（Mean-field approximation）を用いた解析では、逆伝播時の勾配がどれくらい増幅されるかは、学習可能なパラメータ $a_{\ell}$ によって直接的に制御されることが示されています。

$$ \left| \frac{\partial L}{\partial h_1} \right| \le \left( \prod_{\ell=1}^{L-1} a_\ell |W^\ell| \right) \left| \frac{\partial L}{\partial h_L} \right| $$

つまり、$a_{\ell}$ が各層における「勾配のバルブ」のような役割を果たします。これにより、勾配消失や勾配爆発といった問題を回避しながら、ネットワークの奥深くまで確実に学習シグナルを届けることが可能になります。

このように、SALUを組み込んだネットワークは、順伝播と逆伝播の双方において、外部の正規化に頼ることなく自律的に安定性を保つ仕組みを備えているのです。

4. Total Plasticity（完全可塑性）と派生アーキテクチャ

前章までは単一の活性化関数としてのSALUの特性を見てきました。しかし、現代のディープラーニングアーキテクチャでは、SwishやGELUといったゲート付き活性化関数が広く活用されています。本章では、SALUの自己安定化メカニズムをこれらの関数に応用し、ネットワーク全体の表現力を底上げするSaluNetの核となる概念について解説します。

SWALUとGALUへの拡張

SwishやGELUは、入力データに応じて信号の通過量を調整する「ゲート」の役割を持っています。従来、このゲートにはシグモイド関数やtanhといった固定の関数が用いられており、その形状（曲がり具合や飽和の仕方）はあらかじめ決められていました。

論文では、この固定されたゲート部分をSALUに置き換えることで、ゲートの形状自体を学習可能にする新しい活性化関数を提案しています。

SWALU (Swish Adaptive Learnable Unit): SwishのシグモイドゲートをSALUに置き換えたものであり、主に畳み込みニューラルネットワーク（CNN）で機能します。
$$\text{SWALU}(x) = \frac{x}{2} (1 + \text{SALU}(x; a, b))$$
GALU (Gaussian Adaptive Learnable Unit): GELUの近似式に含まれるtanhゲートをSALUに置き換えたものであり、主にTransformerアーキテクチャでの利用を想定しています。
$$\text{GALU}(x) = \frac{x}{2} \left(1 + \text{SALU}(\sqrt{\frac{2}{\pi}}(x + 0.044715 x^3); a, b)\right)$$

これにより、各層が自身の役割に応じて、緩やかな非線形性から鋭いスイッチングまで、様々なゲートの形状を自律的に獲得できるようになります。

リプシッツ境界の維持

ここで懸念されるのが、「複雑なゲート構造に学習パラメータを組み込むことで、学習が不安定にならないか」という点です。しかし数学的な解析により、SWALUやGALUに拡張した場合でも、SALUが持つ有界性のおかげでリプシッツ定数は常に有限に保たれることが証明されています。したがって、病的な勾配増幅を引き起こすことなく、安定して最適化を進めることができます。

Total Plasticity（完全可塑性）の意義

これまでのディープラーニングモデルは、「接続（重み）」のみが柔軟に学習可能であり、「安定化（正規化層）」や「ゲーティング（活性化関数）」の大部分は外部から押し付けられた固定のルールに従っていました。

SaluNetが提唱する Total Plasticity (完全可塑性) とは、これら信号伝播を司る3つの主要な要素すべてを学習可能にするというパラダイムシフトです。外部の統計量による正規化に頼るのではなく、ネットワーク自体が自身の接続、安定化、そしてゲーティングの仕組みをデータに合わせて適応的に変化させます。これはまさに、生物のニューロンが持つような柔軟な適応性を数学的に再現したアプローチだと言えます。

$$
L_{\text{SWALU}} \le \frac{1}{2}\left(1 + \sqrt{\frac{a}{b}} (1 + a) \right) \\
L_{\text{GALU}} \le \frac{1}{2} \left(1 + \sqrt{\frac{a}{b}} \right) + \frac{1}{2} \sqrt{\frac{a}{b}} a \sqrt{\frac{2}{\pi}} \left(1 + 0.134145 \frac{a}{b}\right)
$$

5. 学習動態と表現空間の幾何学

ここまで、SALUやSWALUといった活性化関数そのものの仕組みを見てきました。では、これらを組み込んだSaluNetは、学習を進める中でどのようにネットワーク全体を自己組織化していくのでしょうか。本章では、学習後のパラメータや表現空間の解析から見えてきた、3つの興味深い動態について解説します。

幾何学的階層化

学習後のSALUのパラメータ（$a, b$）を層ごとに観察すると、ネットワークの深さに応じて明確な役割分担が生じていることが分かります。

浅い層・ダウンサンプリング層: 信号の変動を抑えるため、狭い線形領域と強い圧縮（飽和）を働かせて伝播の安定化を優先します。
深い層: すでに信号が安定しているため、逆に広い線形領域を獲得し、特徴の表現力を最大化する役割を担います。

このように、ネットワークが自律的に「入り口は厳しく、奥は柔軟に」という幾何学的な階層構造を構築しているのです。

**図6. SaluNet-C-18（CIFAR-100）におけるSALU層の学習済みパラメータ**

SALUとSWALUの分業 (Division of Labor)

さらに興味深いのは、同一の層で隣接するSALUとSWALUの間で、相互に補完し合う関係性が確認された点です。

たとえば、SALUが強い圧縮を実施する層では、隣り合うSWALUは自身のゲーティングの働きを弱めます。逆に、深い層でSALUが圧縮を緩めると、今度はSWALUが適度なゲーティングを維持して表現の複雑さを保ちます。設計者がルールを決めなくても、学習を通じて自発的な「分業」が起きていることは、完全可塑性がもたらす柔軟な適応力の証と言えます。

次元崩壊の防止と自己正規化

ディープラーニングの深い層では、特徴量が似通ってしまい多様性が失われる「次元崩壊 (Dimensional Collapse)」という現象がしばしば問題になります。しかしSaluNetは、BatchNormを用いたモデルと比較して、表現の豊かさを示す Effective Rank (有効ランク) や、特徴空間の均等さを示す Isotropy (等方性) といった指標を深い層でも非常に高く維持し、この次元崩壊を効果的に防ぎます。

また、最終的な出力層における信号の分布を見ると、BatchNormを用いた場合は非対称に歪んでしまうのに対し、SaluNetは自然とガウス分布に近い対称な形に収束します。これは、外部から強制的に統計量を押し付けなくても、ネットワーク自身が活性化関数の幾何学的な形を調整することで、理想的な「自己正規化」を達成できることを示しています。

6. 性能評価とスケーラビリティ

ここまでSaluNetの理論的なメカニズムを解説してきましたが、実際のタスクにおいてどれほどの性能を発揮するのでしょうか。本章では、画像分類タスクにおける具体的な評価結果と、学習プロセスの安定性について見ていきます。

画像分類タスクにおける優れた性能
CIFAR-10およびCIFAR-100データセットを用いた実験において、ResNet-18をベースにした「SaluNet-C-18」は、正規化層を持たないにもかかわらず強力なベースラインを上回る結果を示しました。具体的には、timm A2などのBatchNormを用いたモデルや、他の正規化不要モデルであるNF-ResNetの精度を凌駕しています。さらに、大規模なImageNet-1Kデータセットを用いた「SaluNet-C-50」の検証でも、わずか90エポックの学習で標準的なResNet-50の性能を上回り、最高78.67%（標準の224×224設定）の精度を達成しました。
Vision Transformer (ViT) への高い汎化能力
SaluNetの完全可塑性は、畳み込みネットワーク（CNN）の領域に留まりません。ViTをベースにした「SaluNet-T-CIFAR」モデルを用いた実験では、LayerNorm（層正規化）とGELUを組み合わせた標準的なTransformerの構成を上回る精度を記録しました。この結果は、SALUの自己安定化メカニズムがアーキテクチャの違いを越えて、汎用的に機能することを証明しています。
滑らかで安定した収束プロセス
モデルの最終的な精度だけでなく、学習過程の安定性においてもSaluNetは特筆すべき挙動を示します。CIFAR-100における学習曲線の解析では、BatchNormを用いたモデルがEMA（指数移動平均）減衰率0.997の環境で振動（ブレ）を起こしてしまうのに対し、SaluNetはより高い減衰率（0.9997）を設定しても滑らかに収束することが確認されました。

また、非常に興味深いのは学習の進行に伴って生じる「2段階の動態」です。学習開始から60エポック付近まではBatchNormモデルがわずかにリードしますが、これはSALUやSWALUの幾何学的なパラメータが様々な入力に対して最適な形を模索している準備期間にあたります。60エポック付近を境に各層に適したパラメータが定まると、SaluNetの精度がBatchNormモデルを明確に逆転します。この現象は、SaluNetの性能向上が単純なアーキテクチャの工夫によるものではなく、学習過程で獲得されたパラメータの柔軟性（完全可塑性）から生まれていることを強く裏付けています。

**図8. CIFAR-100 の学習 (ResNet-18 vs SaluNet-C-18)**

7. 実装・運用上の注意点

ここでは、SaluNetを実際のプロジェクトに組み込む際に意識すべき、実装および運用上のポイントを整理します。

バッチサイズへの堅牢性 (Batch-size independence): バッチ正規化が極小バッチサイズ（例: BS=1）で学習が崩壊してしまうのに対し、SaluNetはポイントワイズ（要素ごと）な演算であるため、バッチサイズに依存せずに高い精度を維持します。実際に、BS=1の環境下でも安定した学習が確認されています。ただし、BS=128などの中間的なバッチサイズでは、1バッチに含まれる様々なサンプルの情報（データ密度）が不足するため、バッチ正規化を用いたモデルに対してわずかに劣るケースも報告されています。
アブレーションとアーキテクチャ選択: SALUの性能を最大限に引き出すには、パラメータ $a$ と $b$ の両方が学習可能であることが不可欠です。どちらか一方でも固定してしまうと、精度が大きく低下してしまいます。また、データセットやアーキテクチャに応じて、適切な派生関数の選択が求められます。たとえば、CIFAR-100のようなタスクにはSWALUが、Transformer（ViTなど）にはGALUが適しています。
初期化と学習率のベストプラクティス:
- 初期化: ダウンサンプリング（解像度変換）を実施するブロックでは、信号の遮断を防ぐために、通常の初期値ではなく $a=5.5, b=10^{-4}$ のような極めて広い線形領域を持たせた設定が必要です。
- 学習率スケジューラ: 急激に学習率を低下させる手法（Multi-stepなど）を用いると、パラメータの幾何学的な適応が遅れてしまいます。そのため、滑らかに学習率を減衰させる Cosine Annealing の採用が推奨されています。
計算効率: SALUの演算は純粋な代数演算のみで構成されており、expやtanhといった計算コストの高い超越関数を含まないため、理論上は非常に計算効率が高い設計です。ただし、現行のPyTorch実装では融合カーネル化されていないため、最適化された標準実装と比較して若干のオーバーヘッド（エポックあたり5〜10%程度）が存在する点には留意してください。

おわりに

本記事で紹介した論文「SaluNet: Enabling Total Plasticity in Normalization-Free Deep Networks」は、これまで不可欠とされてきた正規化層が、実はニューラルネットワークが持つ真の可塑性を抑制していたという事実を明らかにしました。

SALUおよびその派生活性化関数（SWALU、GALU）を導入することで、ネットワークは外部の統計量に頼るのではなく、パラメータの「幾何学的な適応」を通じて自律的に最適化を安定させます。これにより、様々なバッチサイズに対する堅牢性と、従来手法を凌駕する高い性能の両立を実現しました。

この「Total Plasticity（完全可塑性）」という新しいパラダイムは、バッチ処理への依存をなくすため、分散学習における同期の課題を解消し、メモリ制約の厳しいエッジデバイス向けのアーキテクチャ設計にも新たな可能性を提示しています。ディープラーニングの常識を根本から問い直すこのアプローチが、今後のモデル開発にどのような影響を与えていくのか、引き続き注目していきましょう。

More Information

arXiv:2606.02927, Mourad Zaied, 「SaluNet: Enabling Total Plasticity in Normalization-Free Deep Networks」, https://arxiv.org/abs/2606.02927

codemajinのえんとろぴぃ

Blog

SaluNet: ディープラーニングに正規化は必要なのか？