Large Concept Models: 大規模概念モデルとは何か?

近年、大規模言語モデル(LLM)は人工知能分野に革命をもたらし、多くの自然言語タスクにおいて事実上のデファクト・スタンダードとなっています。しかし、現在のLLMは、単語単位で入力と出力を処理するという点で、人間の情報分析やクリエイティブなコンテンツ生成において、抽象的なレベルで多面的に思考する能力とは大きく異なります。
最近メタ社によって発表された「Large Concept Models」、このギャップを埋めるべく、より高次の意味表現である「概念」を扱うアーキテクチャを提案しました。
今回は個人的な備忘録ついでに、発表論文を参考にして、Large Concept Modelsについて簡単にまとめたいと思います。
はじめに
現在のLLMの課題
- 単語レベルでの処理: 現在のLLMは、単語単位で入出力処理を行うため、人間の抽象的な思考や、複雑なタスクの計画・実行といった能力を再現できていない。
- データ依存性: LLMの学習は大量のデータに依存しており、新しい言語やモダリティに対応させるためには、追加のデータが必要となる。
- 階層的処理の欠如: 人間は、複雑なタスクを解決する際、上位レベルから段階的に詳細を詰めていく階層的な思考プロセスを持っているが、現在のLLMにはこの能力が欠けている。
Large Concept Models の提案
- 概念レベルにおける処理: 単語ではなく、より抽象的なレベルである「概念」を扱う「Large Concept Models」を提案
- 概念の定義: 概念は、言語やモダリティに依存しない抽象的なアイデアであり、単語ではなく文(Sentence)を1つの概念と定義
- SONAR埋め込み空間の活用: 200以上の言語をサポートする文埋め込み空間であるSONARを活用し、概念を表現
- 自己回帰的な文予測: Large Concept Modelsは、SONAR埋め込み空間において、自己回帰的に文を予測するように訓練される

Large Concept Modelsの特長
- 抽象レベルでの推論: 言語やモダリティに依存しない抽象的なレベルで推論を行うため、多言語・多モダリティへのスケーラビリティが高い。
- 階層的な構造: 人間の理解しやすい出力形式を実現し、ユーザーによる編集も容易になる。
- 長文処理への適応: トークンレベルの処理と比べて、長文処理の計算量が少なくなる。
- 優れたZero-Shot汎化性能: 事前学習や微調整に使用する言語やモダリティに依存せず、SONARがサポートする任意の言語・モダリティに適用可能。
- モジュラー性と拡張性: モダリティ間の競合がなく、新しい言語やモダリティの追加が容易。
SONAR埋め込み空間
SONAR概要
- 200以上の言語をサポートする文埋め込み空間。
- xsim や xsim++ などの意味的類似度評価において高い性能を達成している。
- 大規模なバイテキストマイニング(Bitext Mining)や翻訳タスクでも活用されている。
xsim と xsim++ は、文や文書間の意味的類似度を評価するための指標で、単語や文の意味的な関係性を定量化する目的で用いられます。xsimは、単語ベクトルを活用して文間の類似度を計算し、単語間の意味的距離をもとに全体の類似度を導き出します。一方、xsim++ は xsim の改良版で、文の構造や文脈情報をより詳細に考慮し、重要なキーワードや文全体の意味的まとまりを強調する仕組みを備えています。これらの指標は、機械翻訳や要約生成、質問応答システムといった自然言語処理の分野で幅広く活用され、単純な文字列マッチングでは捉えられない意味的類似性を評価する際に特に有効です。
SONARのアーキテクチャ
- Encoder-Decoderアーキテクチャで構成される。
- 固定サイズのボトルネック層を介して、異なる言語間の情報変換を行う。
- 機械翻訳、ノイズ除去オートエンコーダ、埋め込みボトルネック層でのMSE損失を組み合わせた損失関数で訓練される。
- 音声モダリティへの拡張は、Teacher-Studentアプローチを用いて行われている。

SONARの特長
- 多言語サポート: 200以上の言語をサポートしており、特にリソースの少ない言語にも対応している。
- マルチモダリティサポート: テキストに加えて、76言語の音声入力と英語の音声出力をサポートしている。
- アメリカ手話エンコーダの開発: 実験的なアメリカ手話エンコーダも開発されている。
- オープンソース: SONARのエンコーダとデコーダは、自由に利用可能。

データの準備方法
大規模なテキストコーパスを扱う際には、文分割の正確性が、後続の自然言語処理タスクの性能に大きく影響します。特に、誤字脱字や複雑な文構造は、文ベクトル化の品質を低下させる可能性があります。
本研究では、大規模テキストコーパスに対する文分割手法として、SpaCyとSaTの2つの手法を比較し、SONARを用いた文ベクトル化の品質への影響を検証します。SpaCyはルールベースのアプローチ、SaTは機械学習モデルを用いたアプローチを採用しており、それぞれ異なる特徴を持っています。
実験では、両手法とも最大文長制限を設け、文をより短い断片に分割します。SpaCyは句読点を基準に、平均文長が一定の長さになるように分割し、SaTは分割確率に基づいて最適な分割点を決定します。
文分割の品質評価には、AutoBLEUスコアを使用します。AutoBLEUスコアは、機械翻訳の評価指標として広く用いられており、生成された文と参照文の類似度を測る指標です。本実験では、文分割後の文を元の文と比較することで、文の意味がどれだけ保持されているかを評価します。
実験の結果、AutoBLEUスコアにおいて、SaTはSpaCyをわずかに上回ることが明らかになりました。特に、最大文長制限を導入することで、長い文における性能が大幅に向上しました。
以上の結果から、本研究では、SaTを文分割手法として採用し、以降のLCMの訓練データに適用します。

Large Concept Models の様々なアーキテクチャ
LCMの設計思想は、従来の言語モデル(LLM)とは異なるアプローチに基づいています。
- 連続的な文表現: LLMが単語を一つずつ予測するのに対し、LCMは文全体を一つの連続的なベクトルとして表現することを目指しています。これにより、文脈をより深く捉え、より自然な文章生成が可能になると期待できます。
- 多様な表現の生成: 同じ文脈でも、様々な表現が考えられます。LCMは、このような多様な表現を生成するために、連続的な文ベクトルの確率分布を学習します。
- 拡散モデルの応用: 画像生成分野で成功を収めている拡散モデルに着想を得て、LCMでは、ノイズから徐々に文ベクトルを生成する手法を探索しています。
- 量子化によるアプローチ: 連続的な文ベクトルを離散的な表現に変換することで、既存の言語モデルの技術を応用する試みも進められています。
Ⅰ. Base-LCM
ベースラインアーキテクチャには、標準的なデコーダ型Transformerを採用します。
ベースラインアーキテクチャ
- デコーダ型Transformer: 既存の文埋め込みシーケンスから、次の概念のシーケンスを生成するデコーダ型Transformerをベースラインアーキテクチャとして採用
- PreNetとPostNet:
- PreNet: 入力されたSONAR埋め込みを正規化し、モデルの隠れ次元 \(d_{\text{model}}\) に変換します。
- \(\displaystyle \text{PreNet}(\mathbf{x}) = \text{normalize}(\mathbf{x}) \mathbf{W}_{\text{pre}}^t + \mathbf{b}_{\text{pre}} \)
- PostNet: Transformerの出力を逆正規化して、SONAR埋め込み空間に戻します。
- \(\displaystyle \text{PostNet}(\mathbf{x}) = \text{denormalize}(\mathbf{x} \mathbf{W}_{\text{post}}^t + \mathbf{b}_{\text{post}}) \)
- PreNet: 入力されたSONAR埋め込みを正規化し、モデルの隠れ次元 \(d_{\text{model}}\) に変換します。
$$
\mathbf{W}_{\text{post}}^t \in \mathbb{R}^{d_{\text{SONAR}} \times d_{\text{model}}}, \hspace{3mm} \mathbf{b}_{\text{post}} \in \mathbb{R}^{d_{\text{SONAR}}}, \hspace{3mm} \mathbf{W}_{\text{pre}}^t \in \mathbb{R}^{d_{\text{model}} \times d_{\text{SONAR}}}, \hspace{3mm} \mathbf{b}_{\text{pre}} \in \mathbb{R}^{d_{\text{model}}}
$$
正規化と逆正規化
- 正規化: 異なるコーパスやドメインのSONARベクトルをサンプリングし、ロバストなスケーラーをフィットさせることで、正規化と逆正規化の関数を求めます。
- メディアン統計量を除去し、四分位範囲(IQR)に基づいてデータをスケーリングします。
- \( \displaystyle \text{normalize}(\mathbf{x}) = \frac{\mathbf{x} – \mathbf{\mu}}{\mathbf{\sigma}}, \hspace{4mm} \text{denormalize}(\mathbf{x}) = \mathbf{\mu} + \mathbf{\sigma} \mathbf{x} \)
訓練
- 教師あり学習: 次の概念を予測する教師あり学習タスクにより、モデルのパラメータ \(\theta\) を最適化します。
- \(\displaystyle \hat{\mathbf{x}}_n = f(\mathbf{x}_{< \theta}; \theta), \hspace{5mm} \text{MSE} = (\hat{\mathbf{x}}_n, \mathbf{x}_n) = |\hat{\mathbf{x}}_n – \mathbf{x}_n |^2\)
- 損失関数: データ分布 \(q\) に基づいて、以下の損失関数を最小化します。
- \(\displaystyle \mathcal{L}_{\text{Base-LCM}}(\theta) = \mathbb{E}_{x \sim q} \left[\sum_{n=1}^{|x|} \text{MSE}(f(x_{<n};\theta), x_n) \right]\)
推論
- “End of text.”の埋め込み: 文末を表す特殊なトークン “End of text.” をSONARでエンコードし、\(x_{|x|} = \overrightarrow{\text{eot}} := \text{encode}(\text{“End of text.”})\)
とします。
- 早期停止: 以下の条件を満たした場合に、生成を停止します。
- 生成された埋め込み \(\hat{x}_n\) と \(\overrightarrow{\text{eot}}\)
のコサイン類似度が閾値 \(s_{\text{eot}}\) を超えた場合。
- 生成された埋め込み \(\hat{x}_n\) と直前の埋め込み \(\hat{x}_{n-1}\) のコサイン類似度が閾値 \(s_{\text{prev}}\) を超えた場合。
- \(s_{\text{eot}}\) と \(s_{\text{prev}}\) はともに\(0.9\)に設定しています。
- 生成された埋め込み \(\hat{x}_n\) と \(\overrightarrow{\text{eot}}\)

Ⅱ. Diffusion-based LCM
画像生成AIで広く普及している拡散モデルのように、ノイズから徐々に文ベクトルを生成するアーキテクチャです。
拡散モデルに基づくLCM
- 生成モデル: データ分布 \(q\) を近似する生成モデルであり、自動回帰モデルとして実装。
- 条件付き確率: 各位置 \(n\) における条件付き確率分布 \(p_{\theta}(x_n∣x_{<n})\) をモデル化します。
拡散プロセス
- 順方向プロセス: ガウス拡散プロセスにより、データに徐々にノイズを加えていきます。
- \(\displaystyle q(\mathbf{x}^t | \mathbf{x}^0) := \mathcal{N}(\alpha, \mathbf{x}^0, \sigma_t^2 \mathbf{I}) \)
- \(\displaystyle \mathbf{x}^t = \alpha_t \mathbf{x}^0 + \sigma_t \epsilon \hspace{5mm} \text{where} \hspace{3mm} \epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I})\)
- \(\displaystyle \alpha_t^2 = \text{sigmoid}(\lambda_t), \hspace{5mm} \sigma_t^2 = \text{sigmoid}(-\lambda_t) = 1 – \text{sigmoid}(\lambda_t), \hspace{5mm} \lambda_t = \log(\alpha_t^2 / \sigma_t^2)\)
- ノイズスケジューリング: 時間ステップ \(t\) から対数信号対雑音比(log-SNR)\(\lambda_t\) への写像関数 \(f_{\lambda}\) を定義します。
- Cosine: \(\displaystyle \alpha_t^2 = f(t) / f(0), \hspace{4mm} \text{where} \hspace{2mm} f(t) = \cos^2 \left(\frac{t + s}{1 + s} \cdot \frac{\pi}{2}\right), \hspace{4mm} \text{where} \hspace{2mm} s = 0.008 \)
- Quadratic: \(\displaystyle \beta_{t/T} = \left(\sqrt{\beta_0} + \frac{t}{T} \cdot \left(\sqrt{\beta_1} – \sqrt{\beta_0}\right) \right)^2 \)
- Sigmoid: \(\displaystyle \alpha^2_t = f(t) / f(0), \hspace{4mm} \text{where} \hspace{2mm} f(t) = \text{sigmoid}(\delta – \gamma \text{logit}(t))\)
- 逆方向プロセス
- 目的関数: ノイズ除去プロセスを学習し、元のデータ \(\mathbf{x}^0\) を再構成する損失関数を最小化します。
- \(\displaystyle \mathcal{L}(\theta) := \mathbb{E}_{t \sim \mathcal{u}(0, 1)} [\omega(t)\mathcal{L}(t, \theta)]\)
- \(\displaystyle \mathcal{L}(t, \theta) := \mathbb{E}{\mathbf{x}^0, \epsilon} \left[\| \mathbf{x}^0 – \mu{\theta}(\alpha_t \mathbf{x}^0 + \sigma_t \epsilon, t) \|^2_2\right]\)
- 重み付け戦略:
- シンプルな再構成損失: \(\omega(t)=1\)
- 制限付きドSNR重み付け: SNRを \(\lambda_{\text{min}}\) と \(\lambda_{\text{max}}\) の間に制限します。
- サンプル品質に基づく重み付け: サンプルの脆弱性スコアに応じて重みを調整します。
- 目的関数: ノイズ除去プロセスを学習し、元のデータ \(\mathbf{x}^0\) を再構成する損失関数を最小化します。

分類子フリー拡散ガイダンス
- 条件付きモデルと無条件モデルの組み合わせ: 条件付きモデルと無条件モデルを同時に訓練し、推論時に両者のスコアを組み合わせます。
- ガイダンススケール: ガイダンススケール\(\gamma\)によって、条件付きモデルの寄与を調整します。
$$
\nabla_{x} \log_{\gamma} (x | y) = (1 – \gamma) \nabla_{x} \log p(x) + \gamma \nabla_x \log p(x | y)
$$
推論
- 逆拡散プロセス: ランダムノイズから出発し、段階的にノイズを除去することで、データサンプルを生成します。
- 高速化手法: 効率的な生成手法として、DPM-Solverを採用しています。
- Epsilon-scaling: 推論時にEpsilon-scalingを適用し、露出バイアス問題(生成結果の偏り)を軽減します。

Ⅲ. One-Tower Diffusion LCM

モデル概要
- 単一のTransformerバックボーン: 単一のTransformerバックボーンを使用して、ノイズの乗った入力 \(x_n^t\) から、クリーンな次の文埋め込み \(x_n^0\) を予測します。
- 条件付き生成: 予測は、先行するクリーンな文埋め込み \(x_{<n}^0\) を条件として行われます。
- 分類子フリーガイダンス: 訓練時に一定の確率でセルフアテンションをドロップすることで、推論時に分類子フリーガイダンスが可能になります。
入力処理
- 拡散時間ステップ埋め込み: 各入力埋め込みに、対応する拡散時間ステップの埋め込みを連結します。
- 位置エンコーディング: 入力ベクトルに学習された位置エンコーディングを追加します。
- 因果的マルチヘッドセルフアテンション: バックボーンは、因果的マルチヘッドセルフアテンションを使用します。
効率的な訓練
- 並列処理: ドキュメント内のすべての文を一度に予測するようにモデルを訓練します。
- クリーンな文への注意機構: 拡散プロセス中に、因果的マルチヘッドアテンションを使用して、コンテキスト内のクリーンな文に注意を向けることができます。
- 入力処理: ノイズの乗った文埋め込み(青)とクリーンな文埋め込み(水色)を交互に並べた入力シーケンスを作成し、クリーンな文埋め込みにのみ注意が向けられるように、アテンションマスクを適切に設定します。
Ⅳ. Two-Tower Diffusion LCM
モデル概要
- コンテキストエンコーダとデノイザーの分離: 先行するコンテキストのエンコーディングと、次の埋め込みのノイズ除去を別々のモデルで行います。
- コンテキストエンコーダ: 入力されたコンテキストベクトル \(\mathbf{x}_{<n}\) を因果的にエンコードします。
- ノイズ除去: コンテキストエンコーダの出力を受け取り、潜在変数 \(x_n^1 \sim \mathcal{N} (\mathbf{0}, \mathbf{I})\) を反復的にノイズ除去することで、クリーンな次の文埋め込み \(\mathbf{x}_n^0\) を予測します。
- クロスアテンション: ノイズ除去は、クロスアテンションを使用して、エンコードされたコンテキストに注意を向けます。
- アダプティブレイヤー正規化 (AdaLN): ノイズ除去の各Transformerブロック(クロスアテンション層を含む)に、AdaLNを適用します。
- 拡散時間ステップ \(t\)の埋め込みから、チャネルごとのスケール(\(\gamma\))、シフト(\(\beta\))、残差ゲート(\(\alpha\))を回帰します。
- \(\displaystyle [\beta, \gamma, \alpha] = \text{SiLU}(\text{embed}(t))\mathbf{W}^t + \mathbf{b}\)
- \(\displaystyle \mathbf{y} = \mathbf{x} + \alpha \cdot \text{Block}((1 + \gamma)\mathbf{x} + \mathbf{b})\)
- 拡散時間ステップ \(t\)の埋め込みから、チャネルごとのスケール(\(\gamma\))、シフト(\(\beta\))、残差ゲート(\(\alpha\))を回帰します。
- 初期化: 各残差ブロックを、単位関数で初期化します。
- 時間ステップ埋め込み: 拡散時間ステップ \(t\) を、256次元の周波数埋め込みで表現し、2層のMLPで変換します。
- セルフアテンション: ノイズ除去のセルフアテンション層は、現在の位置にのみ注意を向けます。
Two-Towerの訓練
- 教師あり学習: 埋め込みのシーケンスに対して、次の文の予測タスクを学習します。
- 因果的マスク: コンテキストエンコーダの出力を1ポジションシフトし、クロスアテンション層に因果的マスクを適用します。
- 分類子フリーガイダンス: クロスアテンションマスクからランダムに行をドロップし、対応する位置を、ゼロベクトルのみをコンテキストとしてデノイズすることで、条件付きと無条件の両方の訓練を行います。

Ⅴ. Quantized LCM
量子化によるアプローチ
- 離散化によるアプローチ: 画像や音声生成分野では、連続データ生成に対処するために、拡散モデルやデータの量子化と離散単位のモデル化といったアプローチが用いられています。
- SONAR空間の量子化: SONAR空間におけるテキスト表現は、離散的な点の集合であり、真の連続分布ではありません。そのため、SONAR表現を量子化し、離散単位に基づいてモデルを構築することで、次の文の予測タスクを実行できます。
- 利点: 量子化された表現を使用することで、温度、Top-pサンプリング、Top-kサンプリングなどの手法を用いて、生成される文のランダム性や多様性を制御できます。
SONAR空間の量子化
- Residual Vector Quantization (RVQ): RVQを用いて、SONAR表現を離散化します。
- RVQは、連続的な入力埋め込みを、学習済みのコードブック内の最も近いエントリにマッピングします。
- 反復的に残差誤差を量子化します。
- IRVQ: IRVQ手法を使用、メモリ効率を考慮してビームサイズ(量子化プロセスで探索する解候補の数)を1に設定します。
- コードブック: 1500万の英語文を使用して、64個のコードブックを学習します。各コードブックには8192個のユニットが含まれます。
- オートエンコーディングBLEU: コードブックの数を増やすにつれて、オートエンコーディングBLEUスコアが向上します。
SONARデコーダのファインチューニング
- 量子化表現への適応: 量子化表現に合わせてSONARデコーダをファインチューニングします。
- コードブックのランダム選択: ファインチューニング時に、コードブックの数をランダムに選択することで、中間コードブックからの残差表現に対するロバスト性を向上させます。
Quant-LCMアーキテクチャ
- 離散単位に基づく生成: 拡散モデルとは異なり、中間量子化表現に基づいて、SONAR埋め込みを段階的に生成します。
- One-Towerアーキテクチャ: One-Towerアーキテクチャを使用します。
- 入力: ノイズの乗った入力表現の代わりに、中間量子化表現とコードブックインデックス埋め込みを入力として使用します。
離散ターゲット (Quant-LCM-d)
- 次のコードブックのユニットを予測: softmax出力層を使用して、次のコードブックのユニットを予測します。
- 効率的なパラメータ化: \(n_{\text{codebooks}} \cdot n_{\text{units-per-codebook}}\) 個の出力次元ではなく、\(n_{\text{units-per-codebook}}\)個の出力次元を使用します。
- 訓練: ランダムにコードブックインデックス \(k\) をサンプリングし、最初の \(k−1\) 個のコードブックの重心埋め込みの累積和を入力として使用します。
- 分類子フリーガイダンス: 訓練時にランダムに左コンテキストの条件付けをドロップすることで、分類子フリーガイダンスを適用します。
連続ターゲット (Quant-LCM-c)
- 連続的なターゲットベクトルを予測: 左コンテキスト文とターゲットベクトルの中間量子化表現に基づいて、連続的なターゲットSONARベクトルを予測します。
- 推論: 予測された残差 \(\hat{r}\) に基づいて、最も近い重心埋め込みを追加するか、温度パラメータ \(\beta\) を用いて重心をサンプリングします。
Large Concept Models の制限事項
埋め込み空間の選択
- SONAR埋め込み空間の制約:
- 局所的な幾何情報: SONARは、意味的に類似した文が幾何学的に近いという局所幾何情報を学習するように訓練されていますが、スパースな文間の関係性を適切に表現できていない可能性がある。
- 脆弱な文への対応: リンク、参照、数値、コードを含む文は、SONARでうまくエンコードされず、このような文はLLMの事前学習データに頻繁に含まれる。そのため、これらの文を正確に予測することは困難。
- 固定されたエンコーダの課題:
- 事前学習されたエンコーダを使用することで、データ効率と計算効率が向上するが、LCMモデルの学習目的に最適化されていない可能性がある。
- エンコーダをエンドツーエンドで学習することは困難で、言語やモダリティを横断する良好な意味表現が得られるとは限らない。
概念の粒度
- 文レベルの粒度の限界:
- 文レベルの粒度では、次の文の取りうる可能性が非常に大きく、各文に適切な確率を割り当てることが困難。
- 長い文については、複数の概念に分割する必要があるが、適切な分割方法を見つけることが困難。
- データスパース性: 訓練コーパス内の文は、ほとんどがユニークであり、データスパース性が問題となる。
- 言語・モダリティ横断的な概念の必要性: 言語やモダリティを横断する共有概念を構築することで、汎化性能を向上させることができるが、このような概念を構築することは困難。
連続 vs. 離散
- 拡散モデルの限界: 拡散モデルは、画像や音声などの連続的なデータの生成に適していますが、離散的なテキストデータの生成には適していない可能性がある。
- 離散ターゲットの利点: クロスエントロピー損失に基づく離散ターゲットは、高い精度が要求されるタスク(MCQタスク、コード生成など)に適している。
- Quant-LCMの課題:
- SONAR空間は効率的に量子化されるように訓練されていないため、コードブックの数とユニット数が膨大になり、データスパース性が問題となる可能性がある。
おわりに
今回は、Large Concept Models(LCMs)のアーキテクチャ、特にDiffusion-based LCMs、One-Tower LCMs、Two-Tower LCMs、そしてQuant-LCMsについて解説しました。これらのモデルは、従来の自然言語処理モデルとは異なるアプローチで、文の生成や理解を行うことを目指しています。
LCMsは、自然言語処理の分野において、新たな可能性を開く一方で、まだ多くの課題が残されています。今後の研究開発によって、これらの課題が解決され、LCMsがより実用的なモデルへと発展していくことが期待されます。
More Information:
- arXiv:2308.11466, Paul-Ambroise Duquenne et al., 「SONAR: Sentence-Level Multimodal and Language-Agnostic Representations」, https://arxiv.org/abs/2308.11466
- arXiv:2412.08821, Loïc Barrault et al., 「Large Concept Models: Language Modeling in a Sentence Representation Space」, https://arxiv.org/abs/2412.08821
- arXiv:2501.05487, Hussain Ahmad et al., 「The Future of AI: Exploring the Potential of Large Concept Models」, https://arxiv.org/abs/2501.05487