2025年まとめ: AI関連の必読論文 総チェック

2025年は、AI技術が「生成」から「推論(Reasoning)」、そして「自律的なエージェント(Agentic AI)」へと劇的な進化を遂げた1年でした。LLMの効率化から、マルチモーダル化、さらにはAI自身が科学的発見を行うフェーズまで、その進展スピードはとどまることを知りません。

本記事では、今年発表された膨大な論文の中から、今後の潮流を占う重要な論文をカテゴリー別に一挙にご紹介します。なお、本記事の選定と要約には最新のLLMを活用しています。可能な限り精緻な情報を心がけておりますが、重要論文の網羅性や要約の正確性については、ぜひ元文献もあわせてご参照ください。

それでは、2025年のAIシーンを象徴する知の最前線を一緒に振り返ってみましょう。

2025年重要論文

LLM関連論文

  • Krutrim LLM: Multilingual Foundational Model for over a Billion People (Krutrim LLM: 10億人以上のための多言語基盤モデル)
    • 一言で言うと: インドの多様な言語に特化したAIモデルを提案。
    • ここが画期的:
      • インドの言語に特化した大規模データセットを使用
      • 従来のモデルに比べて多言語対応性能が向上
      • リアルタイム検索との統合で会話AIの精度向上
      • サイズが小さいにもかかわらず競争力のある性能
      • 倫理的かつグローバルなAIモデルの構築に寄与
    • 主な成果:
      • Krutrimは16のタスク中10でLLAMA-2を超える性能
      • 平均スコア0.57を達成し、0.55のLLAMA-2に対抗
      • インドの方言におけるバランスの取れた性能を実現
      • データの不均衡に対処した設計改善
  • Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models (メタ推論器:大規模言語モデルの推論時間最適化のための動的ガイダンス)
    • 一言で言うと: 大規模言語モデルの推論効率を大幅に改善する新手法。
    • ここが画期的:
      • 推論戦略をリアルタイムで動的に調整
      • 従来の手法よりも効率的に非生産的なルートを回避
      • 文脈に基づいた多腕バンディットを用いた適応ポリシー学習
      • 多様な推論集約タスクに適用可能な汎用性
    • 主な成果:
      • 精度が従来手法より9-12%向上
      • 推論時間が同じ計算予算内で28-35%短縮
      • 数学問題や科学的タスクでの優位性を確認
  • A Closer Look at Adversarial Suffix Learning for Jailbreaking LLMs: Augmented Adversarial Trigger Learning (LLMの脱獄に向けた敵対的サフィックス学習の詳細検討:拡張敵対的トリガー学習)
    • 一言で言うと: LLMの脱獄を高効率で実現する手法の提案。
    • ここが画期的:
      • 敵対的トリガー学習の最適化目標を強化
      • 1つの問答ペアからサフィックスを学習可能
      • 新しい補助損失で回避的な応答を抑制
      • 他のLLMにも移転しやすいサフィックスを生成
    • 主な成果:
      • 攻撃成功率はほぼ100%
      • クエリ数を80%削減
      • 学習したサフィックスの一般化性能が高い
  • SOSecure: Safer Code Generation with RAG and StackOverflow Discussions (SOSecure: RAGとStackOverflowディスカッションによる安全なコード生成)
    • 一言で言うと: StackOverflowの知見を活用した安全なコード生成技術
    • ここが画期的:
      • StackOverflowのコミュニティ知識を活用した新しい手法
      • RAGを用いて生成後にコードのセキュリティをチェック
      • リトリーバル型の生成システムを採用
      • LLMの再学習なしで簡単に導入可能
      • 開発者フォーラムの重要性を強調
    • 主な成果:
      • SOSecureの修正率は71.7%、91.3%、96.7%と高い
      • GPT-4単体使用時の修正率は49.1%、56.5%、37.5%
      • 複数のベースラインを上回る性能
  • Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach (安全で整合性のある言語生成を最適化するためのマルチオブジェクティブGRPOアプローチ)
    • 一言で言うと: 人間の価値に合った言語生成を効率的に実現する手法
    • ここが画期的:
      • GRPOフレームワークでグループ比較を用いた最適化
      • 多面評価による報酬モデルを導入
      • 別途価値批評家なしでトレーニング効率を向上
      • 低コストで明示的なマルチオブジェクティブ処理を実現
    • 主な成果:
      • 安全性と品質指標全てで改善を達成
      • 0.5B、7B、14Bパラメータスケールのモデルで評価
      • 計算コストが大幅に低下
      • 他手法と比較して複数の目的の整合性を確保
  • Mosaic: Composite Projection Pruning for Resource-efficient LLMs (Mosaic: リソース効率的なLLMのための合成プロジェクションプルーニング)
    • 一言で言うと: 新手法MosaicでLLMの資源効率を大幅向上。
    • ここが画期的:
      • 細かなパラメータ剪定を可能にするプロジェクションプルーニングを導入
      • 非構造的と構造的な剪定を組み合わせた合成プロジェクションプルーニングを提案
      • Mosaicシステムで多様なLLMの剪定を効率的に実現
      • モデル生成速度が従来比7.19倍向上
    • 主な成果:
      • モデルのパープレキシティが最大84.2%低下
      • 精度が最大31.4%向上
      • Inference速度が最大67%向上
      • GPUメモリ使用量が最大68%削減
  • The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search (AI科学者-v2:エージェント駆動の自動科学発見システム)
    • 一言で言うと: AIが完全に自立して科学論文を生成するシステムの紹介。
    • ここが画期的:
      • 人間によるコードテンプレートに依存しない
      • 多様な機械学習分野に効果的に一般化
      • 新しい進化的エージェントツリー探索手法を採用
      • 視覚と言語モデルを統合してフィードバックループを強化
      • 完全自律で査読に提出可能な論文を作成
    • 主な成果:
      • 完全自律で生成した論文が査読を通過
      • 高得点で人間の合格基準を超えた
      • 3つの自律的な原稿をICLRワークショップに提出
  • HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation (階層型マルチエージェントによる多視覚情報の取得強化生成)
    • 一言で言うと: 複雑な問いに対応する新しい情報取得システム
    • ここが画期的:
      • 階層構造の3層アーキテクチャを持つ
      • 異なるデータモダリティに特化したエージェントを導入
      • 一貫性投票による多源回答の統合
      • データガバナンスを維持しつつモジュールの追加が容易
    • 主な成果:
      • 答えの正確さを12.95%向上
      • 質問分類精度を3.56%向上
      • ゼロショット設定での最先端結果を達成
  • Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation (マルチモーダルLLMにおけるセンシティブ情報の忘却:ベンチマークと攻撃・防御評価)
    • 一言で言うと: マルチモーダルLLMのセンシティブ情報忘却手法を提案。
    • ここが画期的:
      • マルチモーダル忘却ベンチマーク「UnLOK-VQA」の導入
      • 特定のマルチモーダル知識を削除するための攻撃・防御フレームワークの開発
      • テキストだけでなく画像も包含した忘却評価の実施
      • 内部モデル状態からの答え情報を削除する防御方法の提案
      • 大規模モデルにおける高いポスト編集頑健性の発見
    • 主な成果:
      • マルチモーダル攻撃はテキストまたは画像のみの攻撃を上回る
      • 最も効果的な防御は内部モデル状態から回答情報を削除する
      • 大規模モデルは高い安全性を示唆するポスト編集頑健性を持つ
  • RM-R1: Reward Modeling as Reasoning (報酬モデリングを思考過程として考えるRM-R1)
    • 一言で言うと: 思考能力を取り入れた報酬モデリングの新手法。
    • ここが画期的:
      • 報酬モデリングを理論的思考のタスクとして再定義
      • 自己生成する評価基準を持つチェーン・オブ・ルブリック機構を導入
      • 2段階のトレーニングプロセスによる性能向上
      • 従来の大規模モデルを超える成果を実現
    • 主な成果:
      • 3つの報酬モデルベンチマークで最先端の性能を達成
      • 従来モデルより最大4.9%の精度向上
      • 高品質な推論チェーンの蒸留に成功
  • Holmes: Automated Fact Check with Large Language Models (Holmes: 大規模言語モデルを用いた自動ファクトチェック)
    • 一言で言うと: AIを活用した新しい情報検証システムの提案。
    • ここが画期的:
      • 大規模言語モデル(LLM)を利用した自動情報検証の新手法
      • 独自の証拠探索メソッドを採用し、精度向上
      • LLMによる情報要約機能を実装
      • 質の高い証拠を評価する新しいアルゴリズムと指標を導入
    • 主な成果:
      • 二つの公開データセットで88.3%の精度を達成
      • リアルタイム検証でも90.2%の精度を確認
      • 従来手法に比べ、ファクトチェック精度を30.8%向上
  • HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights (HiPerRAG:科学的洞察のための高性能情報検索強化生成)
    • 一言で言うと: 科学文献からの知識取得を高速化する新手法。
    • ここが画期的:
      • 3.6百万の科学論文からの迅速な知識検索を実現
      • 高スループットのマルチモーダル文書解析モデルOreoを使用
      • コントラスト学習を活用した検索精度向上アルゴリズムColTrast
      • 最大数千のGPUを利用してスケールアップ可能
      • 既存のモデルを上回る精度を達成
    • 主な成果:
      • SciQで90%の精度を達成
      • PubMedQAで76%の精度を達成
      • PubMedGPTやGPT-4を上回る性能
  • Finetune-RAG: Fine-Tuning Language Models to Resist Hallucination in Retrieval-Augmented Generation (フィネットゥーン-RAG: 情報検索強化生成モデルの幻覚を抑制するためのファインチューニング)
    • 一言で言うと: ファインチューニング技術でLLMの正確性が21.2%向上。
    • ここが画期的:
      • RAGのための新しいファインチューニング手法の提案
      • 現実の不完全さを模倣した訓練データセットの構築
      • LLMを評価するためのBench-RAGパイプラインの提案
      • オープンソースのコードとデータセットの提供
    • 主な成果:
      • 基準モデルに対して正確性が21.2%向上
      • 現実的な不完全検索シナリオでのモデル評価
  • EfficientLLM: Efficiency in Large Language Models (効率的な大規模言語モデル(EfficientLLM))
    • 一言で言うと: 大規模言語モデルの効率性を徹底的に評価。
    • ここが画期的:
      • 効率的なアーキテクチャの事前トレーニング手法を提案
      • ファインチューニング手法ではパラメータ効率を重視
      • 推論時の量子化手法でメモリやエネルギー消費を大幅削減
      • タスクやスケールに依存した最適化技術の発見
      • ビジョンモデルにも技術の適用可能性を示唆
    • 主な成果:
      • MoEを使用するとFLOPs削減と精度向上が可能だがVRAMが40%増加
      • int4量子化でメモリ・エネルギーを最大3.9倍削減し、精度は3-5%低下
      • MQAが制約デバイスに最適なメモリ・レイテンシートレードオフを提供
      • RSLoRAが14Bパラメータ以上でLoRAの効率を上回る
  • Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen! (オープンソースLLMのファインチューニングには注意が必要: あなたのデータが密かに盗まれているかもしれない!)
    • 一言で言うと: オープンソースLLMのデータ漏洩リスクを警告。
    • ここが画期的:
      • オープンソースLLMのファインチューニングによるデータ抽出リスクを指摘。
      • 4つの異なるモデルで高いデータ抽出率を確認。
      • バックドア攻撃を用いた簡単な手法。
      • 検出型防御策は効果が薄いことが分かった。
    • 主な成果:
      • 76.3%のデータが実環境で完全に抽出された。
      • 理想的な条件下では94.9%の成功率を達成。
      • 3Bから32Bパラメータのモデルで実験。
  • Ranking Free RAG: Replacing Re-ranking with Selection in RAG for Sensitive Domains (ランキングフリーRAG:センシティブなドメインのための選択による再ランキングの置換)
    • 一言で言うと: 説明可能で頑健な情報選択手法を提案。
    • ここが画期的:
      • 従来の再ランキングを排除し、理由に基づく選択を導入
      • 大規模言語モデルを用いた合理的生成
      • 悪意のあるコンテンツを検出するための検証LLMを使用
      • 選択プロセスにおいて説明可能性と解釈可能性を強化
      • 適応的カットオフを実現するためのエルボー検出技術
    • 主な成果:
      • 生成精度が33.34%向上
      • 従来手法の約50%のチャンク数で実現
      • F1スコアが0.10から0.44に改善
  • WiNGPT-3.0 Technical Report (WiNGPT-3.0 技術報告)
    • 一言で言うと: 医療分野に特化した大規模言語モデルの開発報告
    • ここが画期的:
      • 医療推論に特化した32億パラメータのLLM
      • 強化学習を用いた医療推論の精度向上
      • 限られたデータでの信頼性のあるモデル開発
      • 医療ITインフラへの統合を目指した設計
    • 主な成果:
      • MedCalcでのスコア66.6
      • MedQA-USMLEでのスコア87.1
      • 臨床推論タスクのスコア58.1から62.5への向上
  • MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning (MA-RAG: コラボレーティブな思考連鎖による多エージェント強化生成)
    • 一言で言うと: MA-RAGは、協力的に情報処理を行う多エージェントシステム。
    • ここが画期的:
      • 複数の専門AIエージェントが協力して情報処理を行う
      • 従来の手法ではなくモジュール式の解決策を提供
      • 中間的な推論を共有することで精度を向上
      • 専門領域でも効果的に一般化可能
      • 解答精度とロバスト性の向上
    • 主な成果:
      • MA-RAGはすべてのモデルスケールで従来のRAG手法を凌駕
      • LLaMA3-8Bモデルが大規模モデルよりも高い性能を発揮
      • LLaMA3-70BおよびGPT-4o-miniが最先端の結果を達成
      • 専門ドメインのQAでも競争力のある性能を示す
  • AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models (エージェントの安全性調整:情報提供からアクション実行モデルへの移行における挑戦)
    • 一言で言うと: アクション実行モデルの安全性を高める新手法を提案。
    • ここが画期的:
      • エージェント機能を持つLLMの安全性調整を行う新フレームワーク
      • 抽象的行動チェーンを活用したデータ合成手法
      • シミュレーション環境での多様なツールインスタンスを使用
      • 有益さと無害さの境界を精密に調整
      • オープンソースのデータセットとコードを提供
    • 主な成果:
      • 安全性が35.8%から79.5%向上
      • 有用性への影響が最小限、またはポジティブな向上
      • 様々なプロンプト手法と比較して優れた結果を達成
  • Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers (長大コンテキスト処理の改革:TransformersにおけるREFORMの活用)
    • 一言で言うと: 長文処理を効率化するREFORM手法の提案
    • ここが画期的:
      • 新しい2段階アプローチによる長文処理の効率化
      • 圧縮されたKVキャッシュを使用して情報を保持
      • 重要なトークンを選択的に再計算する仕組みの導入
      • クロスレイヤーのコンテキスト埋め込みによる情報活用
      • 初期退出戦略を用いた効率的な処理
    • 主な成果:
      • RULERで性能を52%向上
      • BABILongで性能を34%向上
      • 推論時間を30%削減
      • ピークメモリ使用量を5%削減
  • OpenThoughts: Data Recipes for Reasoning Models (OpenThoughts: 推論モデルのためのオープンデータレシピ)
    • 一言で言うと: 推論モデルのトレーニングのためのオープンデータを提供。
    • ここが画期的:
      • オープンソースデータセットを利用した推論モデルのトレーニング
      • 1,000以上の実験によるデータ生成パイプラインの最適化
      • パブリックデータに基づく初の競争力のある推論モデル開発
      • データスケーリングによる精度向上
    • 主な成果:
      • AIME 2025で53%の精度、DeepSeekより15.3ポイント向上
      • LiveCodeBenchで51%の精度、DeepSeekより17.2ポイント向上
      • GPQA Diamondで54%の精度、DeepSeekより20.5ポイント向上
  • Learning What Reinforcement Learning Can’t: Interleaved Online Fine-Tuning for Hardest Questions (強化学習ができないことを学ぶ:最難関の質問へのインタリーブ型オンラインファインチューニング)
    • 一言で言うと: 難しい質問に対する推論能力を強化する新手法を提案。
    • ここが画期的:
      • 強化学習(RL)と教師ありファインチューニング(SFT)の組み合わせ
      • 困難な質問に対して動的にファインチューニングを行うReLIFTの導入
      • 既存の知識に依存せず新しい情報を効果的に学習できる
      • 13%のデモデータで従来手法を上回る性能
    • 主な成果:
      • 5つの競技レベルのベンチマークで平均+5.2ポイントの改善
      • ReLIFTはRLおよびSFTよりも優れた性能を示す
      • わずか13%のデモデータで高いスケーラビリティを実現
  • Towards Efficient and Effective Alignment of Large Language Models (大規模言語モデルの効率的かつ効果的な整合性向上に向けて)
    • 一言で言うと: 大規模言語モデルの整合性を高める新手法を提案。
    • ここが画期的:
      • Lion: adversarial distillation frameworkでのデータ収集の革新
      • Web Reconstruction (WebR)での自動化されたデータ合成
      • Learning to Edit (LTE)による知識の効率的な統合
      • Bridging and Modeling Correlations (BMC)によるトークンレベルの相関の捕捉
      • FollowBenchによる多様な指示に対する整合性の評価
    • 主な成果:
      • Zero-shot推論能力が向上
      • データの多様性とスケーラビリティが顕著に改善
      • 現在のモデルの制約遵守の弱点を明らかに
  • Arctic Long Sequence Training: Scalable And Efficient Training For Multi-Million Token Sequences (北極長シーケンス訓練:数百万トークンシーケンスのスケーラブルで効率的な訓練)
    • 一言で言うと: 長シーケンス訓練を効率的に実現する新手法の提案。
    • ここが画期的:
      • Attentionを無視したシングルGPUとマルチGPUメモリ最適化の組み合わせ
      • Hugging Faceモデルとの完全互換性
      • オープンソースでの提供により広範な利用が可能
      • 最大15Mトークンまでのシーケンス訓練が可能
    • 主な成果:
      • Llama 8Bモデルを500Kシーケンスで単一H100 GPUで訓練
      • 8xH100 GPUノードで3.7Mシーケンスを訓練
      • 4ノードクラスタで15Mシーケンスを訓練、従来の32Kから400倍以上の向上
  • Prompt, Translate, Fine-Tune, Re-Initialize, or Instruction-Tune? Adapting LLMs for In-Context Learning in Low-Resource Languages (低リソース言語における文脈学習のためのLLM適応技術の比較)
    • 一言で言うと: 低リソース言語へのLLM適応方法の包括的な研究。
    • ここが画期的:
      • 文脈学習における適応方法の比較研究
      • 新しい評価指標Valid Output Recall (VOR)の提案
      • 最大4100GPU時間を用いた大規模な実験
      • 数ショットプロンプトと翻訳テストが優位であることを確認
      • 多言語・多タスクに対応した技術検証
    • 主な成果:
      • 数ショットプロンプトが他の適応手法よりも最大で40%向上
      • 翻訳テスト方法が最も高い精度を示す
      • 全体で9900+ TFLOPsの計算リソースを消費
      • カタストロフィックフォゲッティングの影響を分析
  • FlexOlmo: Open Language Models for Flexible Data Use (FlexOlmo: 柔軟なデータ利用のためのオープンな言語モデル)
    • 一言で言うと: FlexOlmoは、閉じたデータセットでの独立したトレーニングを可能にする言語モデルです。
    • ここが画期的:
      • データ共有なしでの分散トレーニングを実現
      • データの柔軟な除外・選択が可能
      • MoEアーキテクチャによる専門家モデルの独立トレーニング
      • データ所有者の希望を尊重したデータ利用
      • 細かなデータアクセス制御をサポート
    • 主な成果:
      • 31の多様なタスクで評価し、41%の相対改善を達成
      • 従来のモデル統合方法より10.1%向上
      • 同じトレーニングFLOPsで制限なしMoEを上回る
  • Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance (テスト時に人間のサポートで自己改善するエージェントの実現)
    • 一言で言うと: 変化する環境で自己学習を可能にするエージェントの新手法。
    • ここが画期的:
      • 新たに自分の知識のギャップを特定し、人間の専門家に質問する機能
      • 運用中にリアルタイムで適応し、知識を更新するシステム
      • 従来の手法に比べ、適応性と正確性を大幅に向上
      • 特定のタスクに最適化された対話型自己反省メカニズム
    • 主な成果:
      • 適応性と精度が従来の手法に比べて大幅に改善
      • TikTok Payで毎月1億5000万人以上のユーザーをサポート
      • 実運用下での効果を実証
  • Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models (効率的なMixture-of-Experts言語モデルのためのスケーリング法則)
    • 一言で言うと: Mixture-of-Expertsの効果的なスケーリング手法を提案。
    • ここが画期的:
      • Mixture-of-Expertsアーキテクチャを効率的にスケールする手法を導入
      • Efficiency Leverage(EL)という新しい指標を提案
      • 専門家の活性化比率がELに与える影響を明らかに
      • 非線形の調整因子としての専門家の粒度を発見
      • スケーリング法則を用いてMoEモデルの性能を正確に予測
    • 主な成果:
      • Ling-mini-betaモデルは、0.85Bのパラメータで6.1Bの密モデルと同等の性能を発揮
      • Ling-mini-betaは同一データセットで計算資源を7倍以上削減
      • 提案したスケーリング法則が実証的に裏付けられる
  • Squeeze10-LLM: Squeezing LLMs’ Weights by 10 Times via a Staged Mixed-Precision Quantization Method (Squeeze10-LLM: 量子化でLLMの重みを10倍圧縮する手法)
    • 一言で言うと: LLMの重みを10倍圧縮する新手法を提案。
    • ここが画期的:
      • 段階的な混合精度ポストトレーニング量子化(PTQ)フレームワーク
      • ポストバイナリゼーション活性化ロバスト性(PBAR)の導入
      • 全情報活性化監視(FIAS)によるエラープロパゲーションの軽減
    • 主な成果:
      • LLaMAとLLaMA2を用いた実験で、精度が43%から56%に向上
      • 80%の重みを1ビット、20%を4ビットに量子化
      • サブ2ビット重みのみの量子化で最先端のパフォーマンスを達成
  • SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment (SmallThinker: ローカルデバイスのために設計された効率的な大規模言語モデルのファミリー)
    • 一言で言うと: ローカルデバイス向けに最適化された新しいLLMの提案
    • ここが画期的:
      • ローカルデバイス専用に新設計されたLLM
      • 細粒度のMixture-of-Expertsとスパースフィードフォワードネットワークの併用
      • ストレージ遅延を隠すための事前注意ルーター設計
      • メモリ効率の良いNoPE-RoPEハイブリッドスパース注意機構
      • 高性能を維持しつつGPUなしで利用可能
    • 主な成果:
      • SmallThinker-4B-A0.6Bは1GBのメモリで20トークン/秒以上を実現
      • SmallThinker-21B-A3Bは8GBのメモリで同じく20トークン/秒以上
      • 両モデルとも従来の大規模モデルを上回る性能を達成
  • Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance (Falcon-H1: 効率性と性能を再定義するハイブリッド型言語モデルのファミリー)
    • 一言で言うと: Falcon-H1は、性能と効率を両立させた新しい言語モデルシリーズです。
    • ここが画期的:
      • ハイブリッドアーキテクチャを採用し、性能と効率を両立
      • トランスフォーマーと状態空間モデルの並列統合
      • 省データで高性能を実現する設計思想
      • 様々なサイズのモデルを提供し、幅広い用途に対応
      • オープンソースとして公開し、研究のアクセス性を向上
    • 主な成果:
      • Falcon-H1-34Bは70Bスケールモデルに匹敵する性能
      • 1.5Bモデルが7B-10Bモデルと競合
      • 0.5Bモデルが2024年の典型的な7Bモデルに匹敵
      • 256Kのコンテキストトークンに対応
      • 18言語にわたる多言語タスクで優れた性能
  • XAutoLM: Efficient Fine-Tuning of Language Models via Meta-Learning and AutoML (XAutoLM: メタ学習とAutoMLによる言語モデルの効率的なファインチューニング)
    • 一言で言うと: 過去の経験を活用し、言語モデルの効率的なチューニングを実現。
    • ここが画期的:
      • メタ学習を活用した自動化フレームワークの提案
      • 従来の手法に比べてリソース効率が向上
      • 過去の成功と失敗から学ぶことで無駄を減少
      • タスクやシステムレベルのメタ特徴を抽出して性能向上
      • グリーンAIの推進を目指す
    • 主な成果:
      • 6つのタスク中5つでF1スコアが向上
      • パイプラインの評価時間を最大4.5倍短縮
      • 検索エラー率を最大7倍低下
      • ゼロショットパレートフロントを超えるパイプラインを最大50%発見
  • SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models (SpeechR: 大規模音声・言語モデルにおけるスピーチ推論のベンチマーク)
    • 一言で言うと: 音声データの推論能力を評価する新たな基準を提案
    • ここが画期的:
      • 音声に特化した推論能力を評価する新しいベンチマークの導入
      • 事実検索、手続き推論、規範判断の3つの評価軸を設定
      • 選択式、生成式、音響特徴の3つの評価フォーマットを提供
      • 高い文字起こし精度が推論能力に結びつかないことを示す
      • モデルの能力を多様なダイアログタスクで分析可能に
    • 主な成果:
      • 11の最先端LALMでの評価結果を提供
      • 高い文字起こし精度でも推論能力は改善されないことを確認
      • 選択式評価での正答率を測定
      • 生成式評価での論理的一貫性を評価
      • 感情やストレスの変化が推論能力に及ぼす影響を調査
  • Inclusion Arena: An Open Platform for Evaluating Large Foundation Models with Real-World Apps (インクルージョンアリーナ:実際のアプリで大型基盤モデルを評価するためのオープンプラットフォーム)
    • 一言で言うと: 実世界アプリから得た人間のフィードバックでモデルを評価
    • ここが画期的:
      • リアルタイム評価のライブリーダーボード
      • 冷スタート方式のPlacement Matches
      • 能力に応じた比較を行うProximity Sampling
      • 人間のフィードバックに基づく安定した評価
      • 悪意ある操作リスクの軽減
    • 主な成果:
      • 従来のデータセットよりも高いデータの推移性
      • 悪意ある操作リスクを大幅に軽減
      • 信頼性と安定性のあるランキングを実現
  • Mitigating Hallucinations in Large Language Models via Causal Reasoning (大規模言語モデルにおける幻覚を因果推論で軽減する)
    • 一言で言うと: 因果構造を明示的にモデル化することで幻覚を抑制。
    • ここが画期的:
      • 因果的なDAG(有向非循環グラフ)を構築する手法を提案
      • 言語トークンレベルではなく、変数間の因果関係をモデル化
      • Chain-of-Thoughtとは異なり因果関係の独立性を考慮
      • 教示付きファインチューニングフレームワークを導入
      • 新たに25,368件の因果データセットを作成
    • 主な成果:
      • CLADDERで95.33%の精度を達成
      • 人間の94.8%の性能を初めて上回る
      • HaluEvalで幻覚を10%削減
      • 因果推論能力が向上した4つのLLMで実証
  • LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model (LLaSO: 大規模言語・音声モデルの再現可能な研究のための基盤フレームワーク)
    • 一言で言うと: LLaSOは、モデル研究の再現性を高める新しいフレームワークです。
    • ここが画期的:
      • 完全オープンなエンドツーエンドフレームワークの導入
      • 12Mインスタンスのスピーチテキストアラインメントコーパスを提供
      • 13.5Mインスタンスのマルチタスク指示調整データセットを提供
      • 再現可能な評価基準を確立
      • 公開データに基づく3.8Bパラメーターのリファレンスモデルをリリース
    • 主な成果:
      • LLaSO-Baseは0.72の正規化スコアを達成
      • 公開データのみでトレーニングされた3.8Bパラメータモデル
      • 従来モデルを超える強力な再現可能なベースラインを確立
  • Efficient Mixed-Precision Large Language Model Inference with TurboMind (効率的な混合精度大規模言語モデル推論手法TurboMindの提案)
    • 一言で言うと: 混合精度でのLLM推論により、性能と効率を大幅向上。
    • ここが画期的:
      • ハイブリッド精度形式によるメモリと計算の最適化
      • GEMMパイプラインでのオフラインウエイトパッキング
      • 任意の精度で効率的な注意計算を実現
      • ハードウェアに最適化された自動フォーマット最適化
      • メモリ階層活用のための命令レベル並列処理
    • 主な成果:
      • 最大61%のレイテンシ低下(平均30%削減)
      • 最大156%のスループット向上(平均58%増加)
      • 全テスト構成とハードウェアで一貫した性能向上
  • ALAS: Autonomous Learning Agent for Self-Updating Language Models (自己更新する言語モデルのための自律的学習エージェントALAS)
    • 一言で言うと: 更新情報を自動で学習し精度を大幅向上。
    • ここが画期的:
      • LLMの知識を自動的に更新するモジュール式パイプライン
      • 人間の介入を最小限に抑えた学習カリキュラムの生成
      • ウェブから最新情報を自動取得し、トレーニングデータを生成
      • SFTとDPOによるモデルの細かい調整
      • 各コンポーネントが標準APIで構築されており交換可能
    • 主な成果:
      • ポストカットオフの質問応答精度を15%から90%に向上
      • 知識更新されたクエリに対して90%の精度を達成
      • 手動データセット作成なしでの性能向上
  • A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers (科学のための大規模言語モデルの調査:データ基盤からエージェントの最前線まで)
    • 一言で言うと: 科学研究における知識の表現と応用を革新する技術
    • ここが画期的:
      • 科学データに特化した統一的な分類法を提案
      • 多様な科学分野における専門的モデルの開発
      • 不確実性を含む多様なデータに対応する表現方法の検討
      • AIシステムによる自律的な知識探索と検証のパラダイムシフト
    • 主な成果:
      • 270以上のデータセットを分析し、特異な要求を特定
      • 190以上のベンチマークデータセットで評価プロトコルを進化
      • 閉ループシステムの提案により、AIが実験・検証を行う仕組みを強調
  • AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems? (AgenTracer: LLMエージェントシステムにおける失敗の原因を特定する)
    • 一言で言うと: LLMエージェントの失敗原因を自動で特定する新手法
    • ここが画期的:
      • AgenTracerは複数のエージェントの失敗を効率的に追跡
      • カウンターファクチュアルリプレイと故障注入を活用
      • 従来技術と比較し、精度が向上
      • 自己修正型AIの強化に貢献
    • 主な成果:
      • AgenTracer-8BはWho&Whenベンチマークで最大18.18%の精度向上
      • MetaGPTやMaASで4.8-14.2%の性能改善を実現
  • ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute (ParaThinker: LLMのテスト時計算をスケールする新たな並列思考のパラダイム)
    • 一言で言うと: LLMの思考を並列化し、性能を大幅に向上させる手法を提案。
    • ここが画期的:
      • テスト時の計算を並列化する新しいパラダイムの提案
      • 複数の推論経路を同時に生成・統合するフレームワーク
      • 従来の深さのスケールアップではなく、幅のスケールアップを活用
      • 並列思考による‘トンネルビジョン’問題の回避
      • 小さなモデルでのより優れた推論性能の実現
    • 主な成果:
      • 1.5Bモデルで12.3%、7Bモデルで7.5%の精度向上
      • 平均して8つの並列パスを使用
      • レイテンシはわずか7.1%の増加で実現
  • Manipulating Transformer-Based Models: Controllability, Steerability, and Robust Interventions (トランスフォーマーベースのモデルの操作: 制御性、指向性、堅牢な介入)
    • 一言で言うと: トランスフォーマーモデルの制御手法とその効果を探る研究
    • ここが画期的:
      • プロンプト、活性化、重みの3層での操作手法を提案
      • 制御可能なテキスト生成を最適化問題として定式化
      • パラメータ効率の良い微調整とモデル編集を利用
      • 堅牢性と安全性の分析、敵対的攻撃への対策を検討
      • 最小限の重み更新でターゲット行動の変化を実現
    • 主な成果:
      • 感情制御の成功率が90%以上
      • 事実の修正において高い精度を維持
      • 基本性能を損なわずにターゲット変更を達成
  • Holographic Knowledge Manifolds: A Novel Pipeline for Continual Learning Without Catastrophic Forgetting in Large Language Models (ホログラフィック知識多様体:大規模言語モデルにおける破滅的忘却を防ぐ新しい継続学習パイプライン)
    • 一言で言うと: 継続学習を可能にする新技術で、記憶損失を解消。
    • ここが画期的:
      • 知識表現での破滅的忘却を完全に防止
      • フラクタル量子化による3倍の知識圧縮
      • 100%ホログラフィック統合の実現
      • 1%の増加で1,020回以上の更新をサポート
      • エネルギー削減とカーボンフットプリント低減
    • 主な成果:
      • 破滅的忘却率0%、GEMベースラインに対し無限の改善
      • 訓練時間を53%短縮
      • $92.4Mの5年間節約が予測
      • 21.2%のエネルギー削減
      • 33%のカーボンフットプリント削減
  • GBV-SQL: Guided Generation and SQL2Text Back-Translation Validation for Multi-Agent Text2SQL (GBV-SQL: ユーザー意図に基づいたSQL生成のためのガイド付き生成とSQL2テキスト逆翻訳検証)
    • 一言で言うと: 自然言語からSQLを生成する精度を大幅に向上させる手法
    • ここが画期的:
      • SQLを自然言語に逆翻訳することでユーザー意図を検証
      • 多エージェントフレームワークに基づく支援生成
      • データセットの品質問題に関する新しい視点を提供
      • セマンティックバリデーションのための堅牢なフレームワーク
    • 主な成果:
      • BIRDベンチマークで63.23%の実行精度を達成
      • Spiderベンチマークで96.5%(開発)および97.6%(テスト)の実行精度を達成
      • 不良サンプル除去後に5.8%の精度向上
  • DSCC-HS: A Dynamic Self-Reinforcing Framework for Hallucination Suppression in Large Language Models (DSCC-HS: 大規模言語モデルの幻覚抑制のための動的自己強化フレームワーク)
    • 一言で言うと: 大規模言語モデルの信頼性向上を目指した新手法の提案
    • ここが画期的:
      • 自動再帰的デコーディングに介入するプロアクティブなアプローチ
      • 事実整合性プロキシと幻覚検出プロキシを用いた双プロセス理論の応用
      • 対象モデルを変更せずに適用可能なプラグアンドプレイ方式
      • リアルタイムでのステアリングベクトル注入による動的調整
    • 主な成果:
      • TruthfulQAにおいて99.2%の事実整合性率(FCR)を達成
      • BioGENベンチマークで最高のFActScore46.50を記録
  • Uncertainty Quantification of Large Language Models using Approximate Bayesian Computation (大規模言語モデルの不確実性定量化: 近似ベイズ計算を用いて)
    • 一言で言うと: LLMの不確実性を改善し、医療診断精度を向上させる手法
    • ここが画期的:
      • 近似ベイズ計算(ABC)を用いた新しいアプローチ
      • LLMを確率的シミュレーターとして扱う手法
      • 従来の過信した予測からの脱却
    • 主な成果:
      • 精度が最大46.9%向上
      • Brierスコアを74.4%削減
      • 期待キャリブレーション誤差(ECE)が改善
  • PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning (PromptCoT 2.0: 大規模言語モデルの推論向けプロンプト合成のスケーリング)
    • 一言で言うと: 高品質な問題生成で大規模言語モデルの推論能力を強化。
    • ここが画期的:
      • 手作業のヒューリスティクスを期待値最大化ループで置き換えた。
      • 推論問題の難易度と多様性を向上させる合成プロンプトを生成。
      • 自己学習と教師付きファインチューニングの2つの訓練手法に対応。
    • 主な成果:
      • PromptCoT 2.0を用いたQwen3-30B-A3B-Thinking-2507が新記録を樹立。
      • AIME 24/25、HMMT 25でそれぞれ+4.4, +4.8, +5.3の精度向上。
      • Qwen2.5-7B-Instructが合成プロンプトのみで73.1の精度を達成。
  • Hierarchical Resolution Transformers: A Wavelet-Inspired Architecture for Multi-Scale Language Understanding (階層的解像度トランスフォーマー:多段階言語理解のためのウェーブレットインスパイアアーキテクチャ)
    • 一言で言うと: 階層構造を考慮した新しい言語処理アーキテクチャ
    • ここが画期的:
      • ウェーブレットにインスパイアされた新しいアーキテクチャ
      • 多解像度注意機構による言語処理
      • 累積的なボトムアップ合成とトップダウン文脈化
      • 計算コストをO(nlogn)に削減
      • 階層的な言語構造に合致したデザイン
    • 主な成果:
      • GLUEで平均+3.8%の性能向上
      • SuperGLUEで平均+4.5%の性能向上
      • Long Range Arenaで平均+6.1%の性能向上
      • メモリ使用量を42%削減
      • 推論遅延を37%短縮
  • Fact Grounded Attention: Eliminating Hallucination in Large Language Models Through Attention Level Knowledge Integration (事実基盤注意機構:大規模言語モデルの幻覚を排除するための知識統合)
    • 一言で言うと: 信頼性のある知識で言語モデルの幻覚を完全に排除。
    • ここが画期的:
      • 従来の方法は生成後に修正していたのに対し、FGAは注意機構で直接知識を統合。
      • 信頼できる情報のみを用いた確定的な結果を生成できる。
      • モデルの精度を劇的に向上させ、幻覚を完全に排除。
      • 知識の更新が1秒以内で行われ、再学習が不要。
    • 主な成果:
      • Llama 3.2の正確性が6.3%から99.7%に向上。
      • 1,107の技術的クエリにおいてテストを実施。
      • 知識更新が1秒未満で行われ、従来の方法より大幅に短縮。
  • What Scales in Cross-Entropy Scaling Law? (クロスエントロピーのスケーリング法則におけるスケールとは?)
    • 一言で言うと: 大規模言語モデルの損失を正確に理解する手法を提案。
    • ここが画期的:
      • クロスエントロピーをエラーエントロピー、自己アラインメント、信頼度に分解
      • エラーエントロピーのみがパワーローに従うことを実証
      • 大規模モデルではエラーエントロピーの影響が小さくなることを説明
      • 新しいスケーリング法則の提案によりモデルの挙動をより正確に理解
    • 主な成果:
      • 32モデル全体でエラーエントロピーがパワーローに従うことを確認
      • 小規模モデルでのエラーエントロピーの比率が高いが、大規模モデルでは低下
      • クロスエントロピーのスケーリング法則が大規模では機能しないことを明示化
  • Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection (人間のテキストは異常値:LLMで生成されたテキストを異常検知で見分ける)
    • 一言で言うと: LLM生成テキストの検出を新たな手法で改善
    • ここが画期的:
      • 従来の二項分類をアウトオブディストリビューション検知に再定義
      • 人間のテキストを分布外の異常値として扱うアプローチ
      • DeepSVDDとHRNを用いた一クラス学習手法の導入
      • エネルギーベースのスコア学習技術の利用
      • 多言語や未見モデルでも高い汎化能力を実現
    • 主な成果:
      • DeepFakeデータセットで98.3%のAUROCを達成
      • FPR95が8.9%に減少
      • 多様なテキスト設定でのロバスト性を実証
      • 複数データセットで効果を確認
  • LLMs Can Get “Brain Rot”! (LLMは「脳の劣化」に陥る可能性がある!)
    • 一言で言うと: LLMの継続的なジャンクデータ Exposureが能力を低下させる。
    • ここが画期的:
      • LLMの劣化仮説を提唱し実験で検証
      • データの質がモデルの能力に与える影響を明示化
      • ユーザーの関与度と意味的質に基づく評価手法の確立
      • 思考のスキップ現象を特定し、エラーの主要因を分析
      • LLMの運用における定期的な「認知健康チェック」の必要性を示唆
    • 主な成果:
      • LLMへのジャンクデータ訓練で推論能力が最大34%低下
      • ジャンクデータ比率が上がると理解度が74.9から57.2に減少
      • 音声データの人気が劣化の指標として有用であることを確認
  • Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs (モデルアーキテクチャの拡張法則:推論効率の高いLLMを目指して)
    • 一言で言うと: 推論効率と精度を両立させるLLMの設計法を提案。
    • ここが画期的:
      • モデルアーキテクチャを考慮した条件付き拡張法則を導入
      • MLPとアテンションのパラメータ比を分析
      • グループクエリアテンション(GQA)の影響を評価
      • 効率的で精度の高いアーキテクチャを特定する検索フレームワークを開発
    • 主な成果:
      • 最適化されたアーキテクチャは最大2.1%高い精度を達成
      • 42%の推論スループット向上を実現
      • 80Mから3Bパラメータ、8Bから100Bトークンで200以上のモデルをトレーニング
  • Beyond Prompt Engineering: Neuro-Symbolic-Causal Architecture for Robust Multi-Objective AI Agents (プロンプトエンジニアリングを超えて: 頑健な多目的AIエージェントのための神経シンボリック因果アーキテクチャ)
    • 一言で言うと: 新しいアーキテクチャでLLMの信頼性を向上させる手法
    • ここが画期的:
      • 神経シンボリック因果アーキテクチャの導入
      • LLM戦略家と形式的制約エンジンの統合
      • 反事実推論のための因果推論モジュールの追加
      • 従来のアーキテクチャを超えるプロンプト無依存の頑健性
      • オープンソース実装とインタラクティブデモの提供
    • 主な成果:
      • Chimeraは最大で$2.2Mの利益を達成
      • LLMエージェントはシナリオによって$99Kの損失を被る
      • ブランド信頼度が最大+20.86%向上
      • TLA+による形式検証で全シナリオにわたって制約違反ゼロ
  • Continuous Autoregressive Language Models (連続的自己回帰言語モデル)
    • 一言で言うと: 言語生成の効率を飛躍的に向上させる新手法
    • ここが画期的:
      • 次トークン予測から連続ベクトル予測へシフト
      • 連続ベクトルで生成ステップをK分の1に削減
      • 99.9%の高精度でトークンを復元可能
      • 新たなモデルツールキットによるサンプリング制御
      • 計算コストを大幅に削減しながら高性能を実現
    • 主な成果:
      • 強力な従来手法と同等の性能を低コストで達成
      • 生成ステップ数をK倍短縮
      • トークン復元精度99.9%以上
  • Federated Attention: A Distributed Paradigm for Collaborative LLM Inference over Edge Networks (連合アテンション:エッジネットワーク上での協調型LLM推論のための分散パラダイム)
    • 一言で言うと: 連合アテンションにより、プライバシーを保護したLLM推論を実現。
    • ここが画期的:
      • 連合型自己注意機構の導入
      • プライバシーを保護したまま協調処理が可能
      • 通信効率と計算効率の両立
      • 異なるデータの参加者間での動的相互作用解析
      • スパースアテンションと適応型KV集約による最適化
    • 主な成果:
      • 通信・計算効率を50%向上
      • 応答品質と効率のトレードオフを理論的に分析
      • エッジデプロイ時のスケーラビリティ向上
  • TiDAR: Think in Diffusion, Talk in Autoregression (TiDAR:拡散で考え、自動回帰で話す)
    • 一言で言うと: TiDARは質と効率を両立させた新しい言語モデルです。
    • ここが画期的:
      • 拡散モデルと自動回帰モデルのハイブリッドアーキテクチャ
      • 単一のフォワードパスでトークンの生成と最終出力を実現
      • 特殊な構造的アテンションマスクを使用
      • GPUの計算密度を活用し、効率を高めた
      • 低オーバーヘッドなスタンドアロンモデル設計
    • 主な成果:
      • 4.71xから5.91xのトークン生成速度向上
      • 従来の自動回帰モデルと同等の質を達成
      • 測定されたスループットがスペキュレイティブデコーディングを上回る
      • DreamやLladaなどの従来の拡散モデルを超える性能
  • SGuard-v1: Safety Guardrail for Large Language Models (SGuard-v1: 大規模言語モデルの安全ガードレール)
    • 一言で言うと: 大規模言語モデルの安全性を高める新技術
    • ここが画期的:
      • 二つの専門モデル(ContentFilterとJailbreakFilter)を使用
      • 多言語対応(12言語)
      • 軽量設計でデプロイコストを削減
      • 66種類以上の攻撃手法に対応
      • 複数クラスの安全予測と信頼度スコアを提供
    • 主な成果:
      • 最先端の安全性能を達成
      • 1.4百万件の訓練データを使用
      • MLCommonsの危険分類に準拠
  • Securing AI Agents Against Prompt Injection Attacks (プロンプトインジェクション攻撃からAIエージェントを守る)
    • 一言で言うと: プロンプト攻撃に対する多層防御フレームワークを提案。
    • ここが画期的:
      • 新たに847の攻撃テストケースを含むベンチマークの提案
      • プロンプトインジェクション攻撃に対する多層防御フレームワークの構築
      • 埋め込み型異常検知を用いたコンテンツフィルタリング
      • 階層的プロンプトガードレールの導入
      • 多段階応答確認メカニズムの評価
    • 主な成果:
      • 成功攻撃率を73.2%から8.7%に削減
      • タスクパフォーマンスは94.3%を維持
  • Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents (Memory-T1: マルチセッションエージェントにおける時間的推論のための強化学習)
    • 一言で言うと: 対話履歴の時間推論を強化学習で最適化する新手法
    • ここが画期的:
      • 時間に敏感なメモリ選択ポリシーを強化学習で学習
      • 粗密戦略で対話履歴を段階的に選別
      • 多層報酬関数による正確な証拠の選択
      • チャットボットの時間的一貫性を高める報酬設計
      • 128kトークンまでの堅牢性を確保
    • 主な成果:
      • 7Bモデルで67.0%の新しい最先端スコアを達成
      • 14Bベースラインを10.2%上回るパフォーマンス向上
      • 時間的一貫性と証拠根拠の報酬で15.0%の性能向上を実現

コンピュータービジョン関連論文

  • Looking Locally: Object-Centric Vision Transformers as Foundation Models for Efficient Segmentation (局所的な視点:効率的なセグメンテーションのためのオブジェクト中心ビジョントランスフォーマー)
    • 一言で言うと: FLIPは高効率でオブジェクトセグメンテーションを実現するモデルです。
    • ここが画期的:
      • FLIPは生物学的にインスパイアされたトップダウンアテンションを使用
      • 高解像度の処理をオブジェクト中心に特化
      • 1000倍少ないパラメータで高精度を実現
      • スケール不変設計により非常に小さなオブジェクトのセグメンテーションが可能
      • リアルタイムのオブジェクト中心アプリケーションに応用可能
    • 主な成果:
      • FLIP-Tinyは78.24%のIoUを達成し、SAM-Hの75.41%を上回る
      • FLIP-Largeは80.33%のIoUを達成し、約6倍速く動作
      • 5つのベンチマークでFLIPがSAMを一貫して上回る
      • 非常に小さなオブジェクトを正確にセグメントできる
  • Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation (次世代トークンを超えて:自己回帰的視覚生成のためのNext-X予測)
    • 一言で言うと: 新しいトークン概念で自己回帰生成の精度を向上。
    • ここが画期的:
      • 従来のトークン定義を拡張し、柔軟な予測単位を提案
      • 教師強制によるバイアスを軽減するノイジーコンテキスト学習を導入
      • マルチスケールの空間構造を捉える能力を向上
      • 2D画像構造に最適なトークン表現の探求
    • 主な成果:
      • xAR-Bモデルは20倍の高速推論を達成
      • FIDスコア1.24で新たな最先端を樹立
      • 675Mモデルに対して172Mで性能が向上
  • OpenAVS: Training-Free Open-Vocabulary Audio Visual Segmentation with Foundational Models (OpenAVS: 学習なしでのオープンボキャブラリー音声視覚セグメンテーション)
    • 一言で言うと: 音声と映像の情報を統合した新しいセグメンテーション手法
    • ここが画期的:
      • 学習なしで音声と映像を統合する新技術
      • テキストを用いたオープンボキャブラリーの適用
      • マルチメディアの基盤モデルを利用したアプローチ
      • 任意のAVSモデルと統合可能なフレームワーク
      • 大規模無ラベルデータを活用した自己学習導入
    • 主な成果:
      • mIoUが約9.4%向上
      • F-scoreが約10.9%向上
      • 既存の手法と比べて大幅に高い性能を実現
      • 3つのベンチマークデータセットでの優れた結果
  • CF-DETR: Coarse-to-Fine Transformer for Real-Time Object Detection (CF-DETR: リアルタイム物体検出のための粗から細へのトランスフォーマー)
    • 一言で言うと: リアルタイムでの物体検出を実現する新手法。
    • ここが画期的:
      • 粗から細への推論手法を導入
      • 重要度に応じた選択的細部推論
      • マルチレベルバッチ推論の実装
      • トランスフォーマー特性を活用したリソース管理
      • 安全性を考慮したタスクの分割
    • 主な成果:
      • 安全クリティカルオブジェクトの検出精度を大幅向上
      • 従来手法と比較して全体的な検出精度が向上
      • 厳格なタイミング保証を達成
  • “PhyWorldBench”: A Comprehensive Evaluation of Physical Realism in Text-to-Video Models (“PhyWorldBench”:テキストから動画生成モデルにおける物理的リアリズムの包括的評価)
    • 一言で言うと: 物理法則に基づく動画生成モデルの性能評価手法を提案。
    • ここが画期的:
      • 物理法則に基づく評価基準「PhyWorldBench」を提案。
      • 物体の動きやエネルギー保存など様々な物理現象を評価対象に。
      • 現実世界の物理を意図的に無視する「Anti-Physics」カテゴリを導入。
      • 大規模なヒト評価とゼロショットでの物理リアリズム評価手法を設計。
      • 物理現象ごとの精度向上のためのプロンプト作成に関する提案。
    • 主な成果:
      • 12の最先端テキストから動画生成モデルを比較評価。
      • 1,050の選定されたプロンプトを使用して出力を体系的にテスト。
      • 多様な物理現象におけるモデルのパフォーマンス課題を特定。
      • プロンプトタイプに応じたモデルの物理法則遵守の実態を分析。
  • Vec2Face+ for Face Dataset Generation (顔データセット生成のためのVec2Face+)
    • 一言で言うと: 高精度な顔認識用合成データセット生成法
    • ここが画期的:
      • 画像特徴から直接画像を生成するモデル
      • 属性の変動を増加させるAttrOPアルゴリズム
      • LoRAを用いた効率的なポーズ制御手法
      • 内外のアイデンティティの一貫性を保持
      • 合成データがCASIA-WebFaceを上回る精度
    • 主な成果:
      • VFace10Kデータセットで7つの実世界テストセットで最先端精度を達成
      • VFace100KとVFace300KデータセットでCASIA-WebFaceを上回る精度
      • 合成データセットのうち、1つが双子検証でランダム推測を上回る
  • See Different, Think Better: Visual Variations Mitigating Hallucinations in LVLMs (視覚的バリエーションによるLVLMの幻覚軽減)
    • 一言で言うと: 視覚情報を使ったLVLMの幻覚を減らす手法を提案。
    • ここが画期的:
      • ViHalluは視覚中心の幻覚軽減フレームワーク。
      • 視覚的バリエーション画像を生成し、視覚指示を構築。
      • 細かい視覚理解を強化するためにモデルを再調整。
      • 視覚コンテンツとテキストの対応関係をより正確に把握。
    • 主な成果:
      • 複数のベンチマークで視覚理解が向上。
      • 幻覚の傾向が大幅に減少。
      • ViHallu-Instructionデータセットを公開。
  • When Deepfake Detection Meets Graph Neural Network:a Unified and Lightweight Learning Framework (深層偽造検出とグラフニューラルネットワークの統合的軽量学習フレームワーク)
    • 一言で言うと: 軽量なグラフニューラルネットワークで深層偽造を効果的に検出。
    • ここが画期的:
      • 動画を構造化グラフとして表現し、空間・時間・スペクトルの共通推論を実現
      • 学習可能なスペクトルフィルターと時間差分モデルを統合
      • 42.4倍少ないパラメータで優れた性能を達成
    • 主な成果:
      • 多様なベンチマークデータセットで優れた性能を達成
      • 未見の操作に対しても強いロバスト性を示す
      • 最新モデルに比べ42.4倍少ないパラメータで運用可能
  • ERF-BA-TFD+: A Multimodal Model for Audio-Visual Deepfake Detection (音声・映像のディープフェイク検出のためのマルチモーダルモデルERF-BA-TFD+)
    • 一言で言うと: 音声と映像を同時に処理するディープフェイク検出モデル
    • ここが画期的:
      • 音声と映像の同時処理による精度向上
      • 長距離依存性のモデル化で微細な差異を捕捉
      • 従来のセグメントよりも実際のデータで評価
      • 高精度・高速な検出が可能に
      • オーディオとビジュアルの融合技術を使用
    • 主な成果:
      • DDL-AVデータセットでの最先端性能を達成
      • 精度と処理速度で既存技術を上回る
      • ディープフェイク検出競技会で1位を獲得
  • TriLiteNet: Lightweight Model for Multi-Task Visual Perception (TriLiteNet: マルチタスク視覚認識のための軽量モデル)
    • 一言で言うと: 安全な自動運転に向けた効率的な視覚認識モデル
    • ここが画期的:
      • 同時に複数の視覚タスクを処理可能
      • 低コストで高性能を実現
      • パラメータ数を最小限に抑えた設計
      • リアルタイム処理に最適化
      • 組み込みデバイスでの低遅延を達成
    • 主な成果:
      • 車両検出のリコールが85.6%
      • 走行可能領域セグメンテーションでmIoUが92.4%
      • レーンラインセグメンテーションの精度が82.3%
      • TriLiteNet_baseはわずか2.35Mパラメータ
      • 最小構成で0.14Mパラメータを実現
  • FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark (FLUX-Reason-6MとPRISM-Bench:百万規模のテキストから画像への推論データセットと包括的なベンチマーク)
    • 一言で言うと: テキストから画像生成のための新しいデータセットと評価基準を提案。
    • ここが画期的:
      • 6百万の高品質な画像と2000万のバイリンガル説明を含むデータセットを新規構築。
      • 画像生成のプロセスを詳細に示すGeneration Chain-of-Thoughtを導入。
      • 初の推論重視の評価標準PRISM-Benchを提案し、七つの異なるトラックを設定。
      • 人間の価値観に基づいた評価を行うために、先進的な視覚言語モデルを利用。
      • 大規模な計算リソースを要するデータキュレーションを実施し、コミュニティに提供。
    • 主な成果:
      • 19の先進モデルを評価した結果、パフォーマンスに重要なギャップを発見。
      • 特定の改善が必要な領域を明らかにし、次の推論重視のT2I生成への道を示す
  • AD-SAM: Fine-Tuning the Segment Anything Vision Foundation Model for Autonomous Driving Perception (AD-SAM: 自動運転に特化したセマンティックセグメンテーションモデル)
    • 一言で言うと: 自動運転用に最適化されたセグメンテーションモデルの提案。
    • ここが画期的:
      • デュアルエンコーダーによる多スケール融合表現
      • 変形可能デコーダーによる進化的な改良
      • ハイブリッド損失関数で精度向上
      • 異なるオブジェクト形状への対応能力
      • 自動運転への特化したアーキテクチャ
    • 主な成果:
      • Cityscapesで68.1 mIoUを達成し、+22.9の向上
      • BDD100Kで59.5 mIoUを達成し、+19.2の向上
      • 学習速度がベンチマークモデルの2倍
      • 1000サンプルで0.607 mIoUを維持
  • DARN: Dynamic Adaptive Regularization Networks for Efficient and Robust Foundation Model Adaptation (DARN: 効率的かつ堅牢なファウンデーションモデル適応のための動的適応正則化ネットワーク)
    • 一言で言うと: ファウンデーションモデルの適応をより効率的かつ柔軟に実現する手法。
    • ここが画期的:
      • タスクの難易度を推定する軽量タスク複雑度予測器(TCP)を導入
      • 予測された複雑度に基づいてドロップアウト率を動的に調整する適応型ドロップアウト変調(ADM)
      • チャネルの活性化を調整する動的キャパシティゲーティング(DCG)を用いる
    • 主な成果:
      • マルチタスクGeoBenchベンチマークで新しい最先端(86.66% mIoU)を達成
      • 効率的適応において最先端競争力を持つ精度(90.5% mIoU)を実現
      • 異常なデータに対する一般化能力が向上し、+9.5 pp mIoUを記録
      • 腐敗エラーが17%減少し、堅牢性が向上
  • CrossJEPA: Cross-Modal Joint-Embedding Predictive Architecture for Efficient 3D Representation Learning from 2D Images (CrossJEPA: 2D画像から効率的に3D表現を学ぶためのクロスモーダル共通埋め込み予測アーキテクチャ)
    • 一言で言うと: 2D画像を使って高効率な3D表現学習を実現する手法
    • ここが画期的:
      • 従来のJEPAを超えたマスキングに依存しない設計
      • 画像基盤モデルの知識を活用した埋め込みの推論
      • クロスドメイン投影情報に基づく予測器の条件付け
      • メモリ効率に優れたターゲット埋め込みキャッシング機構
    • 主な成果:
      • ModelNet40で94.2%の線形プロービング精度を達成
      • ScanObjectNNで88.3%の精度を達成
      • わずか14.1Mの事前学習パラメータを使用
      • 標準のシングルGPUで約6時間の事前学習

深層学習関連論文

  • LTX-Video: Realtime Video Latent Diffusion (LTX-Video: リアルタイム映像潜在拡散モデル)
    • 一言で言うと: 映像生成の効率と質を向上させる新手法
    • ここが画期的:
      • Video-VAEとデノイジングトランスフォーマーを統合
      • 高圧縮率1:192を実現
      • スパティオテンポラルな自己注意を効率化
      • 細部表現を維持するVAEデコーダの設計
      • テキストと画像からの映像生成を同時にサポート
    • 主な成果:
      • 768×512解像度の24fps映像を2秒で生成
      • 従来の同規模モデルを上回る性能
      • 生成品質を保ちながら高速度を実現
  • Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models (生成と再構築の最適化ジレンマを解決する潜在拡散モデル)
    • 一言で言うと: 潜在拡散モデルの生成性能を劇的に向上させる手法
    • ここが画期的:
      • 潜在空間を視覚基盤モデルに整列させる新手法提案
      • 再構築と生成の性能向上を両立
      • トレーニング効率を大幅に改善したLightningDiTの開発
      • オリジナルDiTに対して21倍以上の収束スピードアップ
    • 主な成果:
      • ImageNet 256×256生成でFIDスコア1.35を達成
      • 64エポックでFIDスコア2.11を記録
      • 従来手法よりもトレーニング効率が向上
  • Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques (スパースグラフ処理技術によるトランスフォーマーのコンテキスト長の延長)
    • 一言で言うと: トランスフォーマーの注意機構を最適化し、長いシーケンス処理を可能にする。
    • ここが画期的:
      • トークンをグラフのノードと見なし、注意機構をグラフ処理として実装
      • 従来の二次元計算を超えて真のスパース処理を実現
      • さまざまな注意マスクを使った広範な実験による効果検証
    • 主な成果:
      • 従来技術に比べて大幅な処理速度向上を実現
      • 160万トークンの長さのシーケンスを単一のNVIDIA A100 GPUで処理可能
      • 計算量を必要な分だけに最適化
  • Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator (直接識別最適化:あなたの尤度ベースの視覚生成モデルは実はGAN識別器である)
    • 一言で言うと: 視覚生成モデルの限界を克服する新手法を提案。
    • ここが画期的:
      • 尤度ベースの生成訓練とGAN的識別を統合
      • 従来の共同訓練を不要とし、効率的なファインチューニングを実現
      • 自己生成負の信号を利用して逆KLを活用
      • モード覆いの課題を克服する新フレームワーク
    • 主な成果:
      • CIFAR-10でのFIDスコアを1.79から1.30に改善
      • ImageNet-64でのFIDスコアを1.58から0.97に改善
      • ImageNet 512×512でのFIDスコアを1.96から1.26に改善
      • 少なくとも1%の事前トレーニングエポックでの進行的モデル改善
  • Treble Counterfactual VLMs: A Causal Approach to Hallucination (トレブル・カウンターファクチュアルVLM:幻覚を解消する因果アプローチ)
    • 一言で言うと: 因果関係を利用してVLMの幻覚を軽減する手法。
    • ここが画期的:
      • 視覚と言語の因果関係を明示化
      • 幻覚の原因となるモーダリティ間の直接的影響を分析
      • 因果グラフを用いた構造的手法を導入
      • テスト時の介入モジュールによる動的なモーダリティ調整
      • 多様な手法を組み合わせて信頼性を向上
    • 主な成果:
      • 幻覚の発生を大幅に削減
      • タスクパフォーマンスを維持しつつ信頼性が向上
      • 公開されたコードで再現性の向上を実現
  • Evolution Meets Diffusion: Efficient Neural Architecture Generation (進化と拡散の融合:効率的なニューラルアーキテクチャ生成)
    • 一言で言うと: 進化的手法を用いてアーキテクチャを迅速に生成する技術。
    • ここが画期的:
      • 進化アルゴリズムを活用した新しい生成手法
      • 拡散モデルのグローバル探索能力の向上
      • トレーニング不要の効率的なアーキテクチャ生成
      • ランダムから最適なアーキテクチャへの遷移の改善
      • 高速な推論速度を実現
    • 主な成果:
      • アーキテクチャの精度を最大10.45%向上
      • 推論速度が平均50倍向上
      • トレーニングの時間を完全に排除
  • Training-Free Efficient Video Generation via Dynamic Token Carving (ダイナミックトークンカービングによる効率的な映像生成の新手法)
    • 一言で言うと: 従来の半分の時間で高品質映像を生成します。
    • ここが画期的:
      • ダイナミックアテンションカービングの導入
      • 解像度を段階的に上げる新しい方法
      • 高解像度ラテントが不要な初期デノイジングステップ
      • 後半ステップで密なアテンションが不要
      • モデル再訓練なしで使用可能
    • 主な成果:
      • VBenchでのスピードアップ8.83倍を達成
      • 性能低下はわずか0.01%
      • 推論時間を数分から数秒に短縮
  • V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning (V-JEPA 2: 自己教師あり生成動画モデルによる理解、予測、計画の実現)
    • 一言で言うと: 自己教師あり学習を用いた動画理解・予測モデルの提案。
    • ここが画期的:
      • インターネット規模の動画データと少量のロボットデータを組み合わせたアプローチ
      • タスク特化型モデルを超える人間の動作予測精度
      • 自己教師あり学習を用いたロボット計画タスクへの応用
      • タスク特化なしで物体の拾い上げと配置を実現
      • 大規模言語モデルとの連携による映像理解の向上
    • 主な成果:
      • 77.3の精度で動作理解を実現(Something-Something v2)
      • 39.7のリコールで人間の動作予測精度を達成(Epic-Kitchens-100)
      • PerceptionTestで84.0、TempCompassで76.9の結果を出力
      • 62時間未満のロボット動画で新たな計画モデルを後訓練
  • Revela: Dense Retriever Learning via Language Modeling (Revela: 言語モデルを用いた密なリトリーバ学習)
    • 一言で言うと: 言語モデルを活用した新しいリトリーバ学習法を提案。
    • ここが画期的:
      • 自己教師あり学習を用いたリトリーバ学習の新フレームワーク
      • ドキュメント間の意味的依存性をモデル化
      • 次トークン予測に基づくリトリーバ最適化
      • 従来の手法と比べて学習データ量を大幅に削減
      • スケーラビリティに優れたアプローチ
    • 主な成果:
      • CoIRでのパフォーマンスが大規模な教師ありモデルを上回る
      • BRIGHTでは同等の性能を達成
      • BEIRで既存の最先端結果に匹敵
      • ~1000倍少ないトレーニングデータで成果を上げた
      • 10倍少ない計算資源で実現
  • LaVi: Efficient Large Vision-Language Models via Internal Feature Modulation (LaVi: 内部特徴の調整による効率的な大規模視覚言語モデル)
    • 一言で言うと: 視覚と言語の融合を効率的に実現する新手法
    • ここが画期的:
      • 視覚と言語の統合を再考した新しいアプローチ
      • 内部特徴調整による効率的な視覚情報の取り込み
      • 従来のトークン結合に依存せず、軽量な変換を導入
      • LLMの言語的事前知識を保持しながら特性を調整
      • スケーラビリティと効率を大幅に向上
    • 主な成果:
      • FLOPsを94.0%削減
      • 推論速度が3.1倍向上
      • メモリ使用量を半分に削減
      • 15の画像および動画ベンチマークで最先端の性能を達成
  • ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents (ZARA: 知識とリトリーバル駆動型LLMエージェントによるゼロショット動作時系列分析)
    • 一言で言うと: 動作時系列からのゼロショット活動認識を実現するフレームワーク
    • ここが画期的:
      • 動作ペアの特徴を自動的に抽出する知識ベースを統合
      • マルチセンサによるリトリーバルモジュールを活用
      • 階層的エージェントパイプラインによるアクティビティ予測と説明の生成
      • 微調整やタスク特化型分類器なしでの柔軟なHARを実現
    • 主な成果:
      • 8つのHARベンチマークでSOTAのゼロショット性能を達成
      • マクロF1スコアで最強ベースラインを2.53倍上回る
      • 各モジュールの必要性を示すアブレーションスタディを実施
  • Whisfusion: Parallel ASR Decoding via a Diffusion Transformer (Whisfusion: 拡散トランスフォーマーによる並列音声認識デコード)
    • 一言で言うと: 音声認識の遅延を大幅に削減する新手法。
    • ここが画期的:
      • 事前学習済みのWhisperエンコーダと拡散デコーダを融合
      • 完全な音響コンテキストを並列処理
      • 軽量なクロスアテンションアダプタを採用
      • バッチ並列・マルチステップデコード戦略を導入
    • 主な成果:
      • Whisper-tinyよりもワード誤り率(WER)が低い(8.3% vs. 9.7%)
      • 長い発話(>20秒)では最大2.6倍の処理速度向上
      • 短音声でのレイテンシは競争力のある水準を維持
  • eMamba: Efficient Acceleration Framework for Mamba Models in Edge Computing (エッジコンピューティング向けMambaモデルの効率的加速フレームワークeMamba)
    • 一言で言うと: エッジデバイス向けのMambaモデルを加速する新技術。
    • ここが画期的:
      • 従来の複雑な正規化層を軽量な代替品に置き換え
      • 高コストな演算を近似することで効率を最大化
      • 近似を考慮したニューラルアーキテクチャ探索を実施
      • ハードウェア最適化されたフレームワークを提供
    • 主な成果:
      • 1.63-19.9 imes少ないパラメータで競争力のある精度を達成
      • レイテンシが4.95-5.62 imes低下
      • スループットが2.22-9.95 imes向上
      • 面積が4.77 imes小さく、消費電力が9.84 imes低減
  • Hydra: A Modular Architecture for Efficient Long-Context Reasoning (Hydra: 効率的な長文推論のためのモジュラーアーキテクチャ)
    • 一言で言うと: 長文推論を効率化する新しい構造「Hydra」を提案。
    • ここが画期的:
      • リソース制約に対応したモジュール式設計
      • スパースグローバルアテンションによる効率的インプット処理
      • エキスパートモデルによるドメイン特化
      • デュアルメモリに基づく推論ワークスペースと選択的リトリーバル
    • 主な成果:
      • 合成データでスループットが3.01倍向上
      • WikiTextデータでスループットが3.0倍向上
      • 複数ステップの論理組成で精度が10倍向上
  • AUDETER: A Large-scale Dataset for Deepfake Audio Detection in Open Worlds (AUDETER:オープンワールドにおけるディープフェイク音声検出のための大規模データセット)
    • 一言で言うと: ディープフェイク音声検出のための新たな大規模データセットを提案。
    • ここが画期的:
      • 多様な音声合成のための4,500時間超の音声データを提供
      • 従来のデータセットでは対応困難な現実世界に基づく課題を解決
      • 最新のTTSモデルとボコーダーを使用した生成音声を収録
      • 包括的な評価のための汎用モデルの開発を支援
    • 主な成果:
      • AUDETERでトレーニングしたモデルは、誤検知率を44.1%から51.6%削減
      • 多様なクロスドメインサンプルでの誤検知率はわずか4.17%
      • 従来のデータセットでトレーニングしたモデルは一般化に失敗
  • ToMA: Token Merge with Attention for Diffusion Models (ToMA: 拡散モデルのための注意機構を用いたトークン結合)
    • 一言で言うと: トークン結合で拡散モデルの効率を改善する手法
    • ここが画期的:
      • トークン結合をサブモジュラ最適化問題として再定義
      • GPUに最適化された線型変換によるマージ/アンマージ操作
      • 潜在的局所性とシーケンシャル冗長性の活用
    • 主な成果:
      • SDXL生成遅延を24%削減
      • Flux生成遅延を23%削減
      • DINOのΔが0.07未満
  • Qwen3-Omni Technical Report (Qwen3-Omni 技術レポート)
    • 一言で言うと: テキスト、画像、音声、動画で最先端の性能を発揮
    • ここが画期的:
      • テキスト、画像、音声、動画を統一したモデル
      • 音声タスクでの特出した性能
      • 多言語対応の流暢なテキスト及び音声生成
      • リアルタイム音声合成のための軽量構造
      • 思考モデルによるマルチモーダル推論強化
    • 主な成果:
      • 36の音声・音声ビジュアルベンチマーク中、32でオープンソースSOTA達成
      • 22のベンチマークで全体SOTA
      • 初パケットレイテンシ234 msを実現
  • LOTFormer: Doubly-Stochastic Linear Attention via Low-Rank Optimal Transport (LOTFormer: 低ランク最適輸送による二重確率線形アテンション)
    • 一言で言うと: 長い文脈を効率的に扱う新しいアテンション手法。
    • ここが画期的:
      • LINEAR時間かつ二重確率を実現するアテンションメカニズム
      • 低ランク制約により計算効率を向上
      • 最適輸送の考え方を応用した革新的な手法
      • トークン間の情報流れを改善する工夫
    • 主な成果:
      • Long Range Arenaベンチマークで最先端の性能を達成
      • 従来の線形アテンション手法を上回る精度
      • 計算時間をO(nr)に削減
  • SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention (Sparse-Linear Attention:拡散トランスフォーマーにおけるスパース性の超越)
    • 一言で言うと: 注意計算の効率を20倍向上させる新技術。
    • ここが画期的:
      • 注意重みを重要、マージナル、無視可能に分類
      • スパースと線形のアプローチを融合した新しい注意機構
      • シングルGPUカーネルでの計算を最適化
      • 微調整でモデルの生成品質を維持しながら計算量を削減
    • 主な成果:
      • 注意計算を95%削減
      • 注意計算で13.7倍の速度向上
      • 映像生成で2.2倍のエンドツーエンド速度向上
  • Echo Flow Networks (エコーフローネットワーク)
    • 一言で言うと: 長期間の時系列予測を効率的に実現する新手法。
    • ここが画期的:
      • 新しいMatrix-Gated Composite Random Activation (MCRA)を導入
      • 複雑な時間的ダイナミクスを持つ拡張エコー状態ネットワークを使用
      • 無限の履歴メモリから特徴を選択する二重ストリームアーキテクチャを提案
      • 計算効率を損なわずに表現能力を大幅に向上
    • 主な成果:
      • トレーニング速度が従来の手法の4倍向上
      • モデルサイズを3倍小型化
      • 予測誤差を43%から35%に削減、相対的に20%の改善
      • EchoFormerが5つのベンチマークで新しい最先端性能を達成
  • TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models (TimeOmni-1: 時系列データを用いた複雑な推論を促進するモデル)
    • 一言で言うと: 時系列推論を強化するための新たなモデルとデータセット。
    • ここが画期的:
      • 初の包括的な時系列推論スイートTSR-Suiteを提案
      • シナリオ理解や因果関係発見を含む3つの基本能力を正式に定義
      • 複数のタスクシナリオとカスタマイズされた報酬関数を統合した段階的なモデル学習
      • 実世界の問題に対応するためのユニファイド推論モデルTimeOmni-1を初めて開発
    • 主な成果:
      • 因果関係発見精度が64.0%(GPT-4.1の35.9%と比較)
      • イベント認識予測タスクで有効な応答率が6%以上向上
      • 全タスクで強いアウト・オブ・ディストリビューション一般化を実現
  • Dolphin v1.0 Technical Report (Dolphin v1.0 技術報告)
    • 一言で言うと: 超音波診断の為の新しいAIモデルを提案。
    • ここが画期的:
      • 初の大規模マルチモーダル超音波基盤モデルの導入
      • 多様な臨床タスクを一つのビジョン・言語モデルで統一
      • ドメイン特化型事前学習と強化学習による透明性の向上
      • 2百万規模のマルチモーダルデータセットの構築
      • 診断推論と解釈性の強化
    • 主な成果:
      • Dolphin R1はU2-Benchで0.5835を達成、2位のモデルを二倍上回る
      • Dolphin v1.0は分類、検出、回帰、報告生成で信頼性ある性能を発揮
      • 推論強化型の学習が診断精度と一貫性を向上
      • 新しいフレームワークが競争力を示す
  • EvoEngineer: Mastering Automated CUDA Kernel Code Evolution with Large Language Models (EvoEngineer: 大規模言語モデルによる自動CUDAカーネル最適化のマスタリング)
    • 一言で言うと: EvoEngineerはCUDAカーネルの自動最適化を実現する手法です。
    • ここが画期的:
      • CUDAカーネル最適化を明確に定義したフレームワークを初めて提唱
      • 性能と正確性のバランスをとるための具体的な戦略を提供
      • 従来の手法と異なり、正確性基準を満たす自動最適化を実現
      • 91の実世界CUDAカーネルに対して徹底的な実験を実施
    • 主な成果:
      • 平均で基準CUDAカーネルに対して2.72倍のスピードアップを達成
      • 69.8%のコード有効性率を達成し、既存手法を上回る
      • 最大36.75倍のスピードアップを実現
      • 50の操作のうち28(56.0%)で2倍以上の加速を達成
  • Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation (統一型ワールドモデル:記憶増強による視覚ナビゲーションの計画と先読み)
    • 一言で言うと: 未来の状態を想像し、視覚ナビゲーションを向上させる手法。
    • ここが画期的:
      • 視覚的未来予測と計画を統合した単一のモデル
      • アクション決定を視覚的に想像された成果に基づく
      • 短期的な知覚情報と長期的な軌道コンテクストを統合する階層型メモリ機構
      • 従来のモジュール型フレームワークとの明確なコントラスト
    • 主な成果:
      • ナビゲーション成功率を最大30%向上
      • 強力なベースラインと比較して軌道誤差を大幅に削減
      • 未見のTartanDriveデータセットに対して印象的なゼロショット一般化を実現
  • On the Impossibility of Retrain Equivalence in Machine Unlearning (機械的忘却における再学習同等性の不可能性)
    • 一言で言うと: 機械的忘却は再学習同等性を達成できないことを示す。
    • ここが画期的:
      • 多段階の訓練が機械的忘却に根本的な障害をもたらすことを理論的に証明
      • 再学習同等性は学習の順序に依存するため実現不可能
      • 実験でLLMの異なる訓練経路が挙動に与える影響を検証
      • 様々な学習経路が異なる未学習結果を生むことを明らかに
      • 訓練履歴の情報が乏しい場合、機械的忘却の定義を再考する必要性
    • 主な成果:
      • 模型の未学習後、GSM8Kの精度が経路によって20%以上変動
      • LLMモデル(1B~14B)で異なる順序の訓練が挙動の違いを生むことを確認
      • 一部の学習経路はモデルの未学習速度を遅くすることが明らかに
  • LongCat-Flash-Omni Technical Report (LongCat-Flash-Omni技術報告)
    • 一言で言うと: 5600億パラメータを持つ新しいマルチモーダルモデルの提案
    • ここが画期的:
      • カリキュラムに基づく進行的トレーニング戦略を採用
      • 効率的なマルチモーダル認識と音声再構成モジュールを統合
      • ゼロ計算専門家を用いた高性能Mixture-of-Expertsアーキテクチャ
      • モダリティ非依存型並列処理スキームによる効率的なデータ管理
      • オープンソースモデルとして公開し未来の研究を支援
    • 主な成果:
      • リアルタイムでのオーディオ・ビジュアルインタラクションを実現
      • テキストのみの訓練と比較して90%以上のスループットを維持
      • オープンソースモデルとしてオミモーダルベンチマークで最先端のパフォーマンスを達成
      • 多様なモダリティ特異的タスクで競争力のある結果を提供
  • Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment (Evo-1: 軽量な視覚と言語の行動モデルでセマンティックアラインメントを保つ)
    • 一言で言うと: 軽量で効率的な視覚と言語の行動モデルを提案。
    • ここが画期的:
      • 従来モデルよりもパラメータ数を77%削減
      • ロボデータの事前学習なしで高性能を実現
      • アクションと認識の進化的整合性を維持するトレーニング手法
      • クロスモジュレーテッド拡散トランスフォーマーの導入
      • リアルタイム推論に最適化した軽量アーキテクチャ
    • 主な成果:
      • Meta-Worldでの精度が前モデル比12.4%向上
      • RoboTwinスイートで6.9%の精度向上
      • LIBEROにおいて94.8%の競争力ある精度を達成
      • 78%の成功率で低メモリオーバーヘッドを実現
  • VideoSSR: Video Self-Supervised Reinforcement Learning (VideoSSR:動画の自己教師あり強化学習)
    • 一言で言うと: 動画の情報を活用し、高品質な学習データを生成する手法。
    • ここが画期的:
      • 自己教師ありの新しいタスクを導入(異常検知、物体カウント、時間的ジグソー)
      • 動画の本質情報を利用して自動的にトレーニングデータを生成
      • Video Intrinsic Understanding Benchmark (VIUBench)を構築して難易度を評価
      • RLVRを活用する新たな動画理解フレームワークを提案
    • 主な成果:
      • VideoSSRを用いたモデルは、平均5%以上の性能向上を達成
      • 17のベンチマークで一貫して性能改善を実証
      • 従来のMLLMは新たな自己教師ありタスクで難易度に苦しむ
  • Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalization (トランスフォーマーが長さ一般化を伴って思考連鎖推論を学ぶことを証明)
    • 一言で言うと: トランスフォーマーが思考連鎖推論の長さ一般化を実現する方法を示す。
    • ここが画期的:
      • トランスフォーマーが思考連鎖の長さを一般化する理論的証明を提供
      • 注意集中機構を介して状態追跡タスクと関連付け
      • 限られた推論長のトランスフォーマーが再帰自己訓練で解決可能な問題の範囲を拡張
      • 初めて定数深度のトランスフォーマーが\mathsf{NC}^1-完全問題を学習可能であることを実証
      • 理論的結果を裏付ける広範な実験結果を提供
    • 主な成果:
      • トランスフォーマーは長い思考連鎖を利用して難しい問題を解決可能
      • 状態追跡問題における学習の一般化能力を実証
      • 再帰自己訓練により解決可能な問題の長さを段階的に拡大
  • SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge (SafeR-CLIP: 事前学習知識を保持しつつ、NSFWコンテンツを緩和する手法)
    • 一言で言うと: 安全性と性能を両立させる新しい手法を提案。
    • ここが画期的:
      • NSFWコンテンツを安全な対象に最小限で誘導
      • 事前学習の意味的構造を保つアプローチ
      • 新しい評価基準NSFW-Capsを導入
      • ゼロショット精度を最大8.0%向上
    • 主な成果:
      • ゼロショット精度を8.0%向上
      • 従来技術と比べて安全性を保持
      • 1,000ペアから成る新評価基準を作成
  • Bias Is a Subspace, Not a Coordinate: A Geometric Rethinking of Post-hoc Debiasing in Vision-Language Models (バイアスは座標ではなくサブスペースである:視覚と言語モデルの後処理デバイアスの幾何学的再考)
    • 一言で言うと: 視覚と言語モデルのバイアスを新しい方法で排除する提案。
    • ここが画期的:
      • 従来の座標ベースのアプローチの代わりに、バイアスをサブスペース全体で捉える手法を提案
      • バイアスの除去を行う際に、意味的忠実性を維持するために中立的な平均成分を再挿入
      • 複数のデータセットにおける一般化性能の向上を図る
      • バイアスの特徴をより広範に分析することで、既存の手法の限界を明示化
    • 主な成果:
      • 公平性指標で平均18.5%の改善を達成
      • 最良のデバイアス基準と比較して、タスク性能の低下を最小限に抑えた
      • ゼロショット分類、テキストから画像検索、画像生成の各タスクで有効性を確認
  • Generative Myopia: Why Diffusion Models Fail at Structure (生成的近視:拡散モデルの構造的失敗の理由)
    • 一言で言うと: 拡散モデルの限界を克服する新手法を提案。
    • ここが画期的:
      • 生成的近視の概念を特定した
      • Rare Bridgesの重要性を強調
      • スペクトル重み付け拡散法の導入
      • 効果的抵抗を用いた最適化目標の再調整
      • 推論オーバーヘッドゼロでのスペクトル先行の適用
    • 主な成果:
      • 通常の拡散モデルが0%の接続性しか得られない課題で100%接続性を実現
      • 最適なスペクトルオラクルと同等の性能を達成
      • 理論的および実証的に生成的近視の影響を示す
  • Data-regularized Reinforcement Learning for Diffusion Models at Scale (スケールにおけるデータ正則化強化学習を用いた拡散モデル)
  • World Models That Know When They Don’t Know: Controllable Video Generation with Calibrated Uncertainty (自分の不確実性を知る世界モデル:補正された不確実性を用いた制御可能な動画生成)
    • 一言で言うと: 不確実性を評価し制御可能な動画生成手法の提案。
    • ここが画期的:
      • 不確実性を精密に評価する新しいフレームワークを提案
      • 潜在空間での不確実性推定により安定性を確保
      • ピクセル単位の不確実性可視化を実現し、高解像度ヒートマップを提供
    • 主な成果:
      • 大規模ロボット学習データセットでの効果的な不確実性評価を実証
      • 訓練分布内での補正された不確実性推定を実現
      • 分布外の検出においても優れた性能を発揮
  • Efficient ASR for Low-Resource Languages: Leveraging Cross-Lingual Unlabeled Data (低リソース言語向けの効率的音声認識:越境言語のラベルなしデータを活用)
    • 一言で言うと: 低リソース言語の音声認識を劇的に改善する手法を提案。
    • ここが画期的:
      • 越境言語のラベルなしデータを活用した新しい音声認識手法
      • 300Mパラメータのモデルが5倍大きなモデルと同等の性能
      • 効果的な継続的事前学習による少ないデータでも高精度を実現
      • 言語の形態素に配慮したトークン化を導入し、多言語コーパスを構築
      • 大規模計算インフラに依存しない技術設計
    • 主な成果:
      • 3000時間のマルチリンガルコーパスを活用
      • ペルシャ語においてWhisper Large v3(1.5Bパラメータ)を上回る性能
      • アラビア語とウルドゥー語でも競争力のある結果を達成
      • モデルサイズが小さいにも関わらず高い認識精度を維持
  • STARS: Semantic Tokens with Augmented Representations for Recommendation at Scale (STARS: 大規模推奨システムのための拡張表現を持つセマンティックトークン)
    • 一言で言うと: STARSは、商業推薦の精度と効率を向上させる。
    • ここが画期的:
      • ユーザーの長期的・短期的嗜好を分けるデュアルメモリ埋め込み
      • 事前学習されたテキスト埋め込みやアトリビュートタグを融合したセマンティックアイテムトークン
      • カレンダーやイベントオフセットを考慮したスコアリング
      • オフラインおよびオンラインでの効果的な検索パイプライン
    • 主な成果:
      • Hit@5が既存のLambdaMARTシステムより75%以上向上
      • 6百万回の訪問でのA/BテストでTotal Orders +0.8%
      • Add-to-Cart on Home +2.0%
      • Visits per User +0.5%
  • In-Context Multi-Objective Optimization (文脈内マルチオブジェクティブ最適化)
    • 一言で言うと: 新しい設計案を迅速に提案する最適化手法。
    • ここが画期的:
      • 全ユニバーサル政策を使用し、訓練なしで新問題に対応
      • トランスフォーマーアーキテクチャによる次設計の提案
      • 探索と活用のバランスを自動的に調整
      • 他手法と比較して提案時間を50-1000倍短縮
      • 全履歴に基づくパレートフロンティアの近似
    • 主な成果:
      • 提案時間を50-1000倍短縮
      • 評価予算下でパレート品質を維持または向上
      • 多様な入力や目的次元に対応可能
  • Human-like Working Memory from Artificial Intrinsic Plasticity Neurons (人間のような作業記憶を持つ人工内因性可塑性ニューロン)
    • 一言で言うと: 人間に近い作業記憶を持つ新しい神経回路アーキテクチャの提案。
    • ここが画期的:
      • 人間の記憶特性を模倣したハードウェア設計
      • マグネティックトンネル接合を用いたエネルギー効率の向上
      • センシングインターフェースでの性能最大化を実現
      • キャパシタ不要のコンパクトな設計
      • 生物的優位性を持つ動的視覚処理の実現
    • 主な成果:
      • 11-class DVSジェスチャーデータセットで99.65%の精度
      • 22-class時間逆転ベンチマークで99.48%の精度
      • 自動運転において14.4%のハンドル予測誤差削減
      • LSTMsに対して記憶電力が2,874倍削減
      • 標準LIFニューロンと比べて20倍以上の面積削減
  • Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers (効率的な拡散変換器のための学習可能なログ線形スパースアテンション)
    • 一言で言うと: 長いトークン列を効率的に処理する新しいアテンション手法。
    • ここが画期的:
      • 階層的構造を利用したログ線形スパースアテンションの提案
      • 単一レベル設計の問題を解決
      • 選択コストを二次から対数線形に削減
      • ヒエラルキカルKVエンリッチメント機構の導入
      • GPUでの高性能実装により、計算効率を向上
    • 主な成果:
      • アテンション推論を28.27倍加速
      • DiTのトレーニングを6.09倍加速
      • 256×256ピクセルトークン系列でも生成品質を維持
  • Latent Implicit Visual Reasoning (潜在的な視覚的推論手法)
    • 一言で言うと: 視覚的推論を自動発見する新しい手法を提案。
    • ここが画期的:
      • 事前知識なしで視覚的推論トークンを発見
      • タスクに応じて画像情報を再符号化
      • 手作業の監視なしで関連情報を抽出
      • 多様な視覚タスクに対して高い汎化能力を持つ
      • 従来の微調整を超える性能を実現
    • 主な成果:
      • 視覚タスクで最先端の結果を達成
      • 中間抽象化が困難なタスクでも優れた性能
      • マルチタスク指示調整に一般化

機械学習関連論文

  • BiasGuard: Guardrailing Fairness in Machine Learning Production Systems (BiasGuard: 機械学習システムにおける公正性の確保)
    • 一言で言うと: BiasGuardは機械学習の公正性を向上させる新手法です。
    • ここが画期的:
      • 既存のMLシステムに対して公正性を強化する新アプローチ
      • 条件付き生成対抗ネットワークを利用したデータ生成手法
      • 再訓練なしで公正性を31%向上させる能力
      • 既存の後処理手法よりも優れた公正性の改善効果
    • 主な成果:
      • 公正性向上:31%
      • 精度低下:0.09%未満
      • 従来手法に対する優位性
  • Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation (マルチモーダルMamba:二次元から線形への蒸留によるデコーダー専用マルチモーダル状態空間モデル)
    • 一言で言うと: 計算効率を改善した新しいマルチモーダルモデルの提案
    • ここが画期的:
      • 二次元計算から線形計算モデルへ移行可能
      • 既存の大規模マルチモーダル言語モデルからの知識蒸留
      • RNNベースの事前トレーニングなしで動作
      • フレキシブルなハイブリッドアーキテクチャのサポート
      • 進行的蒸留戦略による性能向上
    • 主な成果:
      • mmMamba-linearは20.6倍のスピードアップを実現
      • GPUメモリを75.8%削減
      • mmMamba-hybridは13.5倍のスピードアップ
      • GPUメモリを60.2%削減
  • MMTEB: Massive Multilingual Text Embedding Benchmark (MMTEB: 大規模多言語テキスト埋め込みベンチマーク)
    • 一言で言うと: 500以上の言語に対応した新たな評価ベンチマーク
    • ここが画期的:
      • 500以上の評価タスクを網羅
      • 多様な新しい課題を追加
      • モデルの相対評価を維持するダウンサンプリング手法の提案
      • 計算コストを大幅に削減する最適化技術の導入
      • 長文検索やコード取得のタスクを含む
    • 主な成果:
      • 560万パラメータのモデルが最高性能を発揮
      • ゼロショット評価でフルスケール版と同等の順位を維持
      • 計算コストを大幅に削減
  • SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience (自己進化するコンピュータ利用エージェントSEAgentの提案)
    • 一言で言うと: 未知のソフトウェアを自律的に習得するエージェント
    • ここが画期的:
      • 独自体験に基づく自律学習を実現
      • 専門特化型エージェントを統合して汎用性を向上
      • タスク生成器による多様な課題設定
      • 失敗を逆手に取る敵対的模倣学習の採用
      • ステップごとの進捗を評価するワールドステートモデル
    • 主な成果:
      • 成功率が11.3%から34.5%に向上
      • 従来のCUAと比べ23.2%の改善
      • 5つの新しいソフトウェア環境での実証
  • Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning (不確実性駆動の信頼性:選択的予測と信頼性ある機械学習の展開)
    • 一言で言うと: 不確実性を活用し、安全な機械学習を実現する手法。
    • ここが画期的:
      • モデルの訓練経路からの不確実性信号を活用
      • 軽量な後処理による自発的停止法の提案
      • 差分プライバシーとの互換性を保持
      • 選択的分類の誤差源を特定し、介入方法を明確化
      • 不確実性の悪用に対する防御策の設計
    • 主な成果:
      • 従来手法を超える選択的予測性能を達成
      • 差分プライバシー下でもロバストな性能を維持
      • 不確実性のRanking誤差を解決する方法を提示
  • Fuzzy-Pattern Tsetlin Machine (ファジーパターンテスラリンマシン)
    • 一言で言うと: ファジー評価により、高い柔軟性と精度を実現。
    • ここが画期的:
      • 従来の厳格な評価からファジー評価へ変更
      • ユニークなサブパターンによる適応的なマッチング
      • 必要なクローズ数の大幅削減
      • メモリ使用量の減少と高速なトレーニング
      • マイクロコントローラでのオンライン学習を可能に
    • 主な成果:
      • IMDbデータセットで90.15%の精度、クラスごとに1クローズで実現
      • トレーニング時間が最大316倍高速(45秒対4時間)
      • 推論スループットは34.5百万予測/秒
      • Fashion-MNISTで94.68%の精度、クローズ数は400倍削減
      • ノイズが20%のAmazon Salesデータセットで85.22%の精度
  • CALM: A Causal Analysis Language Model for Tabular Data in Complex Systems with Local Scores, Conditional Independence Tests, and Relation Attributes (CALM: 複雑なシステムにおける表形式データの因果分析言語モデル)
    • 一言で言うと: 表形式データの因果関係を効果的に分析する新手法
    • ここが画期的:
      • 従来手法の制約を解消する因果分析モデルを開発
      • 表形式データに特化したMambaベースのアーキテクチャを採用
      • 局所因果スコアや条件付き独立性検定を統合
      • 線形・非線形・条件付き因果メカニズムの多様なキャプチャ
      • 大規模言語モデルのパターン認識能力を適用
    • 主な成果:
      • シミュレーション研究で91%以上の精度を達成
      • 実際のHepatitis Cウイルス進行における因果因子の特定で優れた成果
  • Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People (最初に行動し、後で質問する?人間のように探索・行動する合理的エージェントの構築)
    • 一言で言うと: AIエージェントの探索と行動の合理性向上を目指す研究
    • ここが画期的:
      • 人間の行動から得た洞察を基にした新しい戦略的対話タスクの導入
      • ベイズ実験デザインに基づくモンテカルロ推論戦略の開発
      • 情報検索能力を向上させるための新しい手法の実装
      • 様々なLMモデルのパフォーマンス向上を確認
      • 低コストでの人間との競争力向上
    • 主な成果:
      • Spotterエージェントの精度が14.7%向上
      • Captainエージェントの期待情報獲得量が0.227ビット向上
      • Llama-4-Scoutが人間に対して82%の勝率を達成
      • GPT-5との比較で0%から67%の勝率向上
      • Guess Who?での精度が28.3-42.4ポイント向上
  • Fair and Explainable Credit-Scoring under Concept Drift: Adaptive Explanation Frameworks for Evolving Populations (進化する借り手行動に対応した公正で説明可能なクレジットスコアリング)
    • 一言で言うと: 変動するデータを考慮した新しいクレジットスコアリング手法
    • ここが画期的:
      • 動的なデータ分布に適応する説明フレームワークを開発
      • 3つのアダプティブSHAP手法を統合
      • 従来手法よりも公平性と透明性を向上
    • 主な成果:
      • アダプティブ手法で予測性能(AUC、F1)が改善
      • 時間的安定性が大幅に向上
      • 特定の人口層に対する不公平な影響が軽減
  • LUMOS: Large User MOdels for User Behavior Prediction (LUMOS: ユーザー行動予測のための大規模ユーザーモデル)
    • 一言で言うと: 生データだけで複雑なユーザー行動を予測する新手法。
    • ここが画期的:
      • タスク特化型モデルを排除した共通モデルアーキテクチャ
      • 手動特徴エンジニアリングをシンプルにする新しいメカニズム
      • 未来のイベントを考慮したクロスアテンション機構の導入
      • ユーザー取引とイベントコンテキストを統合したマルチモーダルトークン化
    • 主な成果:
      • ROC-AUCが平均0.025向上
      • 回帰タスクでMAPEが4.6%削減
      • デイリーアクティブユーザー数が3.15%増加
  • Conversational Time Series Foundation Models: Towards Explainable and Effective Forecasting (対話型時系列基盤モデル:説明可能で効果的な予測に向けて)
    • 一言で言うと: LLMを活用した時系列予測の新手法を提案。
    • ここが画期的:
      • LLMを時系列モデルの評価者として再配置
      • SHAPスコアに基づくファインチューニング手法を導入
      • モデルが原因を考慮した説明を提供できる
      • 反復的な対話を通じて最適化戦略を洗練
      • 複数モデルを統合する新しいアプローチ
    • 主な成果:
      • 23のデータセットでのGIFT-Evalベンチマークで検証
      • CRPSおよびMASE指標で従来モデルを大幅に上回る
      • 最先端の結果を樹立

その他

  • Expectation-Maximization as the Engine of Scalable Medical Intelligence (拡張可能な医療インテリジェンスのエンジンとしての期待値最大化)
    • 一言で言うと: 医療AIのデータ注釈とモデル開発を革新する手法
    • ここが画期的:
      • 期待値最大化(EM)プロセスを用いたデータ注釈とモデル開発の統合
      • 人間の専門家を取り入れて注釈を精査する新機能
      • 大規模なCTスキャンデータセットの自動生成
      • 従来の手法よりも高い精度のモデルを育成
    • 主な成果:
      • 47,315件のCTスキャンを含むデータセットを構築(最大小データセットの4.8倍)
      • 腫瘍診断で人間専門家よりも7%精度向上
      • 腫瘍検出で10%、セグメンテーションで14%の改善を達成
  • FairTTTS: A Tree Test Time Simulation Method for Fairness-Aware Classification (公正を考慮した分類のためのツリー・テスト時間シミュレーション法)
    • 一言で言うと: 公正な予測と性能を両立する新手法の提案
    • ここが画期的:
      • 従来の手法よりも高い公正性の向上を実現
      • モデル再訓練不要で多様なデータセットに適用可能
      • 保護属性ノードにおける距離ベースのヒューリスティック調整
      • 精度を損なうことなくバイアスを軽減
    • 主な成果:
      • 平均公正性向上率20.96%を達成
      • 関連手法は18.78%に留まる
      • 精度を0.55%向上させる
      • 競合方法は平均して0.42%精度を低下
  • Uncovering Bias in Foundation Models: Impact, Testing, Harm, and Mitigation (基盤モデルにおけるバイアスの発見:影響、テスト、有害性、軽減策)
    • 一言で言うと: 基盤モデルのバイアスを検出し、公平性を向上させる手法を提案。
    • ここが画期的:
      • Trident Probe Testing(TriProTesting)による体系的なバイアス検出手法
      • バイアスを探るための意味的にデザインされたプローブの使用
      • 性別×人種、性別×年齢などの複合的バイアスの発見
      • Adaptive Logit Adjustment(AdaLogAdjustment)による動的なバイアス軽減
      • 再訓練なしで公平性を大幅に向上させる技術
    • 主な成果:
      • CLIP、ALIGN、BridgeTower、OWLv2のモデルが多くのバイアスを示す
      • 複合的な社会属性におけるバイアスの深層化を発見
      • AdaLogAdjustmentによってバイアスの軽減が顕著
      • 倫理的AI実践の必要性を強調
  • DeepGate4: Efficient and Effective Representation Learning for Circuit Design at Scale (DeepGate4: スケールに対応した回路設計の効率的かつ効果的な表現学習)
    • 一言で言うと: 大規模回路設計に特化した新しいモデルを提案。
    • ここが画期的:
      • 回路グラフに最適化された更新戦略
      • AIGのためのグローバルおよびローカル構造エンコーディングを持つスパーストランスフォーマー
      • AIGの特有の疎なパターンを活用した推論加速CUDAカーネル
    • 主な成果:
      • ITC99およびEPFLベンチマークでの性能向上率はそれぞれ15.5%と31.1%
      • Fused-DeepGate4は実行時間を35.1%短縮
      • Fused-DeepGate4はメモリ使用量を46.8%削減
  • Towards an AI co-scientist (AI共同科学者の提案)
    • 一言で言うと: AIを活用して新たな科学的発見を支援するシステム。
    • ここが画期的:
      • マルチエージェントアーキテクチャで柔軟な計算スケーリングを実現
      • 仮説生成のためのトーナメント進化プロセス
      • 科学的手法に基づく生成、議論、進化のアプローチ
    • 主な成果:
      • 急性骨髄性白血病候補において臨床適用濃度で腫瘍抑制を確認
      • 新規エピジェネティックターゲットが肝線維症に有効
      • 細菌進化における新たな遺伝子移転メカニズムを発見
  • VideoA11y: Method and Dataset for Accessible Video Description (VideoA11y: 視覚障害者向け動画説明の手法とデータセット)
    • 一言で言うと: 視覚障害者向けの高品質な動画説明生成手法を提案。
    • ここが画期的:
      • マルチモーダル大規模言語モデルを活用した新手法
      • 視覚障害者向けに特化した最大規模のデータセットの構築
      • 既存の手法と比較して高い説明の明瞭性と満足度を実現
    • 主な成果:
      • 40,000本の動画に対する高品質な説明を生成
      • 視覚障害者向けの説明が初心者の人間注釈を上回る
      • モデルのパフォーマンスが専門の注釈者と同等以上
  • The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation (言語モデルと拡散モデルを統合した動画生成手法)
    • 一言で言うと: 言語と視覚の強みを活かした動画生成フレームワーク
    • ここが画期的:
      • 3D視覚特徴をコンパクトな1D表現に圧縮するセマンティックトークナイザー
      • 高レベルな関係を持つセマンティックトークンを生成する言語モデル
      • 粗いセマンティクスを高忠実度の動画に洗練するストリーミング拡散モデル
    • 主な成果:
      • LanDiffはVBench T2Vベンチマークで85.43のスコアを達成
      • 13BモデルのHunyuan Videoを上回る性能を持つ
      • 長い動画生成でオープンソースモデルを超える結果
  • Large language models as uncertainty-calibrated optimizers for experimental discovery (不確実性に基づく最適化手法としての大規模言語モデル)
    • 一言で言うと: LLMを用いた信頼性の高い実験最適化手法を提案。
    • ここが画期的:
      • 従来の専門知識不要で自然言語インターフェースを活用
      • 不確実性を考慮した最適化を実現
      • LLMの過信を精密なキャリブレーションに転換
      • 多様な最適化問題に適用可能な新しい手法
      • 高スループットな実験条件発見を促進
    • 主な成果:
      • 反応条件の発見率が24%から43%に向上
      • 50回の実験で新しい高収率条件をほぼ倍増
      • 19の異なる最適化問題で平均1位を達成
  • CleanPatrick: A Benchmark for Image Data Cleaning (CleanPatrick: 画像データクリーニングのベンチマーク)
    • 一言で言うと: 画像データクリーニングのための大規模なベンチマークを提供
    • ここが画期的:
      • 初の大規模な画像データクリーニングベンチマークである
      • 専門家のレビューに基づいた高品質なグラウンドトゥルースの提供
      • 問題検出をランキングタスクとして定式化
      • 自己教師あり表現が近似重複の検出に優れる
      • データクリーニング戦略の体系的な比較を可能にする
    • 主な成果:
      • 496,377件のバイナリアノテーションを収集
      • オフトピックサンプルは4%、近似重複は21%、ラベルエラーは22%を占める
      • 古典的手法は制約されたレビュー予算でも競争力のあるオフトピック検出を達成
      • ラベルエラー検出は医療分類において未解決の課題
  • MAVOS-DD: Multilingual Audio-Video Open-Set Deepfake Detection Benchmark (MAVOS-DD: 多言語音声-映像ディープフェイク検出ベンチマーク)
    • 一言で言うと: 多言語音声映像のディープフェイク検出用新ベンチマーク。
    • ここが画期的:
      • 初の大規模オープンセットベンチマーク
      • 250時間以上の多言語データを収集
      • 7種のディープフェイク生成モデルを使用
      • 多様な評価セットアップを提供
      • 公表されたデータとコードで再現性を確保
    • 主な成果:
      • 最新の検出器はオープンセットシナリオで性能低下
      • 生成データが60%を占める
  • Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents (ダーウィン・ゲーデルマシン:自己改善エージェントの無限進化)
    • 一言で言うと: 自己改良可能なAIの新しいフレームワークを提案。
    • ここが画期的:
      • 自己改良のための新たな理論的枠組みを提供
      • ダイナミックに自らのコードを修正して能力を向上
      • ダーヴィンの進化論からインスパイアされた新しい探索手法
      • 生成したコーディングエージェントのアーカイブを維持・拡張
      • オープンエンドな探索により多様なエージェントを生成
    • 主な成果:
      • SWE-benchでのパフォーマンスが20.0%から50.0%に向上
      • Polyglotでのパフォーマンスが14.2%から30.7%に向上
      • 自己改善やオープンエンド探索を行わないベースラインを大幅に上回る
  • STOAT: Spatial-Temporal Probabilistic Causal Inference Network (STOAT: 空間・時間的因果推論ネットワーク)
    • 一言で言うと: 因果関係を考慮した空間・時間予測手法を提案。
    • ここが画期的:
      • 空間関係行列を用いた因果効果の推定
      • 深層確率モデルによる不確実性のモデリング
      • 複数の出力分布で地域ごとの変動を捉える
      • 因果推論と地理情報に基づく予測を統合
    • 主な成果:
      • COVID-19データで先端モデルを上回る精度を達成
      • 強い空間依存性を持つ地域で特に優れた性能
      • 6か国での実験結果で証明
  • Towards Responsible AI: Advances in Safety, Fairness, and Accountability of Autonomous Systems (責任あるAIを目指して:自律システムの安全性、公平性、説明責任の進展)
    • 一言で言うと: 自律システムの安全性と公平性を向上させる新手法を提案。
    • ここが画期的:
      • 遅延観測に耐性のある安全シールド技術の拡張
      • グループ公平性を確保する新しい後処理技術の導入
      • 確率的意思決定エージェントの行動分析フレームワークの提案
      • 反応型意思決定フレームワークによる知見の統一
    • 主な成果:
      • シミュレーションでの衝突回避に成功した自律車両の実装
      • 公平性制約を満たしつつ介入コストを最適化
      • 意図の定量的評価に基づいた責任分析の実施
  • AlphaEvolve: A coding agent for scientific and algorithmic discovery (AlphaEvolve: 科学やアルゴリズム発見のためのコーディングエージェント)
    • 一言で言うと: アルゴリズムを進化的に改善する新しいコーディングエージェント
    • ここが画期的:
      • 進化的アプローチでアルゴリズムを反復的に改善
      • 自律的なLLMパイプラインを構築
      • 科学的発見を促進する新手法の提案
      • 従来技術を大幅に上回る性能の新しいアルゴリズムを発見
    • 主な成果:
      • Googleの計算スタックで効率的なスケジューリングアルゴリズムを開発
      • 48回のスカラー乗算で行列を掛ける手法を発見、Strassenアルゴリズムを56年ぶりに改善
      • AlphaEvolve自身のトレーニングを加速
  • Evaluating VisualRAG: Quantifying Cross-Modal Performance in Enterprise Document Understanding (VisualRAGの評価: 企業文書理解におけるクロスモーダル性能の定量化)
    • 一言で言うと: クロスモーダルAIの信頼性を高める新しい評価フレームワーク。
    • ここが画期的:
      • 信頼性を定量化する新しいベンチマークフレームワークを導入
      • テキスト、画像、キャプション、OCRの統合性能を評価
      • 最適なモダリティの比率を見出し、効率的な性能向上を実現
      • ベースラインと比較して、性能を57.3%向上
      • 基盤モデルの信頼性への影響を比較評価
    • 主な成果:
      • 最適なモダリティ比率で57.3%の性能向上を達成
      • テキスト30%、画像15%、キャプション25%、OCR30%が最適
      • 効率的な計算資源の維持も実現
  • Text2VectorSQL: Towards a Unified Interface for Vector Search and SQL Queries (Text2VectorSQL:ベクトル検索とSQLクエリの統一インターフェースの提案)
    • 一言で言うと: 構造化・非構造化データを同時に扱う新しいインターフェース。
    • ここが画期的:
      • 構造化データと非構造化データの統一クエリ
      • 新しいベンチマークの提供(VectorSQLBench)
      • 高品質なトレーニングデータ生成パイプラインの構築
      • 新しい評価指標による性能分析の向上
      • SQLフィルタとベクトル検索の統合による精度向上の課題提示
    • 主な成果:
      • SQLite、PostgreSQL、ClickHouseでの高精度達成
      • 12のデータベース間でのパフォーマンス評価
      • モデルトレーニングによる強力なベースライン性能確認
      • SQLフィルタの統合により結果の欠落が増加することを実証
  • On the Mathematical Impossibility of Safe Universal Approximators (安全なユニバーサル近似器の数学的な不可能性)
    • 一言で言うと: ユニバーサル近似器における安全性と制御の数学的限界を示す。
    • ここが画期的:
      • ユニバーサル近似器には致命的な失敗が必然的に存在することを証明
      • 実用的なユニバーサル近似器では表現力が失敗の密度に比例する
      • 特異点理論を用いて近似に必要な特異点の存在を示す
      • 敵対的事例の普遍性を実証的に証明し、現実のタスクの危険性を強調
      • 完璧な制御は数学的に不可能であることを示し、未来の開発への示唆を提供
    • 主な成果:
      • 致命的失敗点の密度はネットワークの表現力に直接比例する
      • 近似に必要な特異点の実装は必須であると証明
      • 敵対的事例の存在が現実のタスクにおける致命的な危険性を示す
      • 完璧な制御の難しさを数学的に証明し、安全性の限界を特定
  • MedGemma Technical Report (MedGemma 技術報告)
    • 一言で言うと: 医療分野に特化したAIモデルの新しい基盤技術
    • ここが画期的:
      • 医療データに特化した基盤モデルの開発
      • 従来より少ないチューニングデータで高性能を実現
      • 複雑な医療タスクでも優れた理解力を発揮
      • 新しい画像エンコーダーMedSigLIPを導入
      • 汎用性を損なわずタスク特化型モデルに匹敵する性能
    • 主な成果:
      • 医療マルチモーダル質問応答で2.6-10%の性能向上
      • 胸部X線所見分類で15.5-18.1%の改善
      • 電子健康記録の情報検索エラーを50%削減
      • 気胸分類および組織病理学的パッチ分類で高性能を実現
  • Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models (Audio Flamingo 3: 完全オープンな音声知能を実現する大規模音声言語モデル)
    • 一言で言うと: 音声・音・音楽理解を進化させる新しいAIモデル
    • ここが画期的:
      • 音声、音、音楽の統合表現学習を実現するAF-Whisper
      • チェーン・オブ・スローズによる柔軟な思考能力
      • マルチターンの音声チャット機能
      • 最大10分の音声理解能力
      • 音声間のインタラクション機能
    • 主な成果:
      • 20以上の長音声理解ベンチマークで新たなSOTA達成
      • オープンデータのみで学習し、従来モデルを凌駕
      • 大規模トレーニングデータセットを用いた競争力のある性能
  • Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice (Seed LiveInterpret 2.0:音声による同時通訳を実現する最先端技術)
    • 一言で言うと: 音声クローン機能を備えた同時通訳の革新技術。
    • ここが画期的:
      • エンドツーエンドの音声通訳モデルを実現
      • リアルタイム音声生成の難題を克服
      • 複数話者の混同を防ぐ能力を向上
      • 翻訳精度とレイテンシのバランスを最適化
      • 70%以上の翻訳正確性を実現
    • 主な成果:
      • 平均レイテンシを10秒から3秒に短縮(約70%削減)
      • 人間の通訳者による検証で70%の正確性を達成
      • 商業SIシステムと比較して翻訳品質が大幅向上
  • Physics-Informed Time-Integrated DeepONet: Temporal Tangent Space Operator Learning for High-Accuracy Inference (物理に基づく時間統合型DeepONet: 高精度推論のための時間接線空間オペレーター学習)
    • 一言で言うと: 時間依存の偏微分方程式を高精度で推論する手法。
    • ここが画期的:
      • 従来の手法を超えた双出力アーキテクチャ
      • 物理情報とデータ駆動型のハイブリッド学習
      • 時間微分オペレーターを現状態から学習
      • 残差モニタリングによる予測品質の評価
    • 主な成果:
      • 一次元熱方程式での相対平均誤差を84%減少
      • 一次元バーガーズ方程式で79%減少
      • 二次元アレン=カーン方程式で42%減少
  • EvoGraph: Hybrid Directed Graph Evolution toward Software 3.0 (EvoGraph: ソフトウェア3.0に向けたハイブリッド指向グラフの進化)
    • 一言で言うと: ソフトウェアの自動進化を支援するフレームワークの提案。
    • ここが画期的:
      • ソースコードや文書を進化させるハイブリッドグラフの導入
      • 専門の小規模言語モデル(SLM)による変異演算子の学習
      • マルチオブジェクティブフィットネスで生存者を選択
      • レガシーコードの近代化を効率化
      • 計算コストを大規模言語モデルの90%削減
    • 主な成果:
      • 既知のセキュリティ脆弱性の83%を修正
      • COBOLからJavaへの93%の機能的同等性を達成
      • 文書の新鮮さを2分以内に保つ
      • レイテンシを40%削減
      • 機能リードタイムを7倍短縮
  • Towards Agentic OS: An LLM Agent Framework for Linux Schedulers (エージェント的OS: Linuxスケジューラ向けのLLMエージェントフレームワーク)
    • 一言で言うと: LLMエージェントでLinuxスケジューラを最適化する新手法。
    • ここが画期的:
      • LLMエージェントを利用し、自律的にLinuxスケジューラを最適化
      • 最適化プロセスを目標推論とポリシー合成に分離
      • 静的および動的解析でAI生成コードの検証を実施
      • スケジューラ政策リポジトリを進化させる仕組みを導入
    • 主な成果:
      • 最大1.79倍の性能向上を達成
      • 従来手法に対して13倍のコスト削減
      • 高い成功率を維持しつつ最適化を実現
  • Remotely sensing stress evolution in elastic media: a passive approach to earthquake monitoring (弾性媒体における応力変化の遠隔観測:地震監視へのパッシブアプローチ)
    • 一言で言うと: 弾性体の応力を遠隔で観測し、地震監視を可能にする手法。
    • ここが画期的:
      • 従来の能動的手法を使わずに応力を観測する技術の提案
      • 周囲の地震・音響ノイズを利用したパッシブモニタリング
      • 鋭い波動特性の変化を捉える新しい周波数ドメイン変換の導入
      • 様々な規模での適用:実験室から自然の断層系まで
      • リアルタイムでの断層メカニズム追跡が可能
    • 主な成果:
      • 複数の地震事例で応力サイクルの特徴的なパターンを明らかに
      • 2018年キラウエア崩壊、2011年東日本大震災などに適用成功
      • 応力変化の観測において高い一貫性を示す
  • Embodied Arena: A Comprehensive, Unified, and Evolving Evaluation Platform for Embodied AI (体現AIのための包括的で進化する評価プラットフォーム「Embodied Arena」)
    • 一言で言うと: 体現AIの評価基準を統一し、研究促進を図るプラットフォーム。
    • ここが画期的:
      • 体現能力の体系的な分類法を確立
      • 統一された標準評価システムを導入
      • 22の多様なベンチマークを柔軟に統合
      • LLM駆動の自動生成パイプラインを開発
      • リアルタイムのリーダーボードを提供
    • 主な成果:
      • 25の詳細次元を持つ研究目標を設定
      • 30以上の先進モデルを統合
      • 評価結果から9つの発見を提示
  • DeepScientist: Advancing Frontier-Pushing Scientific Findings Progressively (DeepScientist: 最前線の科学的発見を進化させるシステム)
    • 一言で言うと: AIが人間を超える新しい科学発見を実現するシステム
    • ここが画期的:
      • 目標指向の科学発見を自律的に行う仕組み
      • 発見をベイズ最適化問題として定義
      • 仮説の検証と分析を階層的に管理
      • 累積的な成果メモリによる効果的な仮説の迷探査
      • 実験結果を通じて人間の設計を超える能力を示した
    • 主な成果:
      • 約5,000のユニークな科学アイデアを生成
      • 約1,100のアイデアを実験的に検証
      • 3つのフロンティアAIタスクで人間の最先端手法を183.7%、1.9%、7.9%上回る
  • Semantic Surgery: Zero-Shot Concept Erasure in Diffusion Models (セマンティックサージェリー:拡散モデルにおけるゼロショット概念消去)
    • 一言で言うと: 画像生成での有害コンテンツを消す新手法
    • ここが画期的:
      • トレーニング不要で動的にアプローチする概念消去手法
      • テキスト埋め込みへのベクトル減算でターゲットの影響を低減
      • 複数概念を同時に消去できるコ・オカレンスエンコーディングモジュール
      • 視覚的フィードバックループで概念の持続性に対処
      • 高い完全性とローカリティを保ちながら画像品質を保持
    • 主な成果:
      • 物体消去で93.58のHスコアを達成
      • 明示的内容を1インスタンスに削減
      • スタイル消去でH_aが8.09、品質の劣化なし
  • The FM Agent (FMエージェント)
    • 一言で言うと: 自律AI研究エージェントのための新たなフレームワーク
    • ここが画期的:
      • 専門家の指導を取り入れた冷スタート初期化
      • 反復最適化のための進化的サンプリング戦略
      • 正確性・効果・フィードバックを考慮したドメイン特化の評価者
      • Rayに基づく分散非同期実行インフラ
    • 主な成果:
      • ALE-Benchで1976.3ポイントを達成(+5.2%)
      • MLE-Benchで43.56%達成(+4.0pp)
      • KernelBenchで最大20倍のスピードアップ
      • 古典的数学問題で新たな最先端結果を確立
  • CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark (CRAG-MM: 複数モーダルによるマルチターン包括的RAGベンチマーク)
    • 一言で言うと: ウェアラブルデバイス向けの新たなRAGベンチマークを提案。
    • ここが画期的:
      • ウェアラブルデバイスに特化したRAGベンチマークを提供
      • 6.5Kの画像-質問-回答のトリプルを収録
      • 多様な質問と画像品質問題を反映した構成
      • マルチターン会話での情報取得を強化
      • KDD Cup 2025で実績を示し、業界の関心を集める
    • 主な成果:
      • 単一ターンQAの真実性が32%に留まる
      • マルチターンQAの真実性が43%に留まる
      • 業界最先端の解決策でも32%/45%の品質
      • 受賞ソリューションは基準性能を28%向上
  • AI Agents in Drug Discovery (医薬品発見におけるAIエージェントの活用)
    • 一言で言うと: AIエージェントが医薬品発見を革新する手法を提案。
    • ここが画期的:
      • AIエージェントが自律的に研究プロセスを推進
      • 多様なバイオメディカルデータの統合
      • ロボットプラットフォームを利用した実験の自動化
      • 仮説を逐次改良するサイクルの実現
      • 文献の合成や毒性予測に応用可能
    • 主な成果:
      • 従来月単位の作業が数時間に短縮
      • 再現性とスケーラビリティが大幅に向上
      • 科学的トレース可能性を保持したまま処理
  • Learning to Seek Evidence: A Verifiable Reasoning Agent with Causal Faithfulness Analysis (証拠を求めるAIエージェントの学習:因果関係を考慮した説明可能な推論)
    • 一言で言うと: 視覚的証拠を用いた信頼性の高い推論エージェントの提案
    • ここが画期的:
      • インタラクティブなエージェントによる説明生成
      • 外部証拠を戦略的に求めるポリシーの学習
      • 強化学習を用いた効率的な最適化
      • 因果的介入手法による説明の信頼性確認
      • アクションベースの推論プロセス
    • 主な成果:
      • Brierスコアが18%改善
      • 視覚証拠をマスクすると性能が低下(ΔBrier=+0.029)
  • Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages (オムニリンガルASR:1600以上の言語に対応するオープンソース音声認識システム)
    • 一言で言うと: 1600以上の言語に対応した音声認識システムを提案。
    • ここが画期的:
      • コミュニティが少量のデータで言語を追加可能
      • 自己教師あり事前学習で7Bパラメータを活用
      • ゼロショット一般化を実現するエンコーダ-デコーダアーキテクチャ
      • 倫理的考慮を取り入れた設計
      • オープンソースによる研究者や地域社会の参加を促進
    • 主な成果:
      • 1600以上の言語への対応を実現
      • 500以上の未対応言語を新たにサポート
      • 低リソース条件下での性能向上を評価
  • Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems (精度を超えて:企業向けエージェントAIシステム評価のための多次元フレームワーク)
    • 一言で言うと: エージェントAIの評価に新たな視点を提供。
    • ここが画期的:
      • コスト効率、信頼性、運用安定性を重視した評価フレームワークCLEARの提案
      • エージェント性能の多次元評価が可能に
      • コストコントロールの欠如が精度に対して50倍のコスト差を生むことを明示
      • 信頼性評価の欠如によるパフォーマンス変動を指摘
      • 専門家評価による生産成功予測の向上
    • 主な成果:
      • CLEARを用いた評価で、生産性向上と精度相関の改善が確認(相関係数0.83)
      • 精度重視の選択肢はコストが4.4〜10.8倍高いことが判明
      • エージェントの一回の実行での成功率が60%から、8回の実行で25%に低下
  • DeepCode: Open Agentic Coding](https://arxiv.org/abs/2512.07921) (DeepCode: 自律型コーディングエージェント)
  • InfoCom: Kilobyte-Scale Communication-Efficient Collaborative Perception with Information Bottleneck (InfoCom: 情報ボトルネックによるキロバイトスケールの通信効率的コラボレーティブ知覚)
    • 一言で言うと: 自動運転の信頼性向上のための新しい通信効率手法
    • ここが画期的:
      • 情報認識エンコーディングにより、知覚情報を最小メッセージに圧縮
      • 無視できる通信コストで空間的手がかりを特定するスパースマスク生成
      • マスク誘導メカニズムによる多段階デコード技術
    • 主な成果:
      • 通信オーバーヘッドをメガバイトからキロバイトに削減
      • Where2commと比較して440倍、ERMVPと比較して90倍のデータ削減を達成
      • 多様なデータセットでほぼ損失のない知覚を実現
  • Step-GUI Technical Report (Step-GUI技術報告)
    • 一言で言うと: GUI自動化のための新しいアプローチと基準を提案。
    • ここが画期的:
      • 自己進化型のトレーニングパイプラインを導入
      • カラブレーテッドステップリワードシステムを用いた信頼性向上
      • GUI自動化のための初のモデルコンテキストプロトコルを提案
      • プライバシーを保護しつつ、家庭用デバイスでの実行を実現
      • 実世界の使用パターンに基づいた新しいベンチマークAndroidDailyを設定
    • 主な成果:
      • 10-100倍低コストで90%以上のアノテーション精度を達成
      • 8BモデルはAndroidWorldで80.2%の性能を達成
      • 実際のモバイル使用パターンに基づくベンチマークで静的89.91%、エンドツーエンド52.50%の成功率
  • CauSTream: Causal Spatio-Temporal Representation Learning for Streamflow Forecasting (CauSTream:流量予測のための因果的空間-時間表現学習)
    • 一言で言うと: 流量予測の精度を高める因果モデルの提案。
    • ここが画期的:
      • 因果グラフをデータに応じて動的に学習
      • 気象因子間のランオフ因果グラフを同時に学習
      • 各駅間の動的依存関係を表現するルーティンググラフ
      • 非パラメトリックな設定下での識別条件の確立
      • 従来知識に整合する因果構造の獲得
    • 主な成果:
      • 他の最新手法を上回る予測性能の達成
      • 予測ウィンドウが長くなるほど性能向上が顕著
      • 三つの主要な米国の河川流域での評価結果

おわりに

2025年のAIシーンを振り返ると、モデルの巨大化を競うフェーズから、推論の質(Reasoning)や実用的な効率性、そして自律的なエージェント(Agentic AI)へと進化の軸が明確にシフトした年でした。特に、AIが自ら科学的な仮説を立て、検証を行う「AI Scientist」のような試みは、人間とAIの協調関係を新しい次元へと引き上げつつあります。

膨大な論文を駆け足で見てきましたが、ここにあるのは指数関数的に加速する進化の、ほんの一片に過ぎません。本稿の作成にあたってはLLMの力を借りて要約を行っているため、ニュアンスの欠落や網羅性の不足がある可能性も否めませんが、この記事が皆様にとって「次に読むべき一本」を見つける一助となれば幸いです。

2026年は、これらの研究がどのように社会実装され、私たちの日常をどう変えていくのでしょうか。来年も、この刺激的な進化の最前線を共に追い続けていきましょう。