Group-Evolving Agents: 経験共有によるAIの自己進化
LLMエージェントの開発において、人間の介入なしにシステムが自らの構造を改善し続ける「自己進化(Open-Ended Self-Improvement)」のアプローチが注目を集めています。しかし、従来の自己進化は「個体単 […]
Agent of Chaos: 自律型AIエージェントの脆弱性とリスク
最近、LLMを単なるチャットアシスタントとしてではなく、自律的なAIエージェントとしてシステムに組み込むケースが増えています。シェル実行やファイルシステム、外部APIへの直接アクセスなど、エージェントに権限を与えることで […]
データエージェントの自律性レベルとロードマップ
「データエージェント」という言葉、最近よく耳にしますよね。ですが、単にSQLを回答するだけのチャットボットから、複雑な分析ワークフローを自律的に回す高度なシステムまで、その定義は非常に曖昧です。この曖昧さは、開発者とユー […]
AIは「奇妙な知性」である: 線形モデルから多元的理解へ
近年、大規模言語モデル(LLM)の進化は目覚ましく、コーディングやクリエイティブなタスクでは人間を凌駕するパフォーマンスを見せています。その一方で、人間なら間違えないような単純な論理推論や常識的なタスクで、不可解な失敗を […]
大規模言語モデルのためのエージェント推論
従来の大規模言語モデル(LLM)は、入力に対して静的にテキストを予測・生成するシステムとして機能してきましたが、情報が絶えず変化する動的な環境下では、その対応力に限界がありました。現在、この課題を突破する鍵として「エージ […]
AIコーディングエージェントの限界と課題:3万件のプルリクエスト分析から見る現実
GitHub CopilotやDevinといったAIツールは、今や単なるコード補完のアシスタントではなく、自律的にコードを書き、プルリクエスト(PR)まで作成する「エージェント」へと進化を遂げています。しかし、彼らは実際 […]
反証可能性の壁:LLMは科学的研究を促進させるのか?
近年、GPT-5などの最先端モデルが、数学や物理、生物学といった様々な分野で新たな知見を生み出し、人間レベルの知能を示しているという報告が相次いでいます。モデルが複雑な課題を解き、科学の研究プロセスを大幅に加速させる様子 […]
Agent-as-a-Judge: 次世代の自律的評価システムに向けたロードマップ
AI評価の分野では、LLM自身の高度な理解力を活用して他のモデルを評価する「LLM-as-a-Judge」が広く普及しています。しかし、AIが生成する回答が高度化し、専門領域における多段階のタスクへと進化するにつれ、単一 […]
Prompt Repetition: プロンプト反復によるLLMの改善
LLMの精度向上のために、日々プロンプトの試行錯誤を繰り返しているエンジニアは多いはずです。Google Researchの研究チームは、そのような課題に対し、非常にシンプルかつ強力な解決策である「Prompt Repe […]
LLM-as-classifier: 階層的テキスト分類器の構築方法
2010年代以降、膨大なテキストデータから深い意味的パターンを認識するニーズは、かつてないほど高まっています。これまでのテキスト分類は、大量のラベル付きデータを用いたファインチューニング(Fine-tuning)が主流で […]