Phantom Guardrails: 存在しない問題を修正するAIエージェント

近年、LLMベースのエージェントにおいて、自らのプロンプトやガードレールを修正し自己改善を進める「自動ハーネス最適化 (Automated Harness Optimization)」の導入が進んでいます。しかし、「観察 […]

Harness Handbook: AIエージェント進化のための「振る舞い中心」のコード管理

現代のAIエージェントの能力は、基盤モデル単体の性能だけで決まるわけではありません。プロンプトの構築、状態の管理、そしてツールの呼び出しなどを統制する「ハーネス（Harness）」と呼ばれる実行基盤が重要な役割を担ってい […]

近年、LLMベースのエージェントは単なる受動的な質問応答から、自律的に環境を認識し、長期的なタスクを完遂するシステムへと移行しています。このような機能的要件を満たすため、現在のエージェントは「認知エンジン」である基盤モデ […]

近年、LLMエージェントの開発が盛んに進められていますが、現在の研究は現在の状態から次の行動を決定する「方策（Policy）」の改善にほぼ限定されています。しかし、汎用的なエージェントを実現するためには、行動によって環境 […]

観測データから物理法則や数学的関係式を導き出すシンボリック回帰（SR: Symbolic Regression）をご存知でしょうか？従来の手法では、探索空間の組み合わせ爆発や、事前知識をシステムに組み込む難しさが長年の課 […]

現代のAI開発において、LLM（大規模言語モデル）の進化は目覚ましいものがあります。しかし、実用的なAIエージェントを構築する際、基盤モデル単体の性能だけでは不十分です。エージェントの能力を引き出すには、プロンプト、ツー […]

大規模言語モデル（LLM）は、自然言語処理の分野を根本から変革し、高度な推論能力を実現しました。しかしながら、LLMが社会インフラや意思決定システムに組み込まれるにつれて、出力や評価に潜む様々なバイアスが実稼働における重 […]

LLM（大規模言語モデル）を自律的なAIエージェントとして動作させる際、モデル単体の力だけでは不十分です。モデルが自律的に推論し、ツールを呼び出し、環境に作用するためには、その周囲を取り囲むインフラストラクチャの構築が不 […]

近年、AIはMMLUやSWE-benchなどのベンチマークを次々とクリアしていますが、実際の経済活動に直結する長期的な実務への導入はあまり進んでいません。この「実用性の課題」を測るため、実世界におけるワークフローの遂行能 […]

大規模言語モデル（LLM）が世界中で利用される中で、モデルが出力する回答の「文化的な偏り」はAI開発における重要な課題となっています。これまで、LLMの文化的・地域的バイアスは、主にアメリカやヨーロッパといった欧米の視点 […]