Harness Handbook: AIエージェント進化のための「振る舞い中心」のコード管理

現代のAIエージェントの能力は、基盤モデル単体の性能だけで決まるわけではありません。プロンプトの構築、状態の管理、そしてツールの呼び出しなどを統制する「ハーネス（Harness）」と呼ばれる実行基盤が重要な役割を担ってい […]

ResearchStudio-Reel: 論文からポスター、動画、ブログへ

研究論文の執筆後、ポスターや動画、ブログ記事を作成する作業に負担を感じたことはありませんか？このような研究発表の「ラストマイル」を自動化するシステムには、これまで3つの大きな課題がありました。 1つ目は成果物ごとに独立し […]

近年、LLMベースのエージェントは単なる受動的な質問応答から、自律的に環境を認識し、長期的なタスクを完遂するシステムへと移行しています。このような機能的要件を満たすため、現在のエージェントは「認知エンジン」である基盤モデ […]

近年、LLMエージェントの開発が盛んに進められていますが、現在の研究は現在の状態から次の行動を決定する「方策（Policy）」の改善にほぼ限定されています。しかし、汎用的なエージェントを実現するためには、行動によって環境 […]

現代のAI開発において、LLM（大規模言語モデル）の進化は目覚ましいものがあります。しかし、実用的なAIエージェントを構築する際、基盤モデル単体の性能だけでは不十分です。エージェントの能力を引き出すには、プロンプト、ツー […]

LLM（大規模言語モデル）を自律的なAIエージェントとして動作させる際、モデル単体の力だけでは不十分です。モデルが自律的に推論し、ツールを呼び出し、環境に作用するためには、その周囲を取り囲むインフラストラクチャの構築が不 […]

近年、AIはMMLUやSWE-benchなどのベンチマークを次々とクリアしていますが、実際の経済活動に直結する長期的な実務への導入はあまり進んでいません。この「実用性の課題」を測るため、実世界におけるワークフローの遂行能 […]

AIエージェントが複雑なタスクを解決する際、ツールやプロンプト、スキル、ワークフローの集合体である「ハーネス（Harness）」の継続的な改善が欠かせません。しかし、既存の最適化手法には大きな課題があります。それは、最適 […]

AI技術が飛躍的に進歩する中、「AIは科学研究のパートナーになれるのか？」と考える方も多いのではないでしょうか。しかし、科学的ソフトウェアの開発においては、単に「テストを通過する」ことではなく、「物理法則と一致しているか […]

最近、LLM（大規模言語モデル）を自律的なエージェントとして活用するケースが増えてきました。エージェントに特定のタスクを遂行させる際、自然言語で書かれた「スキル（指示書や手順書）」を与えるアプローチが一般的です。しかしな […]