エージェント・ハーネスの再定義: AIエージェントを制御するハーネスの役割

LLM(大規模言語モデル)を自律的なAIエージェントとして動作させる際、モデル単体の力だけでは不十分です。モデルが自律的に推論し、ツールを呼び出し、環境に作用するためには、その周囲を取り囲むインフラストラクチャの構築が不 […]

Agents’ Last Exam (ALE): AIエージェントの合格率は1%未満

近年、AIはMMLUやSWE-benchなどのベンチマークを次々とクリアしていますが、実際の経済活動に直結する長期的な実務への導入はあまり進んでいません。この「実用性の課題」を測るため、実世界におけるワークフローの遂行能 […]

The Japan Bias: LLMに潜む隠れた文化的バイアス

大規模言語モデル(LLM)が世界中で利用される中で、モデルが出力する回答の「文化的な偏り」はAI開発における重要な課題となっています。これまで、LLMの文化的・地域的バイアスは、主にアメリカやヨーロッパといった欧米の視点 […]

SaluNet: ディープラーニングに正規化は必要なのか?

ディープラーニングモデルの学習を安定させる上で、Batch Normalization (バッチ正規化) や Layer Normalization (レイヤー正規化) といった正規化層は、長らく不可欠な技術とされてきま […]

Retrospective Harness Optimization: ラベル不要のエージェント自己進化手法

AIエージェントが複雑なタスクを解決する際、ツールやプロンプト、スキル、ワークフローの集合体である「ハーネス(Harness)」の継続的な改善が欠かせません。しかし、既存の最適化手法には大きな課題があります。それは、最適 […]

Physics Is All You Need?~ AIエージェントは「答え」を最適化するが、「真理」は探究できない~

AI技術が飛躍的に進歩する中、「AIは科学研究のパートナーになれるのか?」と考える方も多いのではないでしょうか。しかし、科学的ソフトウェアの開発においては、単に「テストを通過する」ことではなく、「物理法則と一致しているか […]

SkillOpt: AIエージェントのスキルを最適化するための手法

最近、LLM(大規模言語モデル)を自律的なエージェントとして活用するケースが増えてきました。エージェントに特定のタスクを遂行させる際、自然言語で書かれた「スキル(指示書や手順書)」を与えるアプローチが一般的です。しかしな […]

LLMの量子化がもたらす「アライメントの崩壊」

LLM(大規模言語モデル)をクラウドやエッジ環境で実運用する際、推論コストやメモリ使用量を削減するための「量子化」は欠かせない技術です。しかし、実社会のハイステークスな領域への適用が進むにつれ、量子化がハルシネーションや […]

Code as Agent Harness: AIエージェントを自律駆動させるためのアーキテクチャ

LLM(大規模言語モデル)の進化により、AIエージェントの開発が急速に進んでいます。しかし、複雑なタスクを長期間にわたって自律的に実行させるには、自然言語による指示だけでは限界があります。 現在、LLMにとって「コード」 […]

MinT: LLMを効率的に管理する次世代インフラ

近年、LLM(大規模言語モデル)の運用において、タスクやユーザーごとにモデルを微調整してデプロイする機会が増加しています。しかし、細分化されたバリアントごとにフルサイズのチェックポイントをコピーしたり移動させたりする従来 […]