Blog

Home > Blog > ベンチマーク

Agents’ Last Exam (ALE): AIエージェントの合格率は1%未満

近年、AIはMMLUやSWE-benchなどのベンチマークを次々とクリアしていますが、実際の経済活動に直結する長期的な実務への導入はあまり進んでいません。この「実用性の課題」を測るため、実世界におけるワークフローの遂行能 […]

公開済み: 2026年6月20日
更新: 2026年6月13日
作成者: Tomonobu Inayama
カテゴリー: 人工知能
タグ: AIエージェント, LLM, ベンチマーク, 文献紹介

[data-arkb-linkbox]{cursor:auto}[data-arkb-link][aria-hidden="true"]{visibility:visible;color:transparent;z-index:0;width:100%;height:100%;pointer-events:auto}a.arkb-boxLink__title{text-decoration:underline}