エージェント・ハーネスの再定義: AIエージェントを制御するハーネスの役割
LLM(大規模言語モデル)を自律的なAIエージェントとして動作させる際、モデル単体の力だけでは不十分です。モデルが自律的に推論し、ツールを呼び出し、環境に作用するためには、その周囲を取り囲むインフラストラクチャの構築が不 […]
The Japan Bias: LLMに潜む隠れた文化的バイアス
大規模言語モデル(LLM)が世界中で利用される中で、モデルが出力する回答の「文化的な偏り」はAI開発における重要な課題となっています。これまで、LLMの文化的・地域的バイアスは、主にアメリカやヨーロッパといった欧米の視点 […]
Retrospective Harness Optimization: ラベル不要のエージェント自己進化手法
AIエージェントが複雑なタスクを解決する際、ツールやプロンプト、スキル、ワークフローの集合体である「ハーネス(Harness)」の継続的な改善が欠かせません。しかし、既存の最適化手法には大きな課題があります。それは、最適 […]
SkillOpt: AIエージェントのスキルを最適化するための手法
最近、LLM(大規模言語モデル)を自律的なエージェントとして活用するケースが増えてきました。エージェントに特定のタスクを遂行させる際、自然言語で書かれた「スキル(指示書や手順書)」を与えるアプローチが一般的です。しかしな […]
LLMの量子化がもたらす「アライメントの崩壊」
LLM(大規模言語モデル)をクラウドやエッジ環境で実運用する際、推論コストやメモリ使用量を削減するための「量子化」は欠かせない技術です。しかし、実社会のハイステークスな領域への適用が進むにつれ、量子化がハルシネーションや […]
BERT-as-a-Judge: LLM評価の精度と効率を両立する新手法
LLMを活用したシステム開発において、モデルの生成した回答が正しいかを正確に評価するプロセスは、システムの信頼性を担保する上で非常に重要です。従来、回答の判定には正規表現(Regex)などを利用した字面の一致に頼る手法が […]
反証可能性の壁:LLMは科学的研究を促進させるのか?
近年、GPT-5などの最先端モデルが、数学や物理、生物学といった様々な分野で新たな知見を生み出し、人間レベルの知能を示しているという報告が相次いでいます。モデルが複雑な課題を解き、科学の研究プロセスを大幅に加速させる様子 […]
Prompt Repetition: プロンプト反復によるLLMの改善
LLMの精度向上のために、日々プロンプトの試行錯誤を繰り返しているエンジニアは多いはずです。Google Researchの研究チームは、そのような課題に対し、非常にシンプルかつ強力な解決策である「Prompt Repe […]
LLM-as-classifier: 階層的テキスト分類器の構築方法
2010年代以降、膨大なテキストデータから深い意味的パターンを認識するニーズは、かつてないほど高まっています。これまでのテキスト分類は、大量のラベル付きデータを用いたファインチューニング(Fine-tuning)が主流で […]
2025年まとめ: AI関連の必読論文 総チェック
2025年は、AI技術が「生成」から「推論(Reasoning)」、そして「自律的なエージェント(Agentic AI)」へと劇的な進化を遂げた1年でした。LLMの効率化から、マルチモーダル化、さらにはAI自身が科学的発 […]