AstroAlertBench: マルチモーダルLLMによる天体分類の現在地

現在の天文学の最前線では、ZTF (Zwicky Transient Facility) などの大規模な観測プロジェクトによって、毎晩数百万件もの天文アラート（突発天体などの観測通知）が生成されています。しかし、データ量 […]

Ctx2Skill: 自律的なコンテキスト学習の実現

LLM（大規模言語モデル）に独自のドキュメントや複雑なデータを読み込ませ、特定のタスクを解かせたいと考えたことはありませんか？ LLMが未知のコンテキスト（背景情報）からルールを読み取り、自ら推論を実施する能力は「コンテ […]

現在、マルチエージェントシステム（MAS）において、エージェント間で「テキスト」を介して情報をやり取りする手法が一般的ですが、これが推論レイテンシ（遅延）を増大させる主な要因となっています。他のエージェントのテキスト出力 […]

LLMベースのエージェント開発において、「スキル」は特定のタスクを実行するための機能拡張モジュールとして広く利用されています。しかし、現状のスキルエコシステムには大きな課題があります。個々のスキルが局所的な問題解決に特化 […]

AIコーディングエージェントが急速に普及していますが、実際の開発現場ではどのように使われているのでしょうか？この記事では、現実の利用実態を分析した初の大規模データセット「SWE-chat」から、実践的なインサイトを紹介し […]

最近、LLMを利用したシステムを開発する中で、「内部知識で答えられるはずの簡単な質問なのに、なぜか外部APIを叩いてレスポンスが遅くなっている」と感じたことはないでしょうか？ LLMが外部ツールを呼び出して問題を解決する […]

LLMを活用したシステム開発において、モデルの生成した回答が正しいかを正確に評価するプロセスは、システムの信頼性を担保する上で非常に重要です。従来、回答の判定には正規表現（Regex）などを利用した字面の一致に頼る手法が […]

AIを使っていて、「期待した結果が返ってこない」、「何度もやり取りを繰り返してしまう」と感じたことはないでしょうか。多くの場合、その原因は「プロンプトの書き方」ではなく、AIに与える「コンテキスト（背景情報）の不完全さ」 […]

現代の宇宙物理学におけるデータ解析は、データ表現やモデルの構造、最適化戦略といった高次元の「方法論的設計空間」を人間が網羅的に探索することが困難になっています。そのため、大規模言語モデル（LLM）を活用した自律型エージェ […]

大規模言語モデル（LLM）を活用したシステムを開発していると、「モデル単体は高性能なのに、システムに組み込むと思うように精度が出ない」という壁にぶつかることがよくあります。これは、システムの最終的な性能が、モデルの重みそ […]