Data-centric AI: データ中心のAIとは何か？

近年のAI（人工知能）の発展は目覚ましく、我々の生活や社会のあらゆる領域に大きな影響を与えています。その躍進を支える重要な要素の一つが、機械学習モデル構築のための豊富で高品質なデータです。

これまでのAI開発では、アルゴリズムやモデルの改良に焦点が当てられることが多く、より高性能なモデルアーキテクチャを追求する「Model-centric AI」というアプローチが主流でした。しかし、近年、AIにおけるデータの役割が飛躍的に重要視されるようになり、「Data-centric AI（データ中心のAI）」という新たな概念が注目を集めています。この概念は、モデル開発だけでなく、データの品質や量そのものを向上させることに重点を置くアプローチです。

今回は、Data-centric AIの必要性、具体的な手法、そして今後の課題について解説していきます。具体的には、データ中心の3つの目標（学習データ開発、推論データ開発、データメンテナンス）と代表的な手法を包括的に見ていきます。また、自動化とコラボレーションの観点から既存の研究を整理し、様々なタスクにおける課題やベンチマークについても紹介します。

はじめに
1. Data Centric AI の重要性
2. Data Centric AI の取り組みと利点
Data-centric AI の基礎
学習データの開発
推論データの開発
データメンテナンス
データベンチマーク
現状と将来の方向性
おわりに

はじめに

Data Centric AI は、従来の Model-centric AI とは異なり、AI システム構築においてデータそのものの重要性を強調するアプローチです。Model-centric AI では、データセットをほぼ固定し、モデルの改良に焦点が当てられていましたが、Data Centric AI では、データの品質向上、体系的なエンジニアリングに重点を置いています。単にデータを利用する「Data-driven」とは異なり、データそのものの設計・改善に重きを置いている点が特徴です。

**図1.** Data Centric AI が重要な役割を強調する事例: **(左)** モデルアーキテクチャは、モデルの重みが増えたことを除いて同様のまま **(右)** モデルが十分に強力になると、モデルを固定した状態で、プロンプト（推論データ）を設計するだけで済む。

Data Centric AI の重要性

以下の事例は、Data Centric AI の重要性を裏付けるものと言えます。

学習データ: AlexNet の ImageNet データセット、AlphaFold のアノテーションされたタンパク質配列、大規模言語モデルの大規模テキストデータなど、質の高いデータが AI の成功に不可欠であることが示されています。
推論データ: 敵対的サンプルによるニューラルネットワークの混乱や、プロンプトエンジニアリングによる入力データの調整など、推論時においてもデータの重要性が示されています。

これらの事例は、学習時だけでなく推論時においても、データが AI の性能に大きな影響を与えることを示唆しています。

Data Centric AI の取り組みと利点

Data Centric AI は、単にデータを利用するだけでなく、データそのもののエンジニアリングに重点を置いています。具体的な取り組みとしては、以下のようなものが挙げられます。これらの取り組みは、結果として様々な利点をもたらします。

データセットの反復的な改善: データセットの改善のみを反復して性能を向上させるコンペティションなどが良い例です。これにより、データの品質が向上し、結果として精度の向上という利点に直結します。
自動データアノテーション: 手動ラベル付けなしにヒューリスティック関数を用いた自動データアノテーションシステムが登場しています。この取り組みは、データ作成の効率化に貢献し、迅速なデプロイを可能にします。また、人手によるラベル付けのばらつきを抑え、データの一貫性を保つことで、標準化されたワークフローの実現に貢献します。
データ品質の重視: 欠損値、不正なラベル、異常値など、データの潜在的な品質問題に焦点を当て、体系的にデータ品質を向上させる取り組みが行われています。これにより、AIモデルの汎化性能が向上し、より信頼性の高いAIシステムを構築できます。これは、精度の向上、ひいてはAI技術による社会的リスクの低減にも繋がります。
データ中心のツールとプラットフォームの活用: データの前処理、変換、分析、可視化などを効率的に行うためのツールやプラットフォームが開発・提供されています。これらは、データエンジニアリングの効率性を高め、迅速なデプロイに貢献します。

Data-centric AI の基礎

このセクションでは、Data-centric AI に関連する概念を定義し、Data-centric AI がなぜ必要なのかを説明します。その後、関連するタスクの全体像を示し、既存の研究を整理するための目標主導の分類法を紹介します。最後に、Data-centric AI における自動化と人間の関与について焦点を当てます。

定義

Data-centric AIの定義は研究者によって様々です。例えば、

Ng et al.:「AIシステム構築に用いるデータを体系的にエンジニアリングする分野」
Polyzotis & Zaharia: 「機械学習のための高品質なデータセット構築を研究する、刺激的な新分野」
Jarrahi et al.:「データ問題への体系的かつ反復的なアプローチを提唱する」

これらの定義はデータ重視の点を共通して強調していますが、Data-centric AIの範囲、つまり包含されるタスクや技術は依然として曖昧です。そこで、以下のようにそれぞれの概念を明確に定義します。

AI（人工知能）: 複雑なタスクをコンピュータで解決するために、人間の知能を模倣することを目指す広範な学際的分野です。主要技術は機械学習であり、データを用いた予測モデルの訓練によってタスクを達成します。
データ: 情報を伝える値の集合を表す一般的な概念です。AIにおいては、機械学習モデルの訓練や予測のための入力として使用されます。形式は表形式データ、画像、テキスト、音声、動画など多岐に渡ります。
学習データ: 機械学習モデルの訓練段階で使用されるデータです。モデルは学習データを用いてパラメータを調整し、予測を行います。
推論データ: 機械学習モデルの推論段階で使用されるデータです。訓練後のモデル性能評価に加え、言語モデルのプロンプト調整など、望ましい出力を得るための調整にも用いられます。
データメンテナンス: データの品質と信頼性を維持するプロセスであり、多くの場合、データ理解とデバッグのための効率的なアルゴリズム、ツール、インフラストラクチャを含みます。学習データと推論データの正確性と一貫性を保証するため、AIにおいて重要な役割を果たします。
Data-centric AI: AIシステムのためのデータを開発、反復、維持するためのフレームワークです。効果的な学習データ構築、適切な推論データ設計、データ維持のためのタスクと方法を含みます。

Data-centric AI の必要性

従来のAI開発はモデル中心と見なされ、固定されたデータセットに基づくモデル設計の進歩に焦点が当てられてきました。しかし、固定されたデータセットへの過度な依存は必ずしもモデル性能の向上に繋がらず、モデルの特殊性から課題間の移行が困難な場合も多く、データ品質の軽視は精度低下やバイアスの助長を招きます。

そこで、データ中心のAI（Data-centric AI）への関心が高まり、データ品質と量に着目するようになりました。Data-centric AIは、モデルを比較的固定した状態でデータ品質の向上を重視します。このトレンドですが、大規模言語モデルの進歩が巨大なデータセットに大きく依存していることや、プロンプトエンジニアリングがデータ入力の調整のみで大きな成果を上げていることなど、既にその利点が示されています。

重要なのは、Data-centric AIがModel-centric AIの価値を否定するものではなく、両者はAIシステム構築において相補的な関係にあるということです。

Data-centric AI のタスク

Data-centric AIの目標達成には具体的なタスクが必要です。包括的な理解を深めるため、関連タスクの全体像を示し、既存研究を整理する目標主導の分類法を提示します。Data-centric AIは、学習データ開発、推論データ開発、データメンテナンスの3つの目標に分類できます。

学習データ開発: 機械学習モデルの訓練を支援する、豊富で高品質な学習データの収集と作成を目的とします。データ収集、データラベリング、データ準備、データ削減、データ拡張の5つのサブゴールで構成されます。
推論データ開発: モデルへのより深い洞察を提供したり、適切に設計された入力データでモデルの特定の能力を引き出したりできる、新しい評価セットの作成を目的とします。分布内評価、分布外評価、プロンプトエンジニアリングの3つのサブゴールがあります。
データメンテナンス: 現実世界のアプリケーションでは、データは作成後も継続的なメンテナンスが必要です。データメンテナンスの目的は、変化する環境下でデータの品質と信頼性を確保することです。データ理解、データ品質保証、データストレージと検索の3つの重要なサブゴールが含まれます。

Goal	Sub-goal	Tasks
Training data development	Collection	Dataset discovery, data integration, raw data synthesis
	Labeling	Crowdsourced labeling, semi-supervised labeling, active learning, data programming, distant supervision
	Preparation	Data cleaning, feature extraction, feature transformation
	Reduction	Feature selection, dimensinality reduction, instance selection
	Augmentation	Basic manipulation, augmentation data synthesis, upsampling
Inference data development	In-distribution	Data slicing, algorithmic recourse
	Out-of-distribution	Generating adversarial samples, generating samples with distribution shift
	Prompt engineering	Manual prompt engineering, automated prompt engineering
Data maintenance	Understanding	Visual summarization, clustering for visualization, visualization recommendation, valuation
	Quality assurance	Quality assessment, quality improvement
	Storage & retrieval	Resource allocation, query index selection, query rewriting

表1. Data-centric AI の枠組みにおける代表的なタスク

自動化と人の関与

Data-centric AIは、データライフサイクルの様々な段階に関連する多様なタスクで構成されています。増大するデータ量に対応するため、一部のタスクでは効率化のための自動化アルゴリズム開発が不可欠です。一方で、データが人間の意図と一致することを保証するため、人間の関与が不可欠なタスクも存在します。人間の参加が必要かどうかは、データと人間の期待との整合を目的とするかどうかに依存します。

**図3. Data-centric AI の論文における、自動化と人間参加型の分類**

自動化指向の手法は、通常、自動化の目的が様々です。既存の手法から、以下の自動化レベルに大別できます。

プログラムによる自動化: プログラムを用いてデータを自動処理します。プログラムは多くの場合、ヒューリスティクスと統計情報に基づいて設計されます。
学習ベースの自動化: 最適化（例えば、目的関数の最小化）によって自動化戦略を学習します。このレベルの手法は、より柔軟で適応性が高いことが多いですが、学習に追加コストが必要です。
パイプライン自動化: 複数のタスクにわたる一連の戦略を統合・調整します。これにより、グローバルに最適な戦略を特定するのに役立ちますが、調整には大幅なコストがかかる可能性があります。

同様に、人間参加型指向の手法は、様々な形式で人間の参加を必要とします。人間の参加の程度は、効率（少ない人手）と有効性（人間とのより良い整合）のトレードオフをある程度反映しています。手法の選択は、アプリケーションドメインと関係者のニーズによって異なります。

学習データの開発

機械学習モデルの性能は、学習に使用するデータの質と量に大きく左右されるため、学習データはモデルの基盤となると言えます。

ここでは、学習データの作成と処理における重要なステップを概説します。データ作成では、データ収集とデータラベリングを通して、人間の意図を効果的かつ効率的にデータセットにエンコードすることに焦点を当てます。一方、データ処理では、データ準備、データ削減、データ拡張など、データを学習に適した状態にすることを目指します。これらのステップを紹介した後、それらを繋ぎ合わせ、最も効果的なエンドツーエンドのソリューションを探索することを目的とした、新たなトレンドであるパイプライン探索について議論します。

データ収集

データ収集とは、様々なソースからデータを集める過程です。この過程はデータの質と量を決定づけ、ドメイン知識に大きく依存します。近年、データの入手が容易になるにつれ、既存のデータセットを活用する効率的な戦略が発展しています。

ドメイン知識の役割

対象分野への深い理解は、適切なデータ収集に不可欠です。例えば、推薦システムを構築する際は、分野に応じて収集すべきユーザーやアイテムの特徴を見極める必要があります。また、金融市場の知識は、より現実的な異常データの生成に役立ちます。このように、ドメイン知識は収集するデータと目的の整合性を確保する上で重要な役割を果たします。

効率的なデータ収集戦略

従来、データセットは手作業で一から構築されていましたが、この方法は時間がかかります。そこで、既存のデータを活用する効率的な方法が開発されています。

データセット発見: 利用可能なデータセットが増加する中、既存のデータセットを組み合わせて新しいデータセットを作ることが可能になっています。データセット発見は、ユーザーの要求に基づき、データレイクから最適なデータセットを特定することを目指します。主な手法として、データセットをグラフとして表現する方法や、テーブル結合検索があります。最近では、属性名、値の重複、単語埋め込みなど、多角的な観点から関連性を測定する手法も登場しています。
データ統合: 複数のデータセットを統合する際の課題は、カラムの照合とデータ値の変換です。従来のルールベースのシステムに代わり、機械学習を用いた自動化手法が開発されています。例えば、データ値の変換を分類問題として扱い、学習させた分類器を未知のデータに適用する方法があります。
データ合成: 実データの収集が困難な場合、人工的にデータを生成することが有効です。特に異常検知では、実際の異常データの収集が難しいため、正常データに異常パターンを挿入する手法がよく使われます。時系列データでは、トレンドや季節性を考慮した異常パターンの生成方法が提案されています。ただし、合成戦略の設計にはドメイン知識が必須です。

課題

データ収集には技術的・非技術的な様々な課題があります。技術面では、データセット間の関連性の測定や適切な統合が難しく、データの合成にもドメイン知識が必要です。また、必要なデータセットが存在しない場合や、法的・倫理的な制約により入手が困難な場合もあります。特に、新規データの収集では、インフォームドコンセント（「医療者側からの十分な説明」に基づく「患者側の理解・納得・同意・選択」のこと）、プライバシー、セキュリティへの配慮が重要です。これらの課題を理解した上でデータ収集を進める必要があります。

データラベリング

データラベリングとは、データセットに記述的なタグやラベルを付与し、アルゴリズムが学習・予測できるようにするプロセスです。従来は手作業で行われ、特に大規模データセットでは多大な時間と労力を要しました。近年は、効率的なラベリング手法が開発されています。

データラベリングの必要性

ラベリングは、モデルが人間の意図を正確に反映するために必要不可欠な工程です。適切なラベリングがなければ、モデルは望ましい予測ができません。教師なし学習は大規模言語モデルや異常検知で成果を上げていますが、人間の期待と一致しないことがあります。そのため、ChatGPTなどのモデルは人間のラベルによるファインチューニングが必要になります。

効率的なラベリング戦略

クラウドソーシングラベリング: クラウドソーシングでは、ラベリング作業を小分けにして多数の作業者に分散させます。従来は初期ガイドラインのみを提供していましたが、作業者間で判断が異なる問題がありました。これに対し、パイロット研究による改善や、複数作業者の合意に基づくラベル付け、低品質な作業者の除外などの対策が提案されています。
半教師ありラベリング: 少量のラベル付きデータを活用して、未ラベルデータのラベルを推測する手法です。自己トレーニングでは、ラベル付きデータで学習した分類器を使用して疑似ラベルを生成します。複数の分類器による合意やグラフベースの手法も研究されています。最近では、ChatGPTで採用された人間フィードバックによる強化学習も登場しています。
アクティブラーニング: 人間を含む反復的なラベリング手法です。アルゴリズムが注釈が必要なサンプルを選択し、人間がラベル付けを行います。初期の研究では、統計的手法で不確実性の高いサンプルを選択し、最近では深層学習や強化学習を活用した手法が研究されています。
データプログラミング: 人間が設計したラベリング関数でラベルを推測する手法です。テキスト分類のシードワードや画像セグメンテーションのマスクなどのルールを使用します。最近では、人間のフィードバックでラベリング関数を改善する手法も提案されています。
遠隔教師あり学習: 外部データソースを活用してラベルを付与する手法です。例えば、Freebaseのデータを使用した関係抽出があります。人手を必要としない反面、外部データとの不一致によりノイズが生じる可能性があります。

課題

データラベリングの主な課題は、ラベルの品質・量・コストのバランスです。予算に余裕がある場合は専門家による高品質なラベル付けが可能ですが、通常はより効率的な戦略が必要になります。また、ラベリング基準の主観性や、データプライバシー、バイアスなどの倫理的問題も重要な課題となっています。

データ準備

データ準備では、生データをモデル学習に適した形式に整形・変換を行います。従来は試行錯誤を伴う多くのエンジニアリング作業が必要でしたが、近年は効果的な戦略を発見するための自動化手法が研究されています。

データ準備の必要性

生データには、ノイズ、不整合、不要な情報などの問題が含まれることが多く、そのままではモデル学習に適しません。例えば、ノイズや外れ値は過学習を引き起こし、機密情報の存在は偏った予測につながる可能性があります。また、特徴量のスケールの違いや歪んだ分布も、モデルの性能低下の原因となります。Forbesの調査によると、データサイエンティストの作業時間の約80%がデータ準備に費やされているとされています。

方法

データクリーニング: データクリーニングでは、データセット内のエラーや不整合を特定・修正します。従来は欠損値の平均値補完や重複の検出などを自動化していましたが、これらは必ずしも正確ではありません。そこで、欠損値予測モデル、効率的な重複推定、ラベル修正などの機械学習ベースの手法が開発されています。最近では、検証性能を最適化するクリーニング戦略の自動探索や、人間と機械の協調による重複検出なども提案されています。
特徴抽出: 特徴抽出は、生データから有用な特徴を取り出す重要な工程です。従来の機械学習では、画像の色やテクスチャ、時系列データの統計量やスペクトル特性など、ドメイン知識に基づく特徴設計が必要でした。一方、深層学習では特徴を自動的に学習できますが、解釈が難しく、バイアスを増幅する可能性があります。そのため、高リスクな分野では従来の解釈可能な特徴抽出が好まれます。
特徴量変換: 特徴量変換は、元の特徴を新しい特徴に変換するプロセスです。代表的な手法には、特徴の正規化や標準化、対数変換、多項式変換などがあります。最近の研究では、強化学習を用いて最適な変換戦略を自動的に探索する手法も提案されています。

課題

データ準備の難しさは、データセットごとに特性が大きく異なることにあります。テキストデータと時系列データでは、エラーや不整合の性質が異なり、同じデータ型でも特徴量や問題は多様です。自動探索手法は有望ですが、適切な探索空間の設計や計算時間の問題が残されています。

データ削減

データ削減とは、データセットの本質的な情報を保持しながら複雑さを軽減するプロセスです。主に特徴量の削減とサンプルサイズの削減によって実現されます。

データ削減の必要性

データ量が急速に増加する中、データ削減は学習効率の向上に重要な役割を果たします。サンプル数を減らすことで、メモリと計算の制約を軽減し、より簡潔で代表的なデータセットを作成できます。また、多数派クラスのダウンサンプリングによってデータ不均衡の問題も改善できます。

特徴量の削減にも多くの利点があります。無関係や冗長な特徴を除去することで過学習を防ぎ、モデルの学習と推論を高速化します。さらに、特徴量を厳選することでモデルの解釈性も向上します。

特徴量削減の方法

特徴選択: 特徴選択は、タスクに最も関連する特徴を選び出すプロセスです。主にフィルター法、ラッパー法、埋め込み法に分類されます。フィルター法は情報利得などの統計的指標で特徴を評価しますが、特徴間の依存関係は考慮しません。ラッパー法はモデルの性能に基づいて特徴を選択し、より良い結果が得られますが計算コストが高くなります。埋め込み法は特徴選択をモデル学習に組み込み、選択プロセスを最適化します。最近では人間の知識を活用するアクティブ特徴選択も研究されています。
次元削減: 次元削減は高次元の特徴を低次元に変換する技術です。線形手法と非線形手法に大別されます。線形手法の代表例は主成分分析（PCA）で、分散に基づいて特徴の直交線形結合を行います。教師あり学習向けには線形判別分析（LDA）があります。非線形手法の例としては、オートエンコーダーがあり、ニューラルネットワークを使用して特徴の次元削減と再構築を行います。

サンプルサイズ削減の方法

データの特性を保持しながら代表的なサンプルを選択するインスタンス選択が一般的です。境界インスタンスの選択やモデル性能に基づく選択などがあります。また、データ不均衡に対してはランダムアンダーサンプリングが用いられ、最近では強化学習による最適化も研究されています。

課題

データ削減には2つの課題があります。1つは情報損失を最小限に抑えながら代表的なデータを選択することの難しさです。学習ベースの手法は有効ですが、大規模データセットでは計算コストが高くなります。もう1つは、データバイアスの増幅リスクです。例えば、選択された特徴が保護属性と強く関連する可能性があります。公平性を考慮したデータ削減は、今後の重要な研究課題となっています。

データ拡張

データ増強とは、既存データから人工的に様々なバリエーションを作成し、データの量と多様性を増やす手法です。データ削減が冗長な情報の排除を目的とするのに対し、データ増強は多様性の向上を目指します。

データ増強の必要性

現代の機械学習、特に深層学習では大量のデータが必要ですが、大規模なデータセットの収集には多大な労力を要します。データ増強によって学習用データを増やすことで、モデルの精度、汎化能力、堅牢性を向上できます。特に医療データなど、適切なデータの入手が困難な分野で重要です。また、少数派クラスのデータを増強することで、クラス不均衡の問題も軽減できます。

一般的な増強方法

基本的な操作: 既存のデータに変更を加えて新しいサンプルを生成します。画像処理では、スケーリング、回転、反転、ぼかしなどが用いられます。注目すべき手法としてMixupがあり、データサンプルの補間により新しいサンプルを作成します。最近では、AutoAugmentのように強化学習で増強戦略を自動的に探索する研究も進んでいます。また、時系列データの順列とジッタリング、テキストデータの潜在空間での混合、グラフデータの混合など、データ型に応じた手法も開発されています。
増強データ合成: 生成AIを用いて新しいサンプルを合成する手法です。GANが広く使用され、画像だけでなく時系列やテキストの増強にも応用されています。また、変分オートエンコーダーや拡散モデルを用いる研究も行われています。

クラス不均衡への対応

クラス不均衡に対しては、少数派クラスのアップサンプリングが効果的です。代表的な手法にSMOTEがあり、少数派インスタンスとその近傍を補間して新しいサンプルを生成します。ADASYNはこれを拡張し、学習が困難なデータに重点を置いてサンプルを生成します。最近では、AutoSMOTEのように強化学習で最適な戦略を探索する手法も提案されています。

課題

データ増強の主な課題は、全ての状況に適した単一の戦略が存在しないことです。例えば、画像向けの手法をグラフデータに直接適用することはできません。同じデータ型でも、最適な戦略は異なる場合があります。自動探索アルゴリズムは有効ですが、計算コストとストレージコストが増加するため、より効率的な技術の開発が求められています。

パイプライン探索

実際のアプリケーションでは、複数のデータ処理ステップが連携する複雑なパイプラインが必要になります。各ステップは相互に影響し合うため、最適な組み合わせを見つけることが重要です。例えば、データ増強の最適な戦略は、選択された特徴量に依存する可能性があります。近年、このような最適な組み合わせを自動的に探索する手法が注目されています。

代表的なフレームワークの一つがAutoSklearnで、前処理モジュール、モデル、ハイパーパラメータを組み合わせた探索を行い、検証性能を最適化します。ただし、前処理モジュールの探索範囲は限定的です。

DARPAのData-Driven Discovery of Models（D3M）プログラムは、パイプライン探索のインフラを整備し、この分野を大きく発展させました。当初は自動モデル探索が中心でしたが、現在では多くのデータ処理モジュールも開発されています。D3Mを基盤として、以下のような手法が提案されています：

AlphaD3M：モンテカルロ木探索による最適パイプラインの特定
時系列異常検知やビデオ分析向けの拡張
Deepline：多段階強化学習による広範な探索
ClusterP3S：クラスタリングを用いた効率的な探索とパーソナライズ化

しかし、パイプライン探索には依然として計算コストの課題が残されています。様々なモジュールの組み合わせを繰り返し試す必要があり、モジュール数の増加に伴って探索空間が指数関数的に大きくなります。実用化に向けては、より効率的な探索戦略の開発が求められています。

Sub-goal	Task	Method type	Automation level / participation degree	Reference
Collection	Dataset discovery	Collaboration	Minimum	Alex Bogatu et al., Raul Castro Fernandez et al., Fatemeh Nargesian et al.
	Data integration	Automation	Programmatic	Arun Kumar et al., Maurizio Lenzerini
	Data integration	Automation	Learning-based	Michael Stonebraker et al. (2013) Michael Stonebraker et al. (2018)
	Raw data synthesis	Automation	Programmatic	Kwei-Herng Lai et al.
Labeling	Crowdsourced labeling	Collaboration	Full	Ofer Dekel et al., Mucahid Kutlu et al., Wei Tang et al.
	Semi-supervised labeling	Collaboration	Partial	Zixing Song et al., Long Ouyang et al., Y. Zhou et al., Barret Zoph et al.
	Active learning	Collaboration	Partial	D. A. Cohn et al., Junnan Dong et al., Pengzhen Ren et al., Daochen Zha et al.
	Data programming	Collaboration	Partial	Benedikt Boecking et al., Sainyam Galhotra et al.
	Data programming	Collaboration	Minimum	Sarah Hooper et al., Alexander Ratner et al. (2017), Alexander Ratner et al. (2016), Daochen Zha et al.
	Distant supervision	Automation	Learning-based	Mike Mintz et al.
Preparation	Data cleaning	Automation	Programmatic	Zhongheng Zhang
	Data cleaning	Automation	Learning-based	Arvid Heise et al., Zhimeng Jiang et al., Sanjay Krishnan et al., Kamakshi Lakshminarayan et al.
	Data cleaning	Collaboration	Partial	Jiannan Wang et al.
	Feature extraction	Automation	Programmatic	Marília Barandas et al., Ayodeji Olalekan Salau et al.
	Feature extraction	Automation	Learning-based	Alex Krizhevsky et al., Zhiguang Wang et al.
	Feature transformation	Automation	Programmatic	Peshawa Jamal Muhammad Ali et al., Bisong, E et al.
	Feature transformation	Automation	Learning-based	Udayan Khurana et al.
Reduction	Feature selection	Automation	Programmatic	Azhagusundari, B et al., Sumaiya Thaseen Ikram et al.
	Feature selection	Automation	Learning-based	Suhang Wang et al., Ke Yan et al.
	Feature selection	Collaboration	Partial	Shachar Schnapp et al., Zhongheng Zhang
	Dimensionality reduction	Automation	Learning-based	Hervé Abdi et al., Dor Bank et al., Xanthopoulos, P et al.
	Instance selection	Automation	Programmatic	Joseph Prusa et al., José C. Riquelme et al., Zhining Liu et al.
	Instance selection	Automation	Learning-based	Zhining Liu et al., Oliver J. Sutton
Augmentation	Basic manipulation	Automation	Programmatic	Jiaao Chen et al., Xiaotian Han et al., Qingsong Wen et al., Hongyi Zhang et al., Xiang Zhang et al.
	Basic manipulation	Automation	Learning-based	Ekin D. Cubuk et al.
	Augmentation data synthesis	Automation	Learning-based	Maayan Frid-Adar et al., Jonathan Ho et al., Wei-Ning Hsu et al., Conner Shorten et al.
	Upsampling	Automation	Programmatic	N. V. Chawla et al., Haibo He et al.
	Upsampling	Automation	Learning-based	Daochen Zha et al.
–	Pipeline search	Automation	Pipeline	Iddo Drori et al., Matthias Feurer et al., Yuval Heffetz et al., Kwei-Herng Lai et al., Diego Martinez et al., Mitar Milutinovic et al., Daochen Zha et al.

表2. 学習データの開発手法における文献一覧

推論データの開発

AIモデルの開発において、学習済みのモデルを評価したり、特定の能力を引き出すために推論データの設計は不可欠です。従来のモデル中心のパラダイムでは、ホールドアウトによりモデルの性能を測ることが一般的でした。しかし、モデルの性能指標だけでは、ロバスト性や汎化能力といった重要な側面を十分に評価できない場合があります。

この章では、より詳細な視点からモデルを評価するための推論データの開発手法について解説します。In-distribution評価（分布内評価）、Out-of-distribution評価（分布外評価）、プロンプトエンジニアリングといった手法を通じて、モデルの性能を多角的に評価する方法を紹介します。これにより、より信頼性の高い、そして人間中心のAIシステムの開発に繋げることが期待されます。

In-distribution評価（分布内評価）

分布内評価は、訓練データの分布に沿ったサンプルを用いて、訓練済みモデルの品質を評価する手法です。まず分布内評価の必要性について説明し、次にデータスライシングによるモデルの性能評価や、アルゴリズム的リコースを用いた意思決定境界の評価手法を概説します。最後に、この評価手法における課題について述べます。

分布内評価の必要性

分布内評価は、訓練済みモデルの品質を直接的に評価する手法であり、訓練分布内でのモデルの性能を把握できます。詳細な分布内評価が必要となる理由は、以下の2点です。

全体的な性能が良好なモデルでも、特定のグループに対して十分な性能を発揮できない場合があります。特に重要度の高いアプリケーションでは、十分な評価がなされていないグループを特定し、バイアスやエラーを防ぐための調整が必要です。
政策立案などリスクの高いアプリケーションでは、モデルの倫理性を確認するため、意思決定境界を理解することが重要です。

データスライシング

データスライシングは、データセットを関連するグループに分割し、各グループでのモデル性能を個別に評価する手法です。一般的には年齢、性別、人種などの基準で分割を行います。しかし、実際のアプリケーションでは、地球物理学における3D地震データやプログラムスライシングのように、適切な分割基準の設計には専門知識が必要となります。

作業の効率化のため、重要なデータスライスを自動的に発見する手法が開発されています。代表的な研究にSliceFinderがあります。これは解釈可能（少数の特徴による分割）かつ問題のある（モデルの性能が低い）スライスを特定します。SliceFinderは、効率的なツリーベースの探索と、より効果的なラティスベースの探索という2つの手法を提供しています。

また、SliceLineは、アルゴリズムとシステムの両面からスケーラビリティの課題に取り組んでいます。頻出アイテムセットマイニングの考え方を応用し、単調性と上限を活用して効果的な枝刈りを実現しています。

GEORGEは、各ラベル付きクラスに複数の意味的に異なるサブクラスが存在する場合の隠れ階層化に対処するため、クラスタリングアルゴリズムを用いてデータを分割します。

Multiaccuracyは別のアプローチを取り、単純な「監査者」がモデルの残差を予測するよう訓練されます。少量の監査データのみで実行できる効率的な手法です。

これらのデータスライシング手法により、モデルの予測におけるバイアスやエラーを特定し、モデルの全体的な性能を向上させることができます。

アルゴリズム的リコース（Algorithmic Recourse）

アルゴリズム的リコース（説明可能なAIの分野では「反事実」とも呼ばれる）は、望ましい結果を得るためにモデルの判断を覆すことができる仮想的なサンプルの生成を目指します。例えば、ローンが否決された場合、承認される可能性が最も高い条件（より高い口座残高など）を探索します。この仮想サンプルは、意思決定境界の理解や、個人間の潜在的なバイアスの検出に役立ちます。

既存の手法は、仮想サンプルの特定方法によってホワイトボックス方式とブラックボックス方式に分類されます。ホワイトボックス方式は、モデルの内部構造、勾配、または予測関数へのアクセスを必要とします。一方、ブラックボックス方式はモデルへのアクセスを必要としません。例えば、特定の分布下でのリコースを見つけるためにDijkstraアルゴリズムを用いて、既存のデータポイント間の最短経路を探索する手法があります。また、特徴空間を単一クラスの領域に分割し、グラフ探索技術で最も近いリコースを特定する手法もあります。

課題

分布内評価における主な課題は、対象となるサンプルを効果的かつ効率的に特定することです。データスライシングでは、データ量の増加に伴い可能なサブセットが指数関数的に増加するため、最適なデータサブセットの決定が困難です。また、情報が限られている場合の最適なリコースの特定にも多大な労力が必要となります。

Out-of-distribution評価（分布外評価）

分布外評価データとは、訓練データとは異なる分布に従うサンプル群を指します。このセクションでは、分布外評価の必要性を説明し、代表的な2つのタスクである敵対的サンプルの生成と分布シフトを伴うサンプルの生成について解説します。さらに、分布外データ生成における課題について詳しく述べます。

分布外評価の必要性

最新の機械学習技術は、一般に分布内データセットで良好な性能を示しますが、実運用環境のデータ分布は訓練データと異なる可能性があります。分布外評価では、訓練時とは大きく異なるデータサンプルを用いて、予期しないシナリオに対するモデルの汎化能力を評価します。これにより、モデルの転移性を把握し、想定外の状況での性能に対する信頼性を確保できます。また、モデルの頑健性に関する重要な知見が得られ、実運用前に対処すべき潜在的な問題点を特定できます。これは、モデルの実世界での安全性を判断する上で極めて重要です。

敵対的サンプルの生成

敵対的サンプルとは、モデルに誤った予測をさせるように意図的に操作された入力データです。これはモデルの頑健性を理解するのに役立ち、通常は入力データに摂動を加えることで生成されます。手動による摂動では、ノイズやぼかしなどの人工的な変化を元のデータに加えます。

自動化された手法では、摂動を自動生成する学習ベースの戦略を用い、一般に以下の4つに分類されます。

ホワイトボックス攻撃：攻撃者がモデルと対象サンプルにアクセスできる場合の手法です。Biggioの攻撃、DeepFool、投影勾配降下攻撃などがあります。
物理世界攻撃：現実の物体に実際の変更を加える手法です。例えば、道路標識にステッカーを貼付けて自動運転車の認識システムに影響を与える研究があります。
ブラックボックス攻撃：分類器の詳細にアクセスできない場合に用いられる手法です。転移特性を利用する手法や、予測信頼度を利用するゼロ次最適化ベースの攻撃などがあります。
ポイズニング攻撃：モデル学習前に敵対的サンプルを生成する手法です。例えば、ポイズンフロッグ手法では、敵対的画像を正しいラベル付きで訓練セットに追加します。

分布シフトを伴うサンプルの生成

分布シフトを伴うサンプルの生成により、異なる分布におけるモデル評価が可能になります。最も単純な方法は、異なる時間や場所、野生生物観察用のカメラトラップ、様々なドメインなどから、多様なパターンのデータを収集することです。

より効率的な方法として、既存のデータから評価セットを構築する手法があります。例えば、人間には似て見えるが微小な変化により異なる予測を引き起こす、連続するビデオフレームのセットを生成する研究があります。

分布シフトには以下の3種類があります：

共変量シフト：入力分布が変化する場合
ラベルシフト：ラベル分布が変化する場合
一般的な分布シフト：入力分布とラベル分布の両方が変化する場合

課題

分布外生成セットの構築には2つの主要な課題があります：

高品質な分布外データの生成が困難です。特に訓練データが代表的でない場合、適切なデータ生成が難しくなります。また、生成モデルがモード崩壊を起こし、限られた種類の類似したサンプルしか生成できない問題が発生する可能性があります。
分布外生成の品質評価が困難です。生成サンプルの多様性と品質を同時に評価できる単一の指標が存在しないためです。尤度や精度などの一般的な指標は、訓練データに似たサンプルを生成する方向にバイアスがかかる可能性があります。そのため、分布内サンプルと分布外サンプル間の距離を評価するための様々な指標が提案されています。

これらの課題により、高品質な分布外データの作成には慎重な設計と配慮が必要となります。

プロンプトエンジニアリング

大規模言語モデルの登場により、モデル自体は変更せずに入力を工夫することで、モデルから知識を引き出すことが可能になりました。プロンプトエンジニアリングは、下流タスクで最高の性能を引き出すための高品質なプロンプトを設計・構築する新しい分野です。例えば、テキスト要約を行う場合、要約したいテキストの後に「要約する」や「TL;DR」などの具体的な指示を加えることで、モデルの推論を導くことができます。このように、モデル自体ではなく入力データを調整することで目的を達成するプロンプトエンジニアリングは、従来の手法に革新をもたらしています。

プロンプトエンジニアリングの最も基本的な方法は、テンプレートを手動で作成することです。例えば、テキスト分類や条件付きテキスト生成におけるFew-Shot学習用のテンプレートを事前に定義する研究があります。しかし、手動でのテンプレート作成では、複雑なタスクに対する最適なプロンプトを見つけることが困難な場合があります。

そこで、自動化されたプロンプトエンジニアリングの研究が進められています。一般的なアプローチとして次のものがあります：

プログラミングベースの手法
- 外部コーパスからのテンプレートマイニング
- シードプロンプトを用いた言い換え
学習ベースの手法
- 勾配ベースの探索
- 生成モデルによるプロンプトトークンの自動生成

プロンプトエンジニアリングにおける主な課題は、常に良好な性能を発揮する汎用的なプロンプトテンプレートが存在しないことです。テンプレートによってモデルの挙動が変化し、望ましい回答が得られる保証がありません。そのため、モデルのプロンプトに対する応答を深く理解し、プロンプトエンジニアリングのプロセスを改善するための更なる研究が必要とされています。

Sub-goal	Task	Method type	Automation level / participation degree	References
In-distribution	Data slicing	Collaboration	Minimum	Matias Barenstein
	Data slicing	Collaboration	Partial	Raul Santelices et al., Hongliu Zeng et al.
	Data slicing	Automation	Learning-based	Neoklis Polyzotis et al., Michael P. Kim et al., Svetlana Sagadeeva et al., Nimit S. Sohoni et al.
	Algorithmic recourse	Collaboration	Minimum	Becker, Maximilian et al., Pierre Blanchart, Michael Burch et al., Susanne Dandl et al., Amit Dhurandhar et al., Kentaro Kanamori et al., Thibault Laugel et al., Ana Lucic et al., Rafael Poyiadzi et al., Shubham Sharma et al., Sandra Wachter et al.
Out-of distribution	Adversarial samples	Collaboration	Minimum	Dan Hendrycks et al.
	Adversarial samples	Automation	Learning-based	Battista Biggio et al., Pin-Yu Chen et al., Kevin Eykholt et al., Aleksander Madry et al., Seyed-Mohsen Moosavi-Dezfooli et al., Nicolas Papernot et al., Ali Shafahi et al.
	Distribution shift	Collaboration	Full	Frances Ding et al., Pang Wei Koh et al., Kate Saenko et al.
	Distribution shift	Collaboration	Partial	Keren Gu et al., Vaishaal Shankar et al.
	Distribution shift	Automation	Programmatic	Kamyar Azizzadenesheli et al., Arthur Gretton et al., Zirui Liu et al., Masashi Sugiyama et al.
	Distribution shift	Automation	Learning-based	Abolfazl Farahani et al., Hao Guan et al.
Prompt engineering	Manual engineering	Collaboration	Partial	Timo Schick et al. (Jan, 2020), Timo Schick et al. (Dec, 2020), Timo Schick et al. (Sep, 2020)
	Automated engineering	Automation	Programmatic	Adi Haviv et al., Zhengbao Jiang et al., Weizhe Yuan et al.
	Automated engineering	Automation	Learning-based	Tianyu Gao et al., Eric Wallace et al.

表3. 推論データの開発手法における文献一覧

データメンテナンス

実運用環境では、データは一度作成されたら終わりではなく、常に変化し続けています。このため、AIシステムの信頼性を維持するためには、データのメンテナンスが不可欠です。ここでは、データのメンテナンスの必要性、代表的な手法、そしてその課題について解説します。具体的には、データの理解、データの品質保証、データの保存と検索という3つの側面から、データメンテナンスの重要性を深く掘り下げていきます。

データの理解

適切なメンテナンスを確保するには、まずデータを理解することが不可欠です。以下、データ理解のための技術の必要性、可視化と評価による洞察の獲得方法、そしてその課題について説明します。

データ理解のための技術の必要性

現実世界のデータは多くの場合、大規模かつ複雑で、理解と分析が困難です。データ理解技術が重要となる理由は主に3つあります。

大量の生データを人間が直接理解することは困難です。そのため、データを要約し、より簡潔で扱いやすい形で提示する必要があります。
現実世界のデータは多次元である一方、人間の知覚は2次元または3次元に限られます。そのため、データを低次元空間に可視化することが不可欠です。
組織やステークホルダーが、データ資産の価値と各データサンプルの性能への貢献を理解することが重要です。

データ可視化

人間は視覚的な生き物であり、図形やグラフィカルな形式で提示された情報を処理・記憶する傾向があります。データ可視化は、この人間の特性を活用して複雑なデータの理解を促進します。以下では、関連する3つの研究トピックを説明します。

視覚的要約

生データを一連のグラフィカルな図表として要約することで、人間は凝縮された情報から洞察を得ることができます。しかし、正確でありながら使いやすい要約図の生成は容易ではありません。

例えば、適切な可視化形式の選択は難しい課題です。放射状チャート（スターグリフやローズチャート）と線形チャート（折れ線グラフや棒グラフ）は一般的な形式ですが、どちらが優れているかは一概に言えません。研究によると、線形チャートは多くの分析タスクで優れた性能を示しますが、放射状チャートはより直感的で記憶しやすい傾向があります。場合によっては、記憶性や空間効率を高めるために、データ表現の正確性を多少犠牲にすることも許容されます。

可視化のためのクラスタリング

現実世界のデータは高次元で複雑な構造を持つことが多いため、次元削減手法を用いて2次元または3次元空間への可視化が行われます。さらに、自動クラスタリング手法を組み合わせることで、データポイントをグループ化・分類し、色分けして表示することができ、人間の理解と深い分析を促進します。

可視化の推奨

様々な可視化形式から、特定のユーザーに最適な形式を提案する可視化推奨への関心が高まっています。アプローチは以下の3つに分類されます。

プログラミングによる自動化アプローチ：データ型、統計情報、人間の視覚的嗜好などの事前定義ルールに基づいて可視化候補をランク付けします。
学習ベースのアプローチ：機械学習を用いて可視化候補をランク付けします。例えばDeepEyeは、データの統計情報を入力とし、データとチャートの整合性に基づいてNDCG（正規化割引累積利得）を最適化します。
協調的アプローチ：ユーザーが継続的にフィードバックと要件を提供できる適応的なユーザー体験を実現します。最近の研究であるSnowyは、人間の自然言語を入力として受け付け、会話型視覚分析中の発話に対する推奨を生成します。

データ評価

データ評価の目的は、各データポイントが最終的な性能にどのように貢献するかを理解することです。この情報は、ステークホルダーへの洞察提供だけでなく、データ市場での取引や信用帰属にも役立ちます。

これを実現するため、研究者はデータポイントのシャープレイ値を推定します。シャープレイ値は、各データポイントの貢献度に基づいて重みを割り当てます。後続の研究では、複数のデータセットとモデルにわたる推定の頑健性が強化されています。特に大規模データを扱う場合、正確なシャープレイ値の計算は計算コストが高くなるため、これらの手法はすべて効率的な推定のために学習ベースのアルゴリズムを採用しています。

課題

主な課題は2つあります：

最も効果的なデータ可視化形式とアルゴリズム（クラスタリングアルゴリズムなど）は、多くの場合ドメイン固有であり、人間の行動の影響を受けるため、最適な選択が難しくなります。この選択プロセスには人間の判断が必要となり、人間とのインタラクションの最適化がさらなる課題となります。
データ規模の増大に伴い、シャープレイ値の推定には高い計算コストがかかるため、効率的なデータ評価アルゴリズムの開発が困難です。また、シャープレイ値はモデルの性能以外の重要な要因を考慮していないため、データの価値を限定的にしか評価できない可能性があります。

データの品質保証

信頼性の高いデータ供給を確保するには、データ品質の維持が不可欠です。以下、品質保証の必要性、データ品質を維持するための主要タスク（品質評価と改善）、およびその課題について説明します。

データ品質保証の必要性

現実世界では、データとそれを扱うインフラストラクチャは頻繁に更新されます。そのため、高品質な訓練データや推論データを一度作成するだけでなく、動的な環境でその品質を維持することが重要です。データ品質の確保には以下の2つの側面があります。

データ品質の継続的な監視が必要です。実用的なアプリケーションの現実世界のデータは複雑で、想定と異なる異常なデータポイントが含まれる可能性があります。そのため、データ品質を評価できる定量的な指標の確立が重要です。
モデルが低品質なデータの影響を受ける場合、データ品質を向上させる改善戦略の実装が重要です。これによりモデルの性能も向上します。

品質評価

品質評価では、データ品質を測定し、潜在的な欠陥とリスクを検出するための評価指標を開発します。これらの指標は、客観的評価と主観的評価に大別されます。両者は人の関与の度合いが異なりますが、多くの研究で併用されています。

客観的評価

特定のアプリケーションとは独立した固有のデータ属性を用いて、データ品質を直接測定します。主な指標には以下があります。

正確性：取得したデータ値がデータベースの値と一致するか
タイムリー性：データが最新かどうか
一貫性：データ項目間のセマンティックルールの違反有無
完全性：非nullの値の割合

これらの指標は、データから直接収集でき、計算式の設定に最小限の人の関与のみが必要です。

主観的評価

人間の視点からデータ品質を評価し、多くの場合アプリケーション固有で、専門家による外部分析を必要とします。主な指標には、

信頼性：データソースが提供する情報の正確さ
理解可能性：ユーザーがデータを理解する容易さ
アクセシビリティ：ユーザーのデータアクセス能力

これらはユーザー調査やアンケートを通じて評価されます。主観的評価は直接的なモデル訓練には寄与しませんが、組織内の協力を促進し、長期的な利益をもたらす可能性があります。

品質改善

品質改善は、データパイプラインの各段階でデータ品質を向上させる戦略を開発します。

プログラミングによる自動化手法

列間の整合性制約
拒否制約
条件付き関数従属

機械学習ベースの自動化アプローチ

データ検証モジュール：予想されるデータスキーマでモデルを訓練し、未知のシナリオで問題を特定
パイプライン自動化：データ統合やデータクレンジングを体系的に実行

協調アプローチ

自動運転やビデオコンテンツレビュー：機械学習モデルの支援を受けた人間の注釈による品質向上
UniProt：タンパク質データベースにおける集団知を活用した体系的な提出システム

5.2.4 課題

データ品質確保には2つの主な課題があります。

最適な評価指標の選択は、ドメイン知識に大きく依存し、単一の指標が常に適切とは限りません。
品質改善は重要かつ労力を要するプロセスです。自動化は不可欠ですが、人間の期待に応えるためには人間の関与も必要です。そのため、データ評価指標と改善戦略は慎重に設計する必要があります。

データの保存と検索

データの保存・検索システムは、AIシステム構築に必要なデータを供給する上で不可欠な役割を果たします。以下、効率的なデータ保存と検索の重要性を説明し、リソース割り当てとクエリ高速化の代表的な手法を概観し、関連する課題について述べます。

効率的なデータ保存と検索の必要性

生成されるデータ量は指数関数的に増加しており、大量のデータを効率的に処理できる堅牢でスケーラブルなデータ管理システムが、AIモデルの訓練支援に不可欠となっています。具体的には以下の2点が重要です：

HadoopやSparkなどのデータ管理システムは、様々なソースからのデータを保存・統合する必要があり、メモリと計算リソースの慎重な管理が求められます。
データの迅速かつ正確な処理のため、効率的なデータ取得を可能にするクエリ戦略の設計が重要です。

リソース割り当て

リソース割り当ては、データ管理システム内の操作コストを推定し、バランスを取ることを目的とします。主要な効率指標は以下の2つです。

スループット：新規データの収集速度
レイテンシ：システムの応答速度

これらの指標を最適化するため、以下のようなパラメータチューニング手法が提案されています。

従来の手法

ApacheやClouderaなどのソースからの経験則やベストプラクティスに基づくルールを使用します。例えば、Hadoopのガイドラインでは、失敗タスクや低速タスクの再実行に備え、リデュースタスク数をクラスタの利用可能なリデューススロット数の0.95～1.75倍に設定することを推奨しています。

学習ベースの戦略

Starfish：ジョブプロファイルを生成し、タスクスケジューリングのための仮想プロファイルを予測
OtterTune：重要なパラメータを自動選択し、ワークロードをマッピングして性能向上のためのパラメータを推奨

クエリ高速化

効率的なデータ検索は、以下の2つのアプローチで実現できます。

クエリインデックス選択

ディスクアクセス数を最小限に抑えることを目的とし、以下の戦略があります：

プログラミングによる自動化：
- インデックス可能な列とクエリ実行コストに基づくスキーム作成
- 貪欲アルゴリズムや動的プログラミング[232]によるインデックス戦略の選択
学習ベースの自動化：
- 専門家のデータを用いた機械学習モデルの訓練
- 強化学習による最適戦略の探索

クエリ書き換え

重複するサブクエリを識別してワークロードを削減します：

ルールベース戦略：DBridgeなどの事前定義ルールでクエリを書き換え
学習ベース戦略：教師あり学習や強化学習で書き換えルールを予測

課題

既存の手法は、リソース割り当てやクエリ高速化など、システムの特定部分の最適化に重点を置いています。しかし、実際のデータ管理システムは多様な形式・構造の大量データを扱うため複雑で、全体的な最適化が困難です。また、効率性以外にも、データアクセス制御やシステムメンテナンスなど、考慮すべき重要な課題があります。

Sub-goal	Task	Method type	Automation level / participation degree	Reference
Understanding	Visual summarization	Collaboration	Minimum	Michelle A. Borkin et al., Michael Burch et al., Luc Desnoyers, Steven L. Franconeri et al., Manuela Waldner et al.
	Clustering for visualization	Automation	Learning-based	Adil Fahad et al.
	Visualization recommendation	Automation	Programmatic	Kanit Wongsuphasawat et al.
	Visualization recommendation	Automation	Learning-based	Yuyu Luo et al.
	Visualization recommendation	Collaboration	Partial	Leixian Shen et al., Arjun Srinivasan et al.
	Valuation	Automation	Learning-based	Anish Agarwal et al., Amirata Ghorbani et al. (2020), Amirata Ghorbani et al. (2019)
Quality assurance	Quality assessment	Collaboration	Minimum/partial	Carlo Batini et al., Leo L. Pipino et al., Shazia Sadiq et al., Bingcong Xue et al.
	Quality improvement	Automation	Programmatic	Amit Basu et al., Philip Bohannon et al., Xu Chu et al.
	Quality improvement	Automation	Learning-based	Akshay Naresh Modi et al.
	Quality improvement	Automation	Pipeline	Sebastian Schelter et al., Saravanan Thirumuruganathan et al.
	Quality improvement	Collaboration	Partial	Tianwa Chen et al., Meghana Deodhar et al., Edwin Gamboa et al., Yuqi Wang et al.
Storage & retrieval	Resource allocation	Automation	Programmatic	Apache, Cloudera, Tom White
	Resource allocation	Automation	Learning-based	Herodotos Herodotou et al., Dana Van Aken et al.
	Query index selection	Automation	Programmatic	Surajit Chaudhuri et al., Ji Sun et al., G. Valentin et al.
	Query index selection	Automation	Learning-based	Wendel Góes Pedrozo et al., Zahra Sadri et al.
	Query rewriting	Automation	Programmatic	Christopher Baik et al., Mahendra Chavan et al.
	Query rewriting	Automation	Learning-based	Yunlong He et al., Xuanhe Zhou et al.

表4. データのメンテナンスにおける文献一覧

データベンチマーク

これまでのセクションでは、データライフサイクルの各段階におけるData-centric AIのタスクを検討してきました。ベンチマーク検証は、標準化された共通の評価指標に基づいて様々な手法を包括的に評価できるため、これらのタスクにおける研究開発の進捗を把握する上で効果的な方法です。

Data-centric AIでは、データ中心のベンチマーク、つまりデータの卓越性を達成するための多様な技術に対しての評価用のベンチマークが重要となります。本セクションでは、Data-centric AIの多岐にわたる既存のベンチマークを紹介します。

ベンチマークの収集戦略

ベンチマーク論文の検索には主にGoogle Scholarを用いています。具体的な検索手順は次のとおりです。

キーワードの選定: 各サブゴールおよびタスクに関連するキーワードを選定
クエリの生成: 選定したキーワードを用いて各タスクの一連のクエリを生成
クエリの補完: 生成したクエリを「ベンチマーク」、「定量的分析」、「定量的調査」等の用語で補完。
- 例：「データクレンジング」タスクのクエリ例
  - ベンチマーク　データクレンジング
  - データクレンジングの定量的分析
  - データクレンジングの定量的調査

ただし、クエリによって抽出されたベンチマークの多くは、データではなくモデルを評価している点に注意しなければなりません。そのため、以下の手順でフィルタリングを行っています。

手動フィルタリング: 各論文を精査し、データ評価に焦点を当てていることを手動で確認
スクリーニング: 引用数と掲載誌の評価に基づいてスクリーニング

収集されたベンチマークの概要

上記の手順で収集された36件のベンチマークを表にまとめます。そのうち23件はオープンソースコードを含んでいます。注目すべき点として、データの分布から外れたサンプルを検出するベンチマークは存在するものの、「分布から外れたサンプルの生成」タスクのベンチマークは含まれていません。これらのベンチマークは主に、分布シフトに対するモデルの性能を評価するものです。つまり、モデルの弱点を明らかにする可能性のある分布シフトデータの作成方法については議論されていません。そのため、この観点については下表から除外しています。

Reference	Sub-goal	Task	Domain	Data modality	Open-source
*Training data development*
Cohen et al.	Collection	Dataset discovery	Biomedical	Tabular, text	✗
Poess et al.	Collection	Data integration	Database	Tabular, time-series	✗
Pinkel et al.	Collection	Data integration	Database	Tabular, graph	✗
Wang et al.	Labeling	Semi-supervised learning	AI	Image, text, audio	✓
Yang et al.	Labeling	Active learning	AI	Tabular, image, text	✗
Meduri et al.	Labeling	Active learning	Database	Tabular, text	✗
Abdelaal et al.	Preparation	Data cleaning	Database	Tabular, text, time-series	✓
Li et al.	Preparation	Data cleaning	Database	Tabular, time-series	✓
Jäger et al.	Preparation	Data cleaning	AI	Tabular, image	✗
Buckley et al.	Preparation	Feature extraction	Healthcare	Tabular, image, time-series	✓
Vijayan et al.	Preparation	Feature extraction	Biomedical	Tabular, sequential	✓
Bommert et al.	Reduction	Feature selection	Biomedical	Tabular, sequential	✓
Espadoto et al.	Reduction	Dimensionality reduction	Computer graphics	Tabular, image, audio	✓
Grochowski et al.	Reduction	Instance selection	Computer graphics	Tabular, image, audio	✓
Blachnik et al.	Reduction	Instance selection	Computer graphics	Tabular, image, audio	✓
Iwana et al.	Augmentation	All sub-goals	AI	Time-series	✓
Nanni et al.	Augmentation	Basic manipulation	AI	Image	✓
Yoo et al.	Augmentation	Basic manipulation	AI	Image	✓
Ding et al.	Augmentation	Augmentation data synthesis	AI	Graph	✗
Tao et al.	Augmentation	Augmentation data synthesis	Computer security	Tabular	✗
Zoller et al.	–	Pipeline search	AI	Tabular, image, audio, time-series	✓
Gijsbers et al.	–	Pipeline search	AI	Tabular, image, audio, time-series	✓
*Evaluation data development*
Srivastava et al.	In-distribution	Evaluation data synthesis	AI	Text	✓
Pawelczyk et al.	In-distribution	Algorithmic recourse	AI	Tabular	✓
Dong et al.	Out-of-distribution	Adversarial samples	AI	Image	✓
Hendrycks et al.	Out-of-distribution	Adversarial samples	AI	Image	✓
Yoo et al.	Out-of-distribution	Adversarial samples	AI	Text	✓
*Data maintenance*
Kanthara et al.	Understanding	Visual summarization	AI	Tabular, text	✓
Grinstein et al.	Understanding	Visual summarization	Human-computer interaction	Tabular, image	✓
Zeng et al.	Understanding	Visualization recommendation	Human-computer interaction	Tabular	✗
Jia et al.	Understanding	Data valuation	AI	Image	✓
Batini et al.	Quality assurance	Quality assessment	Database	Tabular	✗
Arocena et al.	Quality assurance	Quality improvement	Database	Tabular	✗
Zhang et al.	Storage & retrieval	Resource allocation	Database	Tabular	✓
Marcus et al.	Storage & retrieval	Query index selection	Database	Tabular	✗
*Unified benchmark*
Mazumder et al.	Multiple	6 distinct tasks	AI	Multiple	✗

表5. データのベンチマーク評価のための代表的な手法

メタ分析

収集されたベンチマークを分析することで、Data-centric AI 研究の全体像を多角的に評価します。

ベンチマークへの最も重要な貢献は AIコミュニティ（17件）によるものですが、データベース（9件）、コンピュータグラフィックス（3件）、ヒューマンコンピュータインタラクション（2件）、生物医学（3件）、コンピュータセキュリティ（1件）、ヘルスケア（1件）など、他の多くの分野も大きく貢献しています。特に、ヘルスケアと生物医学はコンピュータサイエンスの領域外です。ある分野で確立されたベンチマークは、通常、豊富な研究蓄積があることを示しています。したがって、Data-centric AIは、コンピュータサイエンスの内外のさまざまな分野にまたがる学際的な取り組みといえます。
最も頻繁にベンチマークされているデータモダリティは表形式データ（25件）で、続いて画像（15件）、時系列（7件）、テキスト（6件）、音声（6件）、グラフ（2件）となっています。これは、表形式データと画像データが広範囲に研究されているのに対し、グラフデータに関する研究がまだ初期段階であることを反映しています。
ベンチマークの数（22件）から見ると、評価データ開発（5件）とデータメンテナンス（8件）と比較して、学習データ開発により多くの注目が集まっています。これは、学習データ開発に含まれるタスクの多くが、従来のモデル中心のパラダイムでは単なる前処理ステップと見なされていたためと推測されます。

現状と将来の方向性

Data-centric AI の現状と今後の可能性についての議論を紹介し、今後の研究を促進するための未解決の問題点をいくつか提示します。

Data-centric AI の現状

研究における現状を以下にまとめます。

Data-centric AIのタスクは、学習データ、推論データ、データメンテンスに関連する一連の作業です。具体的には、データのクレンジング、ラベリング、準備、削減、拡張、分布内外データの生成、プロンプト調整、データ理解、整理、デバッグのためのインフラ構築などが含まれます。
データの爆発的増加を考慮すると、データ開発とメンテンスの自動化が不可欠です。自動化のレベルは、プログラムによる自動化から学習ベースの自動化、パイプライン自動化まで多岐にわたります。
人間の参加は、データラベリングや推論データ開発など多くのタスクで必要不可欠です。完全関与から最小限の関与まで、さまざまな程度の人間参加が求められ、AI システムの意図との整合性を保証する上で重要です。
Data-centric AIは比較的新しい概念ですが、すでに多くの進展が見られます。ベンチマーク分析によると、研究の焦点は主にAI分野にあり、学習データ開発、表形式・画像データに集中しています。研究論文の指数関数的な増加から、今後さらなる発展が期待されます。

他のAI研究トピックとの関連

Data-centric AIと関連する研究トピックは以下の通りです。

基盤モデル: 大量のラベルなしデータで訓練され、多様なタスクに適応可能な大規模モデル（大規模言語モデルやStable Diffusionなど）。モデルの強力さにより、データラベリングやデータ拡張などのData-centric AIタスクをモデル自体で実行できる可能性があります。
強化学習: 初期データなしで報酬を最適化するインテリジェントエージェントの訓練方法。データ生成とデータによるモデル訓練を交互に行う独自の学習パラダイムです。データラベリング、データ準備、データ削減、データ拡張などのサブゴールで広く活用されています。

これらの研究分野の進展により、Data-centric AIとModel-centric AIはさらに密接に融合する可能性が高まっています。

今後の方向性

Data-centric AI の今後の方向性として、以下の5つが考えられます。

タスク横断的な自動化：トレーニングデータ開発から推論データ開発、データメンテナンスまでを統合的に自動化する共同フレームワークの構築。
データとモデルの共同設計：最適なデータ戦略はモデルに依存し、逆も同様。データとモデルの共進化が、より強力なAIシステム実現への鍵となる可能性。
データのバイアス除去：トレーニングデータの偏りを緩和し、公平性を確保するための体系的な方法論の確立。不公平な機密変数の分布に起因するバイアスへの対処。
多様なデータモダリティへの対応：表形式・画像データ以外の時系列データ、グラフデータなど、複雑な特性を持つモダリティのデータエンジニアリング研究の推進。複数モダリティに対応するソリューション開発。
データベンチマークの開発：全体的なデータ品質と多様なData-centric AI技術を包括的に評価する統一ベンチマークの構築。研究進捗を加速する標準的な評価手法の確立。

おわりに

今回は、AI における新たな研究分野であるData-centric AIを包括的に解説しました。学術界と産業界の両方で、綿密に設計・維持されたデータがAIソリューションの質を高める重要性を示しました。

主な内容：

Data-centric AIの定義と目標分類
研究課題の探求
自動化とコラボレーションの観点からの技術レビュー
多様な分野のデータベンチマークの分析
データとモデルの境界に関する洞察
将来の研究方向性の提示

結論として、データはAIシステムにおいてますます重要な役割を担います。今後も多くの課題が残されており、学術的な研究だけでなくビジネスへの応用も不可欠です。

More Information

arXiv:2301.04819, Daochen Zha et al., 「Data-centric AI: Perspectives and Challenges」, https://arxiv.org/abs/2301.04819

arXiv:2303.10158, Daochen Zha et al., 「Data-centric Artificial Intelligence: A Survey」, https://arxiv.org/abs/2303.10158

arXiv:2409.04934, Anushka Swarup et al., 「Maximizing Relation Extraction Potential: A Data-Centric Study to Unveil Challenges and Opportunities」, https://arxiv.org/abs/2409.04934

Blog