自然言語タスクとプロンプト戦略

今回は、自然言語処理の各タスクについて、有効なプロンプト設計についてまとめていく。まず、代表的なプロンプトテクニックをまとめ、その後タスクごとにどのようなプロンプト戦略が有効か見ていくことにする。

代表的なプロンプトテクニック

No.プロンプトテクニック概要
1Basic/Standard/Vanilla PromptingLLMに直接クエリを投げかける最も基本的な方法。特別なエンジニアリングは行わない。
2Chain-of-Thought (CoT)複雑な問題を小さな中間ステップに分解し、順を追って解決する方法。人間の思考プロセスを模倣している。
3Self-Consistency複数の推論パスを生成し、最も一貫性のある答えを選択する手法。複雑な推論問題に有効。
4Ensemble Refinement (ER)CoTとSelf-Consistencyを組み合わせ、複数の生成を行い、それらを基に改善された説明と回答を生成する。
5Automatic Chain-of-Thought (Auto-CoT)クエリをクラスタリングし、各クラスタから代表的なクエリを選んでゼロショットCoTで推論チェーンを生成する自動化手法。
6Complex CoT複雑なデータポイントを訓練例として使用し、デコード時に最も複雑な推論チェーンから多数決で回答を選択する手法。
7Program-of-Thoughts (PoT)CoTを拡張し、Pythonプログラムを生成して計算部分をPythonインタプリタに委ねる手法。数値推論に特に有効。
8Least-to-Most問題を部分問題に分解し、順次解決していく2段階の手法。例示よりも難しい問題にも対応可能。
9Chain-of-Symbol (CoS)自然言語の代わりに記号を使用して空間的関係を表現する手法。空間に関する質問応答タスクに特に有効。
10Structured Chain-of-Thought (SCoT)プログラム構造(シーケンス、分岐、ループ)を使用して中間推論ステップを構造化し、より正確なコード生成を行う手法。
11Plan-and-Solve (PS)問題を小さな部分問題に分割する計画を立て、その計画に従って解決する2段階の手法。CoTの短所を改善している。
12MathPrompter数学的問題解決のための4段階の手法。代数式の生成、解析的解決、変数の値の代入、最終的な計算を行う。
13Contrastive CoT/ Contrastive Self-Consistency正例と負例の両方を提示することで、LLMの推論能力を向上させる手法。CoTとSelf-Consistencyの拡張版。
14Federated Same/Different Parameter Self-Consistency/CoT (Fed-SP/DP-SC/CoT)クラウドソーシングされた類似クエリを使用してLLMの推論能力を向上させる手法。パラメータの同一性に基づいて2つの変種がある。
15Analogical Reasoning人間の類推的推論を模倣し、元の問題に類似した例を生成して解決し、その後元の問題に適用する手法。
16Synthetic PromptingLLMを使用して合成例を生成し、既存の手作りの例に追加する手法。2段階のプロセスで生成と推論を行う。
17Tree-of-Thoughts (ToT)問題解決を木構造で表現し、各ノードを部分解とする探索手法。LLMに思考の生成と評価を行わせ、最適な解を探索する。
18Logical Thoughts (LoT)論理的等価性を利用してLLMのゼロショット推論能力を向上させる手法。推論チェーンの検証と修正を行う。
19Maieutic Prompting深い再帰的推論を用いて、様々な仮説に対する帰納的説明を引き出す手法。矛盾する選択肢を協調的に排除する。
20Verify-and-Edit (VE)CoTで生成された推論チェーンを事後編集し、より事実に即した出力を得る3段階の手法。
21Reason + Act (ReAct)推論と行動を組み合わせ、言語推論と意思決定タスクを解決する手法。言語的推論トレースと行動を交互に生成する。
22Active-Promptタスク固有の例を識別し、フューショット設定でLLMをプロンプトする際に最も関連性の高いデータポイントを使用する4段階の手法。
23Thread-of-Thought (ThoT)長い混沌としたコンテキストを扱うための2段階の手法。文書の各セクションを分析・要約し、その出力に基づいてクエリに回答する。
24Implicit Retrieval Augmented Generation (Implicit RAG)LLM自体に与えられたコンテキストから重要な部分を抽出させ、それに基づいてクエリに回答させる手法。
25System 2 Attention (S2A)不適切なコンテキストによる誤判断を防ぐ2段階の手法。コンテキストを再生成して不要な部分を除去し、その結果を使用して回答を生成する。
26Instructed Prompting問題記述の無関係な情報を無視するようLLMに明示的に指示する1段階の手法。
27Chain-of-Verification (CoVe)幻覚を防ぎ、性能を向上させるための4段階の手法。基準回答の生成、検証クエリの生成、検証、修正を行う。
28Chain-of-Knowledge (CoK)幻覚に対処するための3段階の手法。予備的な根拠と回答の準備、動的な知識適応、回答の統合を行う。
29Chain-of-Code (CoC)LLMのコード指向の推論を改善する拡張手法。コードの記述だけでなく、特定の行の期待される出力を選択的にシミュレートする。
30Program-aided Language Models (PAL)自然言語とプログラミング言語の文を交互に生成し、最終的にPythonインタプリタを使用して回答を得る手法。
31BinderLLMの機能を1つのAPIとしてプログラミング言語にバインドし、より広範なクエリに対応する2段階のニューラル記号的手法。
32Dater大きなテーブルを関連する小さなサブテーブルに分解し、複雑な自然言語クエリを論理的・数値的計算に分解する3段階の手法。
33Chain-of-TableCoTを表形式データに適用した3段階の手法。テーブル操作の動的計画、引数生成、最終回答生成を行う。
34Decomposed Prompting (DecomP)複雑な問題をより単純な部分問題に分解し、それぞれを専用のLLMに委ねる手法。階層的、再帰的、または外部API呼び出しによる分解が可能。
35Three-Hop Reasoning (THOR)感情/感情理解タスクのための3段階の手法。アスペクトの特定、詳細な意見の抽出、感情極性の推論を行う。
36Metacognitive Prompting (MP)認知心理学の概念に基づく5段階の手法。テキストの理解、予備的判断、批判的評価、最終決定、自信度評価を行う。
37Chain-of-Event (CoE)要約タスクのための4段階の手法。イベントの抽出、分析・一般化、フィルタリング、統合を行う。
38Basic with Term Definitions基本的なプロンプト指示に医学用語の定義を追加する手法。しかし、固定の定義がLLMを混乱させる可能性がある。
39Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting臨床固有表現認識タスクのための3つのコンポーネントを組み合わせた手法。基本情報、アノテーションガイドライン、エラー分析に基づく指示を含む。

自然言語タスクとプロンプト戦略

ここでは、大規模言語モデルの各タスクについて、データセットやプロンプト戦略について整理する。

まずは、下表に自然言語処理タスクの概要をまとめる。

タスク名和訳概要
Mathematical Problem Solving数学的問題解決数学的な問題を解決する能力を評価するタスク
Logical Reasoning論理的推論論理的な推論を行う能力を評価するタスク
Commonsense Reasoning常識的推論一般常識に基づいた推論を行う能力を評価するタスク
Multi-Hop Reasoning多段階推論複数のステップを経て推論を行う能力を評価するタスク
Causal Reasoning因果推論因果関係を理解し推論する能力を評価するタスク
Social Reasoning社会的推論社会的な状況や人間関係を理解し推論する能力を評価するタスク
Contextual Question-Answering文脈を考慮した質問応答文脈を考慮して質問に答える能力を評価するタスク
Context-Free Question-Answering文脈に依存しない質問応答与えられた情報のみで質問に答える能力を評価するタスク
Spatial Question-Answering空間に関する質問応答空間的な情報に関する質問に答える能力を評価するタスク
Conversational Contextual Question-Answering会話文脈を考慮した質問応答会話の文脈を考慮して質問に答える能力を評価するタスク
Dialogue System対話システム人間との対話を行うシステムの能力を評価するタスク
Code Generationコード生成プログラミングコードを生成する能力を評価するタスク
Free Response自由回答制約のない自由な回答を生成する能力を評価するタスク
Truthfulness真実性判断情報の正確性や真実性を判断する能力を評価するタスク
Table-Based Truthfulness表に基づく真実性判断表形式のデータに基づいて情報の真実性を判断する能力を評価するタスク
Table-Based Question-Answering表に基づく質問応答表形式のデータに基づいて質問に答える能力を評価するタスク
Table-Based Mathematical Problem Solving表に基づく数学的問題解決表形式のデータを用いて数学的問題を解決する能力を評価するタスク
Recommender System推薦システムユーザーの嗜好に基づいて推薦を行う能力を評価するタスク
Emotion/Sentiment Understanding感情/感性理解テキストから感情や感性を理解する能力を評価するタスク
Machine Translation機械翻訳ある言語から別の言語に翻訳する能力を評価するタスク
Named Entity Recognition固有表現認識テキスト中の固有表現(人名、組織名など)を識別する能力を評価するタスク
Word Sense Disambiguation語義曖昧性解消多義語の文脈に応じた意味を特定する能力を評価するタスク
Summarization要約長文を要約する能力を評価するタスク
Paraphrasing言い換え文章を別の表現で言い換える能力を評価するタスク
Stance Detection立場検出テキストの立場や態度を検出する能力を評価するタスク
Natural Language Inference自然言語推論前提と仮説の関係(含意、矛盾、中立)を推論する能力を評価するタスク
Relation Extraction関係抽出テキスト中の実体間の関係を抽出する能力を評価するタスク
Language-Based Task Completion言語ベースのタスク完了言語指示に基づいてタスクを完了する能力を評価するタスク
Multilabel Text Classification多ラベルテキスト分類テキストに複数のラベルを割り当てる能力を評価するタスク

数学的問題解決

数学的問題解決において、LLMは様々なプロンプティング戦略を用いて性能を向上させている。下表は、代表的な数学問題データセットと、それらに対する効果的なプロンプティング戦略、および優れた性能を示したLLMをまとめたものである。

例えば、GSM8Kデータセットでは、Basic, Analogical Reasoning, CoTなどのプロンプティング戦略が有効であり、GPT-3.5-Turbo, GPT-4などのLLMが優れた性能を示している。また、MATHデータセットでは、Analogical Reasoning, CoTが有効であり、GPT-3.5-Turbo, GPT-4, PaLM 2-Lが優れた性能を示している。

これらの結果から、数学問題解決においては、データセットや問題の特性に応じて適切なプロンプティング戦略を選択し、それに適したLLMを使用することが重要であることがわかる。

DatasetPrompting StrategiesLLM(s)SoTA
GSM8KBasic, Analogical Reasoning, CoT, Auto-CoT, Self-Consistency, LoT, PoT, PAL, CoC, Contrastive CoT, Contrastive Self-Consistency, Least-to-Most, Synthetic Prompting, Random CoT, Complex CoT, Active-Prompt, Fed-SP-SC, Fed-DP-CoT, PSGPT-3.5-Turbo, GPT-4, PaLM 2-L, GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001), Vicuna-7B, Vicuna-13B, Vicuna-33B, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, PaLM 2-S, GPT-3.5 (Text-Davinci-003), Minerva-540B, InstructGPT (Text-Davinci-003), DiVeRSe, UL2-20BPoT
MATHAnalogical Reasoning, CoTGPT-3.5-Turbo, GPT-4, PaLM 2-LAnalogical Reasoning
SVAMPBasic, CoT, Auto-CoT, Self-Consistency, PAL, PoT, Random CoT, Active-Prompt, Synthetic Prompting, Contrastive CoT, Contrastive Self-Consistency, Fed-SP-SC, Fed-DP-CoT, PSGPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, UL2-20B, Codex (Code-Davinci-001), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, Minerva-540B, GPT-3.5 (Text-Davinci-003), InstructGPT (Text-Davinci-003)PoT
ASDivBasic, CoT, Self-Consistency, PAL, Contrastive CoT, Contrastive Self-Consistency, Synthetic Prompting, Auto-CoT, Random CoT, Active-PromptGPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001), Minerva-540B, GPT-3.5-Turbo, InstructGPT (Text-Davinci-003), GPT-3.5 (Text-Davinci-003)Contrastive Self-Consistency
AQuABasic, CoT, Auto-CoT, Self-Consistency, LoT, PoT, Contrastive CoT, Contrastive Self-Consistency, Random CoT, Active-Prompt, PSGPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001), GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, GPT-3.5 (Text-Davinci-003)PoT
MAWPSBasic, CoTGPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002)CoT
Game of 24Basic, CoT, Self-Consistency, ToTGPT-4ToT
MultiArithBasic, CoT, Auto-CoT, Self-Consistency, PoT, PAL, MathPrompter, Random CoT, Complex CoT, PSGPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), GPT-3, LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-001), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, Minerva-540B, GPT-3.5 (Text-Davinci-003), DiVeRSeSelf-Consistency
Multi-Step ArithmeticBasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoC
AddSubBasic, CoT, Auto-CoT, Self-Consistency, PAL, PoT, PSGPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003) Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540BPAL
SingleEqBasic, CoT, Auto-CoT, PAL, Self-Consistency, Random CoT, Active-Prompt, PS, PoTGPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3.5 (Text-Davinci-003)Active-Prompt
GSM-HARDBasic, CoT, PAL, Contrastive CoT, Contrastive Self-Consistency, Synthetic PromptingCodex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3.5-Turbo, InstructGPT (Text-Davinci-003)Synthetic Prompting
SingleOpBasic, CoT, PAL, Synthetic PromptingCodex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, InstructGPT (Text-Davinci-003), GPT-3 (Text-Davinci-002)Synthetic Prompting
MathQACoT, Random CoT, Complex CoTLaMDA-137B, PaLM-540B, Minerva-540B, GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), DiVeRSeComplex CoT

論理的推論

論理的推論は、大規模言語モデル(LLM)の能力を評価する重要な分野である。表は、様々なデータセットと手法を用いた実験結果を示している。Chain-of-Thought(CoT)やChain-of-Causality(CoC)などの高度なプロンプト戦略が、多くのタスクで最高性能(SoTA)を達成していることが分かる。特にCoCは、複雑な推論を要する課題で優れた結果を示している。これらの手法は、LLMの論理的思考能力を向上させる上で重要な役割を果たしている。

DatasetPrompting StrategiesLLM(s)SoTA
Word SortingBasic, Analogical Reasoning, CoT, CoCGPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003)CoC
Logical DeductionBasic, Analogical Reasoning, CoT, CoCGPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003)CoC
Temporal SequencesBasic, Analogical Reasoning, CoT, CoCGPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003)CoC
Formal FallaciesBasic, Analogical Reasoning, CoT, CoCGPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003)Analogical Reasoning
Mini CrosswordsBasic, CoT, ToTGPT-4ToT
Tracking Shuffled ObjectsBasic, CoT, LoT, CoCGPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B, PaLM 2-S, GPT-3.5 (Text-Davinci-003)CoT, LoT, CoC
Object CountingBasic, CoT, CoC, PALPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540BCoC
Boolean ExpressionsBasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoC
Web of LiesBasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoT
Dyck LanguagesBasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoC
Geometric ShapesBasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoC
Repeat Copy LogicBasic, CoT, PAL, Synthetic PromptingCodex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, InstructGPT (Text-Davinci-003)PAL

常識的推論

常識的推論は、大規模言語モデル(LLM)の実用性を評価する重要な指標である。表は、様々なデータセットと手法を用いた実験結果を示している。Chain-of-Thought(CoT)やChain-of-Code(CoC)などの高度なプロンプト戦略が多くのタスクで高い性能を示す一方、Maieutic PromptingやSynthetic Promptingなどの新しい手法も登場し、特定のタスクで最高性能(SoTA)を達成している。これらの手法は、LLMの常識的推論能力を向上させる上で重要な役割を果たしている。

DatasetPrompting StrategiesLLM(s)SoTA
Reasoning about Colored ObjectsAnalogical Reasoning, CoT, Basic, CoC, PAL, Synthetic PromptingPaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, InstructGPT (Text-Davinci-003), Codex (Code-Davinci-002)Synthetic Prompting
CSQABasic, CoT, Auto-CoT, Self-Consistency, Random CoT, Active-Prompt, PoT, PSCodex (Code-Davinci-001), Codex (Code-Davinci-002), GPT-3, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), LaMDA-137B, PaLM-540B, UL2-20BActive-Prompt
Last Letter ConcatenationBasic, CoT, Auto-CoT, Self-Consistency, LoT, Random CoT, Active-Prompt, Least-to-Most, DecomP, PSCodex (Code-Davinci-001), Codex (Code-Davinci-002), GPT-3, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, InstructGPT (Text-Davinci-001), InstructGPT (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Vicuna-13B, Vicuna-33B, Vicuna-7BDecomP
CSQA 2.0Basic, CoT, Self-Consistency, GKP, Maieutic PromptingInstructGPT (Text-Davinci-001)Maieutic Prompting
Date UnderstandingBasic, CoT, LoT, CoC, PAL, Complex CoTCodex (Code-Davinci-002), DiVeRSe’, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, LaMDA-137B, Minerva-540B, PaLM 2-S, PaLM-540B, UL2-20B, Vicuna-13B, Vicuna-33B, Vicuna-7BComplex CoT
Sports UnderstandingBasic, CoT, CoCGPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoT
Coin FlipBasic, CoT, Auto-CoT, Self-Consistency, PSGPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001)Auto-CoT
Odd One OutCoT, LoTGPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33BLoT
Disambigu-ation QABasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoC
HyperbatonBasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoC
Com2SenseBasic, CoT, Self-Consistency, GKP, Maieutic PromptingInstructGPT (Text-Davinci-001)Maieutic Prompting
CreakBasic, CoT, Self-Consistency, GKP, Maieutic PromptingInstructGPT (Text-Davinci-001)Maieutic Prompting
List ReversalCoT, DecomPInstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002)DecomP

多段階推論

多段階推論は、複雑な問題解決能力を要する高度なタスクである。表は、様々なデータセットと手法を用いた実験結果を示している。Chain-of-Thought(CoT)や自己一貫性(Self-Consistency)などの基本的な戦略に加え、Active-Prompt、Chain-of-Knowledge(CoK)、Decomposition Prompting(DecomP)などの新しい手法が登場し、多くのタスクで最高性能(SoTA)を達成している。これらの手法は、LLMの多段階推論能力を向上させる上で重要な役割を果たしている。

DatasetPrompting StrategiesLLM(s)SoTA
StrategyQABasic, CoT, Auto-CoT, Self-Consistency, Contrastive CoT, Contrastive Self-Consistency, Random CoT, Active-Prompt, Complex CoT, PSGPT-3, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), Codex (Code-Davinci-001), GPT-3.5-Turbo, Minerva-540B, DiVeRSeActive-Prompt
HotpotQABasic, CoT, Act, ReAct, Self-Consistency, VE, CoK, DecomP, Least-to-MostPaLM-540B, GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002)CoK
CommaQA-ECoT, DecomPInstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002)DecomP
MuSiQueBasic, CoT, DecomPInstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002)DecomP
2WikiMult-ihopQABasic, CoT, DecomPInstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002)DecomP

因果推論

因果推論は、モデルの因果関係の理解と処理能力を評価する重要なタスクである。表は、Cause And EffectとCausal Judgementという2つのデータセットに対する実験結果を示している。Chain-of-Thought(CoT)やLogical Thought(LoT)などの高度なプロンプト戦略が効果的であり、特にLoTがCause And Effectタスクで最高性能(SoTA)を達成している。これらの手法は、LLMの因果推論能力を向上させる上で重要な役割を果たしている。

DatasetPrompting StrategiesLLM(s)SoTA
Cause And EffectCoT, LoTGPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33BLoT
Causal JudgementBasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4Basic, CoT

社会的推論

社会的推論は、モデルが人間の社会的相互作用に関する推論能力を有しているか評価する重要なタスクである。表に示すように、Chain-of-Thought(CoT)やLogical Thought(LoT)などの高度なプロンプト戦略が有効であり、特にLoTがSocialQAタスクにおいて最高性能(SoTA)を達成した。これらの結果は、LLMの社会的推論能力向上において、高度なプロンプト設計が重要な役割を果たすことを示唆する。

DatasetPrompting StrategiesLLM(s)SoTA
SocialQACoT, LoTGPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33BLoT

文脈を考慮した質問応答

文脈を考慮した質問応答は、与えられた文脈に基づいて正確かつ適切な回答を生成する能力を評価するタスクである。

は、実験に使用したデータセット、プロンプト戦略、LLM、および各タスクにおける最高性能(SoTA)を示している。ProcessBankBioMRCといった専門領域のデータセットから、MultiSpanQAのような一般的な質問応答データセットまで、幅広いタスクにおいて研究が実施されている。

プロンプト戦略としては、Chain-of-Thought (CoT)やAnalogical Reasoningなど、LLMの推論能力を引き出すための様々な手法がメインで、Implicit RAGは、文脈情報を直接モデルに入力することで、より正確な回答を生成できることが示唆される。

研究結果を見ると、タスクやデータセットによって最適なプロンプト戦略が異なることが分かる。例えば、FinQATAT-QAといった金融や法律に関するデータセットでは、PoT (Prompting with Template)が効果的であった。

これらの結果は、LLMの文脈理解能力が、タスクの性質やデータセットの特性に大きく依存することを示唆している。今後、より複雑な文脈や多様なデータセットを用いた研究が期待される。

DatasetPrompting StrategiesLLM(s)SoTA
ProcessBankBasic, Implicit RAG, CoT, Analogical ReasoningGPT-4Implicit RAG
BioMRCBasic, Implicit RAG, CoT, Analogical ReasoningGPT-4Basic
MASH-QABasic, Implicit RAG, CoT, Analogical ReasoningGPT-4Basic
CliCRBasic, Implicit RAG, CoT, Analogical ReasoningGPT-4Implicit RAG, Analogical Reasoning
MultiSpanQABasic, CoT, CoVeLLaMA-65B, LLaMA-2-70B ChatCoVe
FinQAPoT, CoT, Self-ConsistencyCodex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi and Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDAPoT
TAT-QAPoT, CoT, Self-ConsistencyCodex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi and Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDAPoT
Patient Case ReportsImplicit RAG, CoT, Analogical Reasoning, Basic, Basic with Term DefinitionsGPT-4Implicit RAG
DropBasic, CoT, Least-to-MostGPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), Codex (Code-Davinci-001)Least-to-Most
BoolQCoT, PS, Self-Consistency, MPLlama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-ChatMP

文脈に依存しない質問応答

文脈に依存しない質問応答は、与えられた文脈情報に頼らず、モデルが保有する知識や外部知識に基づいて質問に回答する能力を評価するタスクである。

は、PopQAEntityQといった一般的な知識に関するデータセットから、MedMCQAUSMLEといった医学に関する専門知識を問うデータセットまで、幅広いタスクがあることが分かる。

プロンプト戦略としては、Chain-of-Thought (CoT)やThought of Thoughts (ThoT)など、LLMの推論能力を引き出すための様々な手法が提案されている。CoVeは、文脈ベクトルを用いて、より正確な回答を生成できることが示唆された。

研究の結果、タスクやデータセットによって最適なプロンプト戦略は異なることが明らかになった。例えば、MedMCQAMedQAといった医学に関するデータセットでは、VE (Verbalization)やCoK (Knowledge Grounding)が効果的である。

これらの結果は、LLMの知識活用能力が、タスクの性質やデータセットの特性に大きく依存することを示唆している。今後、より複雑な質問や専門的な知識を要求するタスクに対する研究が期待される。

DatasetPrompting StrategiesLLM(s)SoTA
PopQABasic, CoT, ThoTGPT-4, GPT-3.5-Turbo, LLaMA-2-7B-Chat, LLaMA-2-13B-Chat, LLaMA-2-70B-Chat, Vicuna-7B, Vicuna-13B, Vicuna-33BThoT
EntityQBasic, CoT, ThoTGPT-4, GPT-3.5-Turbo, LLaMA-2-7B-Chat, LLaMA-2-13B-Chat, LLaMA-2-70B-Chat, Vicuna-7B, Vicuna-13B, Vicuna-33BThoT
WikidataBasic, CoT, CoVeLLaMA-65B, LLaMA-2-70B ChatCoVe
Wiki-Catoegory ListBasic, CoT, CoVeLLaMA-65B, LLaMA-2-70B ChatCoVe
MedMCQABasic, CoT, Self-Consistency, VE, CoK, ERGPT-3.5-Turbo, GPT-4, GPT-3.5, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Med-PaLM 2, Flan-PaLM, GPT-4-Base, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540BBasic
MedQABasic, CoT, Self-Consistency, ERGPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Med-PaLM 2, Flan-PaLM, GPT-4-Base, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540BBasic
MMLU PhysicsBasic, CoT, Self-Consistency, VE, CoKGPT-3.5-TurboCoK
MMLU BiologyBasic, CoT, Self-Consistency, VE, CoKGPT-3.5-TurboCoK
USMLE Sample ExamBasicGPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLMBasic
USMLE Self AssessmentsBasicGPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLMBasic
AI2 Reasoning ChallengeCoT, Self-ConsistencyGPT-3, LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-001), Codex (Code-Davinci-002)Self-Consistency
PubMedQABasic, CoT, Self-Consistency, ERGPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Med-PaLM 2, Flan-PaLM, GPT-4-Base, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540BBasic
MMLUBasic, CoT, Self-Consistency, ERMed-PaLM 2, Flan-PaLM, GPT-4-Base, GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-4, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540BBasic

空間に関する質問応答

空間に関する質問応答は、モデルが空間的な概念を理解し、空間的な推論を行う能力を評価するタスクである。このタスクでは、モデルは、与えられた空間的な情報に基づいて、オブジェクトの位置関係や、ある場所から別の場所への移動経路などを推論することが求められる。

プロンプト戦略としては、Chain-of-Thought (CoT)やChain-of-Symbol (CoS)など、LLMの推論能力を引き出すための様々な手法が提案されている。特に、CoSが多くのタスクにおいてSoTAを達成し、空間的な推論において効果的な戦略であることが示唆される。

DatasetPrompting StrategiesLLM(s)SoTA
Brick WorldCoT, CoSGPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoS
NLVR-Based ManipulationCoT, CoSGPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoS
Natural Language NavigationCoT, CoSGPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoS
SpartunCoT, CoSGPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoS
NavigateBasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoT

会話文脈を考慮した質問応答

会話文脈を考慮した質問応答は、モデルが過去の会話内容を理解し、それに基づいて適切な応答を生成する能力を評価するタスクである。このタスクでは、モデルは、文脈内の情報を統合し、質問の意図を正確に把握する必要がある。プロンプト戦略としては、PoT (Program-of-Thoughts) が最も効果的である。

DatasetPrompting StrategiesLLM(s)SoTA
ConvFinQAPoT, CoT, Self-Consistency, PALCodex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDAPoT

対話システム

対話システムは、人間と機械が自然な言語で対話を行うことを目的としたシステムである。プロンプト戦略としては、Thread-of-Thought (ThoT) が最も効果的である。

DatasetPrompting StrategiesLLM(s)SoTA
MTCRBasic, CoT, ThoTGPT-4, GPT-3.5-Turbo, LLaMA-2-7B-Chat, LLaMA-2-13B-Chat, LLaMA-2-70B-Chat, Vicuna-7B, Vicuna-13B, Vicuna-33BThoT

コード生成

コード生成は、自然言語の指示や説明から、対応するプログラムコードを生成するタスクである。SCoT (Structured Chain-of-Thought) が、多くのタスクにおいてSoTAを達成し、コード生成において効果的な戦略であることが示された。

DatasetPrompting StrategiesLLM(s)SoTA
Codeforce ScrapingAnalogical Reasoning, CoTGPT-3.5-Turbo, GPT-4, PaLM 2-LAnalogical Reasoning
HumanEvalBasic, SCoT, CoTCodex (Code-Davinci-002), GPT-3.5-TurboSCoT
MBPPBasic, SCoT, CoTCodex (Code-Davinci-002), GPT-3.5-TurboSCoT
MBCPPBasic, SCoT, CoTCodex (Code-Davinci-002), GPT-3.5-TurboSCoT

自由回答

表は、自由形式のテキスト生成におけるデータセットとプロンプト戦略、LLMの比較結果を示している。特に、Tree-of-Thoughts(ToT)やChain-of-Verification(CoVe)がそれぞれのデータセットで最高性能(SoTA)を達成しており、これらの手法がタスクの性能向上に寄与している。

DatasetPrompting StrategiesLLM(s)SoTA
Creative WritingBasic, CoT, Self-Consistency, ToTGPT-4ToT
Longform Generation of BiographiesBasic, CoT, CoVeLLaMA-65B, LLaMA-2-70B ChatCoVe

真実性判断

真実性判断は、モデルが誤情報を生成せずに、事実に基づいた回答を行う能力を評価するタスクである。表は、Sycophancy-EvalやFeverなどのデータセットに対する実験結果を示しており、ReActやLeast-to-Mostといった高度なプロンプト戦略が特定のタスクで最高性能(SoTA)を達成している。これらの手法は、モデルの真実性判断能力を強化する上で重要な役割を果たしている。

DatasetPrompting StrategiesLLM(s)SoTA
Sycophancy-EvalS2A, CoT, Instructed PromptingLLaMA-2-70B-ChatS2A
Longform GenerationS2A, CoT, Instructed PromptingLLaMA-2-70B-ChatS2A
FeverBasic, CoT, Act, ReAct, Self-Consistency, VE, CoKPaLM-540B, GPT-3.5 (Text-Davinci-002), GPT-3.5-Turbo, InstructGPT (Text-Davinci-003)ReAct
GSM-ICCoT, Least-to-Most, Instructed Prompting, Self-Consistency, S2ACodex (Code-Davinci-002), GPT-3.5 ( Text-Davinci-003), LLaMA-2-70B-ChatLeast-to-Most

表に基づく真実性判断

表に基づく真実性判断は、モデルが表形式のデータにおいて誤情報を排除し、正確な事実を伝える能力を評価するタスクである。表は、TabFactデータセットに対する実験結果を示しており、Chain-of-Table戦略が最高性能(SoTA)を達成している。これにより、モデルの表形式データに対する信頼性が向上することが示されている。

DatasetPrompting StrategiesLLM(s)SoTA
TabFactBasic, CoT, Binder, Dater, Chain-of-TablePaLM 2-S, GPT-3.5-Turbo, LLaMA-2-17B-ChatChain-of-Table

表に基づく質問応答

表に基づく質問応答は、表形式データに対する質問に正確に答えるモデルの能力を評価するタスクである。表は、WikiTQとFeTaQAの2つのデータセットに対する実験結果を示しており、Chain-of-Table戦略が最高性能(SoTA)を達成している。これにより、表形式のデータに基づく質問応答において、LLMの精度向上が確認されている。

DatasetPrompting StrategiesLLM(s)SoTA
WikiTQBasic, CoT, Binder, Dater, Chain-of-TablePaLM 2-S, GPT-3.5-Turbo, LLaMA-2-17B-Chat, Codex (Code-Davinci-002)Chain-of-Table
FeTaQABasic, CoT, Dater, Chain-of-Table, Self-Consistency, VE, CoKPaLM 2-S, GPT-3.5-Turbo, LLaMA-2-17B-Chat, GPT-3.5-Turbo, Codex (Code-Davinci-002)Chain-of-Table

表に基づく数学的問題解決

表に基づく数学的問題解決は、表形式のデータに対する数式処理や計算能力を評価するタスクである。表は、TabMWPとPenguins in a Tableという2つのデータセットに対する実験結果を示しており、PoTやPALといったプロンプト戦略が最高性能(SoTA)を達成している。これにより、モデルの数学的問題解決能力が向上することが確認されている。

DatasetPrompting StrategiesLLM(s)SoTA
TabMWPPoT, CoT, Self-Consistency, PALCodex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDAPoT
Penguins in a TableBasic, CoT, CoC, PAL, Random CoT, Complex CoTPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3 (Text-Davinci-002), DiVeRSePAL

推薦システム

推薦システムは、与えられた入力に基づいて最も関連性の高い項目を提示するモデルの能力を評価するタスクである。表は、Movie Recommendationデータセットに対する実験結果を示しており、興味深いことに、基本的なプロンプトが最高性能(SoTA)を達成している。

DatasetPrompting StrategiesLLM(s)SoTA
Movie RecommendationBasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, Codex (Code-Davinci-002)Basic

感情/感性理解

感情や感性の理解は、モデルが人間の感情や感性をどれだけ適切に捉えられるかを評価するタスクである。表は、SnarksやSemEval14 Laptop and Restaurantなどのデータセットに対する実験結果を示しており、THORやCoCなどのプロンプト戦略がそれぞれのタスクで最高性能(SoTA)を達成している。これにより、モデルの感情理解能力が大きく向上していることが確認されている。

DatasetPrompting StrategiesLLM(s)SoTA
SnarksBasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4CoC
Ruin NamesBasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4Basic
SemEval14 Laptop and RestaurantTHOR, CoTFlan-T5-250M (Base), Flan-T5-780M (Large), Flan-T5-3B (XL), Flan-T5-11B (XXL), GPT3-350M, GPT3-1.3B, GPT3-6.7B, GPT3-175B, GPT-3.5-TurboTHOR
ForexBasic, Basic + VariationsGPT-3.5-TurboBasic + Variations

機械翻訳

機械翻訳は、モデルが異なる言語間で正確な翻訳を行う能力を評価するタスクである。表には、Salient Translation Error DetectionやFLORESなどのデータセットに基づく実験結果が示されており、基本的なプロンプト戦略やそのバリエーションが高い性能を発揮していることが分かる。特に、GLM-130Bを使用した実験では、基本プロンプトとその変化形が複数のデータセットで最高性能(SoTA)を達成している。

DatasetPrompting StrategiesLLM(s)SoTA
Salient Translation Error DetectionBasic, CoT, CoCPaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4Basic
FLORESBasic, Basic + VariationsGLM-130BBasic + Variations
WMT21Basic, Basic + VariationsGLM-130BBasic + Variations
Multi-DomainBasic, Basic + VariationsGLM-130BBasic + Variations
PDCBasic, Basic + VariationsGLM-130BBasic + Variations

固有表現認識

固有表現認識は、入力テキスト内の定義済みのクラスやカテゴリを特定するタスクである。表には、MTSamplesやVAERSなどのデータセットに対する実験結果が示されており、Annotation Guideline-Based PromptingやError Analysis-Based Promptingが高い性能を発揮していることが分かる。特に、これらの高度なプロンプト戦略が固有表現認識タスクで最高性能(SoTA)を達成している。

DatasetPrompting StrategiesLLM(s)SoTA
MTSamplesBasic, Basic + Annotation Guideline-based Prompting, Basic + Annotation Guideline-Based Prompting + Error Analysis-Based PromptingGPT-3.5-Turbo, GPT-4Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting
VAERSBasic, Basic + Annotation Guideline-based Prompting, Basic + Annotation Guideline-Based Prompting + Error Analysis-Based PromptingGPT-3.5-Turbo, GPT-4Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting
Research PapersBasic, CoTGPT-3.5-Turbo, GPT-4Basic
BC5CDR-chemCoT, PS, Self-Consistency, MPLlama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-ChatMP

語義曖昧性解消

語義曖昧性解消は、異なる文脈で同じ単語の異なる意味を解読する能力を評価するタスクである。表には、WiCデータセットに対する実験結果が示されており、特にMetacognitive Prompting (MP)が最高性能(SoTA)を達成していることが分かる。MPがこのタスクにおいて最も効果的なプロンプト戦略である。

DatasetPrompting StrategiesLLM(s)SoTA
WiCCoT, PS, Self-Consistency, MPLlama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-ChatMP

要約

要約は、長文テキストを要約し、重要な情報を保持する能力を評価するタスクである。表には、WCEPおよびCCTCデータセットに対する実験結果が示されており、特にChain-of-Event (CoE)が最高性能(SoTA)を達成している。CoEはこのタスクにおいて最も効果的なプロンプト戦略である。

DatasetPrompting StrategiesLLM(s)SoTA
WCEPBasic, CoEChatGLM2-6BCoE
CCTCBasic, CoEChatGLM2-6BCoE

言い換え

言い換えは、与えられたテキストを異なる言葉で書き換えながら、元の意味を保持する能力を評価するタスクである。表には、QQPデータセットに対する実験結果が示されており、特にMetacognitive Prompting (MP)が最高性能(SoTA)を達成している。MPはこのタスクにおいて最も効果的なプロンプト戦略である。

DatasetPrompting StrategiesLLM(s)SoTA
QQPCoT, PS, Self-Consistency, MPLlama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-ChatMP

立場検出

立場検出は、テキストから著者の意見が特定のトピックや対象に対して賛成か反対かを判断する能力を評価するタスクである。表には、SemEval-2016、VAST、P-Stanceのデータセットに対する実験結果が示されており、Chain-of-Thought (CoT) が最高性能(SoTA)を達成している。CoTはこのタスクにおいて最も効果的なプロンプト戦略である。

DatasetPrompting StrategiesLLM(s)SoTA
SemEval-2016CoTGPT-3.5-TurboCoT
VASTCoTGPT-3.5-TurboCoT
P-StanceCoTGPT-3.5-TurboCoT

自然言語推論

自然言語推論は、前提に対して仮説が真であるか(含意)、偽であるか(矛盾)、または不明であるか(中立)を判断するタスクである。表には、QNLIとMedNLIという2つのデータセットに対する実験結果が示されており、Metacognitive Prompting (MP) が最高性能(SoTA)を達成している。MPはこのタスクにおいて最も効果的なプロンプト戦略である。

DatasetPrompting StrategiesLLM(s)SoTA
QNLICoT, PS, Self-Consistency, MPLlama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-ChatMP
MedNLICoT, PS, Self-Consistency, MPLlama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-ChatMP

関係抽出

関係抽出は、モデルが事前に定義されたクラスやカテゴリのオブジェクトや固有表現間の意味的関係を特定する能力を評価するタスクである。表には、DDIデータセットに対する実験結果が示されており、Metacognitive Prompting (MP) が最も効果的なプロンプト戦略として最高性能(SoTA)を達成している。

DatasetPrompting StrategiesLLM(s)SoTA
DDICoT, PS, Self-Consistency, MPLlama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-ChatMP

言語ベースのタスク完了

言語ベースのタスク完了は、モデルが一連の言語に基づくナビゲーションコマンドを追従し、タスクを完了するために必要なアクションを決定する能力を評価するタスクである。表には、ALFWorld、Scan、WebShop、SayCanというデータセットに対する実験結果が示されており、特にReActとCoTがそれぞれのデータセットで最高性能(SoTA)を達成している。

DatasetPrompting StrategiesLLM(s)SoTA
ALFWorldAct, ReActPaLM-540B, GPT-3 (Text-Davinci-002)ReAct
ScanBasic, CoT, Least-to-MostGPT-3 (Text-Davinci-002), Codex (Code-Davinci-001), Codex (Code-Davinci-001)Least-to-Most
WebShopAct, ReActPaLM-540B, GPT-3 (Text-Davinci-002)ReAct
SayCanBasic, CoTGPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002)CoT

多ラベルテキスト分類

多ラベルテキスト分類は、モデルが各入力に対して複数の事前定義されたターゲットラベルを割り当てる能力を測定するタスクである。表には、EUR-LEX、UNFAIR-ToS、LEDGARというデータセットに対する実験結果が示されており、特にMPが各データセットで最高性能(SoTA)を達成している。これらのデータセットは、他の分類タスクに適切に分類できない場合に含まれている。

DatasetPrompting StrategiesLLM(s)SoTA
EUR-LEXCoT, PS, Self-Consistency, MPLlama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-ChatMP
UNFAIR-ToSCoT, PS, Self-Consistency, MPLlama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-ChatMP
LEDGARCoT, PS, Self-Consistency, MPLlama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-ChatMP

More information: arXiv:2407.12994, Shubham Vatsal, Harsh Dubey, 「A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks」, https://arxiv.org/abs/2407.12994