自然言語タスクとプロンプト戦略

今回は、自然言語処理の各タスクについて、有効なプロンプト設計についてまとめていく。まず、代表的なプロンプトテクニックをまとめ、その後タスクごとにどのようなプロンプト戦略が有効か見ていくことにする。

代表的なプロンプトテクニック

No.	プロンプトテクニック	概要
1	Basic/Standard/Vanilla Prompting	LLMに直接クエリを投げかける最も基本的な方法。特別なエンジニアリングは行わない。
2	Chain-of-Thought (CoT)	複雑な問題を小さな中間ステップに分解し、順を追って解決する方法。人間の思考プロセスを模倣している。
3	Self-Consistency	複数の推論パスを生成し、最も一貫性のある答えを選択する手法。複雑な推論問題に有効。
4	Ensemble Refinement (ER)	CoTとSelf-Consistencyを組み合わせ、複数の生成を行い、それらを基に改善された説明と回答を生成する。
5	Automatic Chain-of-Thought (Auto-CoT)	クエリをクラスタリングし、各クラスタから代表的なクエリを選んでゼロショットCoTで推論チェーンを生成する自動化手法。
6	Complex CoT	複雑なデータポイントを訓練例として使用し、デコード時に最も複雑な推論チェーンから多数決で回答を選択する手法。
7	Program-of-Thoughts (PoT)	CoTを拡張し、Pythonプログラムを生成して計算部分をPythonインタプリタに委ねる手法。数値推論に特に有効。
8	Least-to-Most	問題を部分問題に分解し、順次解決していく2段階の手法。例示よりも難しい問題にも対応可能。
9	Chain-of-Symbol (CoS)	自然言語の代わりに記号を使用して空間的関係を表現する手法。空間に関する質問応答タスクに特に有効。
10	Structured Chain-of-Thought (SCoT)	プログラム構造（シーケンス、分岐、ループ）を使用して中間推論ステップを構造化し、より正確なコード生成を行う手法。
11	Plan-and-Solve (PS)	問題を小さな部分問題に分割する計画を立て、その計画に従って解決する2段階の手法。CoTの短所を改善している。
12	MathPrompter	数学的問題解決のための4段階の手法。代数式の生成、解析的解決、変数の値の代入、最終的な計算を行う。
13	Contrastive CoT/ Contrastive Self-Consistency	正例と負例の両方を提示することで、LLMの推論能力を向上させる手法。CoTとSelf-Consistencyの拡張版。
14	Federated Same/Different Parameter Self-Consistency/CoT (Fed-SP/DP-SC/CoT)	クラウドソーシングされた類似クエリを使用してLLMの推論能力を向上させる手法。パラメータの同一性に基づいて2つの変種がある。
15	Analogical Reasoning	人間の類推的推論を模倣し、元の問題に類似した例を生成して解決し、その後元の問題に適用する手法。
16	Synthetic Prompting	LLMを使用して合成例を生成し、既存の手作りの例に追加する手法。2段階のプロセスで生成と推論を行う。
17	Tree-of-Thoughts (ToT)	問題解決を木構造で表現し、各ノードを部分解とする探索手法。LLMに思考の生成と評価を行わせ、最適な解を探索する。
18	Logical Thoughts (LoT)	論理的等価性を利用してLLMのゼロショット推論能力を向上させる手法。推論チェーンの検証と修正を行う。
19	Maieutic Prompting	深い再帰的推論を用いて、様々な仮説に対する帰納的説明を引き出す手法。矛盾する選択肢を協調的に排除する。
20	Verify-and-Edit (VE)	CoTで生成された推論チェーンを事後編集し、より事実に即した出力を得る3段階の手法。
21	Reason + Act (ReAct)	推論と行動を組み合わせ、言語推論と意思決定タスクを解決する手法。言語的推論トレースと行動を交互に生成する。
22	Active-Prompt	タスク固有の例を識別し、フューショット設定でLLMをプロンプトする際に最も関連性の高いデータポイントを使用する4段階の手法。
23	Thread-of-Thought (ThoT)	長い混沌としたコンテキストを扱うための2段階の手法。文書の各セクションを分析・要約し、その出力に基づいてクエリに回答する。
24	Implicit Retrieval Augmented Generation (Implicit RAG)	LLM自体に与えられたコンテキストから重要な部分を抽出させ、それに基づいてクエリに回答させる手法。
25	System 2 Attention (S2A)	不適切なコンテキストによる誤判断を防ぐ2段階の手法。コンテキストを再生成して不要な部分を除去し、その結果を使用して回答を生成する。
26	Instructed Prompting	問題記述の無関係な情報を無視するようLLMに明示的に指示する1段階の手法。
27	Chain-of-Verification (CoVe)	幻覚を防ぎ、性能を向上させるための4段階の手法。基準回答の生成、検証クエリの生成、検証、修正を行う。
28	Chain-of-Knowledge (CoK)	幻覚に対処するための3段階の手法。予備的な根拠と回答の準備、動的な知識適応、回答の統合を行う。
29	Chain-of-Code (CoC)	LLMのコード指向の推論を改善する拡張手法。コードの記述だけでなく、特定の行の期待される出力を選択的にシミュレートする。
30	Program-aided Language Models (PAL)	自然言語とプログラミング言語の文を交互に生成し、最終的にPythonインタプリタを使用して回答を得る手法。
31	Binder	LLMの機能を1つのAPIとしてプログラミング言語にバインドし、より広範なクエリに対応する2段階のニューラル記号的手法。
32	Dater	大きなテーブルを関連する小さなサブテーブルに分解し、複雑な自然言語クエリを論理的・数値的計算に分解する3段階の手法。
33	Chain-of-Table	CoTを表形式データに適用した3段階の手法。テーブル操作の動的計画、引数生成、最終回答生成を行う。
34	Decomposed Prompting (DecomP)	複雑な問題をより単純な部分問題に分解し、それぞれを専用のLLMに委ねる手法。階層的、再帰的、または外部API呼び出しによる分解が可能。
35	Three-Hop Reasoning (THOR)	感情/感情理解タスクのための3段階の手法。アスペクトの特定、詳細な意見の抽出、感情極性の推論を行う。
36	Metacognitive Prompting (MP)	認知心理学の概念に基づく5段階の手法。テキストの理解、予備的判断、批判的評価、最終決定、自信度評価を行う。
37	Chain-of-Event (CoE)	要約タスクのための4段階の手法。イベントの抽出、分析・一般化、フィルタリング、統合を行う。
38	Basic with Term Definitions	基本的なプロンプト指示に医学用語の定義を追加する手法。しかし、固定の定義がLLMを混乱させる可能性がある。
39	Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting	臨床固有表現認識タスクのための3つのコンポーネントを組み合わせた手法。基本情報、アノテーションガイドライン、エラー分析に基づく指示を含む。

ここでは、大規模言語モデルの各タスクについて、データセットやプロンプト戦略について整理する。

まずは、下表に自然言語処理タスクの概要をまとめる。

タスク名	和訳	概要
Mathematical Problem Solving	数学的問題解決	数学的な問題を解決する能力を評価するタスク
Logical Reasoning	論理的推論	論理的な推論を行う能力を評価するタスク
Commonsense Reasoning	常識的推論	一般常識に基づいた推論を行う能力を評価するタスク
Multi-Hop Reasoning	多段階推論	複数のステップを経て推論を行う能力を評価するタスク
Causal Reasoning	因果推論	因果関係を理解し推論する能力を評価するタスク
Social Reasoning	社会的推論	社会的な状況や人間関係を理解し推論する能力を評価するタスク
Contextual Question-Answering	文脈を考慮した質問応答	文脈を考慮して質問に答える能力を評価するタスク
Context-Free Question-Answering	文脈に依存しない質問応答	与えられた情報のみで質問に答える能力を評価するタスク
Spatial Question-Answering	空間に関する質問応答	空間的な情報に関する質問に答える能力を評価するタスク
Conversational Contextual Question-Answering	会話文脈を考慮した質問応答	会話の文脈を考慮して質問に答える能力を評価するタスク
Dialogue System	対話システム	人間との対話を行うシステムの能力を評価するタスク
Code Generation	コード生成	プログラミングコードを生成する能力を評価するタスク
Free Response	自由回答	制約のない自由な回答を生成する能力を評価するタスク
Truthfulness	真実性判断	情報の正確性や真実性を判断する能力を評価するタスク
Table-Based Truthfulness	表に基づく真実性判断	表形式のデータに基づいて情報の真実性を判断する能力を評価するタスク
Table-Based Question-Answering	表に基づく質問応答	表形式のデータに基づいて質問に答える能力を評価するタスク
Table-Based Mathematical Problem Solving	表に基づく数学的問題解決	表形式のデータを用いて数学的問題を解決する能力を評価するタスク
Recommender System	推薦システム	ユーザーの嗜好に基づいて推薦を行う能力を評価するタスク
Emotion/Sentiment Understanding	感情/感性理解	テキストから感情や感性を理解する能力を評価するタスク
Machine Translation	機械翻訳	ある言語から別の言語に翻訳する能力を評価するタスク
Named Entity Recognition	固有表現認識	テキスト中の固有表現（人名、組織名など）を識別する能力を評価するタスク
Word Sense Disambiguation	語義曖昧性解消	多義語の文脈に応じた意味を特定する能力を評価するタスク
Summarization	要約	長文を要約する能力を評価するタスク
Paraphrasing	言い換え	文章を別の表現で言い換える能力を評価するタスク
Stance Detection	立場検出	テキストの立場や態度を検出する能力を評価するタスク
Natural Language Inference	自然言語推論	前提と仮説の関係（含意、矛盾、中立）を推論する能力を評価するタスク
Relation Extraction	関係抽出	テキスト中の実体間の関係を抽出する能力を評価するタスク
Language-Based Task Completion	言語ベースのタスク完了	言語指示に基づいてタスクを完了する能力を評価するタスク
Multilabel Text Classification	多ラベルテキスト分類	テキストに複数のラベルを割り当てる能力を評価するタスク

数学的問題解決

数学的問題解決において、LLMは様々なプロンプティング戦略を用いて性能を向上させている。下表は、代表的な数学問題データセットと、それらに対する効果的なプロンプティング戦略、および優れた性能を示したLLMをまとめたものである。

例えば、GSM8Kデータセットでは、Basic, Analogical Reasoning, CoTなどのプロンプティング戦略が有効であり、GPT-3.5-Turbo, GPT-4などのLLMが優れた性能を示している。また、MATHデータセットでは、Analogical Reasoning, CoTが有効であり、GPT-3.5-Turbo, GPT-4, PaLM 2-Lが優れた性能を示している。

これらの結果から、数学問題解決においては、データセットや問題の特性に応じて適切なプロンプティング戦略を選択し、それに適したLLMを使用することが重要であることがわかる。

Dataset	Prompting Strategies	LLM(s)	SoTA
GSM8K	Basic, Analogical Reasoning, CoT, Auto-CoT, Self-Consistency, LoT, PoT, PAL, CoC, Contrastive CoT, Contrastive Self-Consistency, Least-to-Most, Synthetic Prompting, Random CoT, Complex CoT, Active-Prompt, Fed-SP-SC, Fed-DP-CoT, PS	GPT-3.5-Turbo, GPT-4, PaLM 2-L, GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001), Vicuna-7B, Vicuna-13B, Vicuna-33B, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, PaLM 2-S, GPT-3.5 (Text-Davinci-003), Minerva-540B, InstructGPT (Text-Davinci-003), DiVeRSe, UL2-20B	PoT
MATH	Analogical Reasoning, CoT	GPT-3.5-Turbo, GPT-4, PaLM 2-L	Analogical Reasoning
SVAMP	Basic, CoT, Auto-CoT, Self-Consistency, PAL, PoT, Random CoT, Active-Prompt, Synthetic Prompting, Contrastive CoT, Contrastive Self-Consistency, Fed-SP-SC, Fed-DP-CoT, PS	GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, UL2-20B, Codex (Code-Davinci-001), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, Minerva-540B, GPT-3.5 (Text-Davinci-003), InstructGPT (Text-Davinci-003)	PoT
ASDiv	Basic, CoT, Self-Consistency, PAL, Contrastive CoT, Contrastive Self-Consistency, Synthetic Prompting, Auto-CoT, Random CoT, Active-Prompt	GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001), Minerva-540B, GPT-3.5-Turbo, InstructGPT (Text-Davinci-003), GPT-3.5 (Text-Davinci-003)	Contrastive Self-Consistency
AQuA	Basic, CoT, Auto-CoT, Self-Consistency, LoT, PoT, Contrastive CoT, Contrastive Self-Consistency, Random CoT, Active-Prompt, PS	GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001), GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, GPT-3.5 (Text-Davinci-003)	PoT
MAWPS	Basic, CoT	GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002)	CoT
Game of 24	Basic, CoT, Self-Consistency, ToT	GPT-4	ToT
MultiArith	Basic, CoT, Auto-CoT, Self-Consistency, PoT, PAL, MathPrompter, Random CoT, Complex CoT, PS	GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), GPT-3, LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-001), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, Minerva-540B, GPT-3.5 (Text-Davinci-003), DiVeRSe	Self-Consistency
Multi-Step Arithmetic	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoC
AddSub	Basic, CoT, Auto-CoT, Self-Consistency, PAL, PoT, PS	GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003) Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B	PAL
SingleEq	Basic, CoT, Auto-CoT, PAL, Self-Consistency, Random CoT, Active-Prompt, PS, PoT	GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3.5 (Text-Davinci-003)	Active-Prompt
GSM-HARD	Basic, CoT, PAL, Contrastive CoT, Contrastive Self-Consistency, Synthetic Prompting	Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3.5-Turbo, InstructGPT (Text-Davinci-003)	Synthetic Prompting
SingleOp	Basic, CoT, PAL, Synthetic Prompting	Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, InstructGPT (Text-Davinci-003), GPT-3 (Text-Davinci-002)	Synthetic Prompting
MathQA	CoT, Random CoT, Complex CoT	LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), DiVeRSe	Complex CoT

論理的推論

論理的推論は、大規模言語モデル(LLM)の能力を評価する重要な分野である。表は、様々なデータセットと手法を用いた実験結果を示している。Chain-of-Thought(CoT)やChain-of-Causality(CoC)などの高度なプロンプト戦略が、多くのタスクで最高性能(SoTA)を達成していることが分かる。特にCoCは、複雑な推論を要する課題で優れた結果を示している。これらの手法は、LLMの論理的思考能力を向上させる上で重要な役割を果たしている。

Dataset	Prompting Strategies	LLM(s)	SoTA
Word Sorting	Basic, Analogical Reasoning, CoT, CoC	GPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003)	CoC
Logical Deduction	Basic, Analogical Reasoning, CoT, CoC	GPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003)	CoC
Temporal Sequences	Basic, Analogical Reasoning, CoT, CoC	GPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003)	CoC
Formal Fallacies	Basic, Analogical Reasoning, CoT, CoC	GPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003)	Analogical Reasoning
Mini Crosswords	Basic, CoT, ToT	GPT-4	ToT
Tracking Shuffled Objects	Basic, CoT, LoT, CoC	GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B, PaLM 2-S, GPT-3.5 (Text-Davinci-003)	CoT, LoT, CoC
Object Counting	Basic, CoT, CoC, PAL	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B	CoC
Boolean Expressions	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoC
Web of Lies	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoT
Dyck Languages	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoC
Geometric Shapes	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoC
Repeat Copy Logic	Basic, CoT, PAL, Synthetic Prompting	Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, InstructGPT (Text-Davinci-003)	PAL

常識的推論

常識的推論は、大規模言語モデル(LLM)の実用性を評価する重要な指標である。表は、様々なデータセットと手法を用いた実験結果を示している。Chain-of-Thought(CoT)やChain-of-Code(CoC)などの高度なプロンプト戦略が多くのタスクで高い性能を示す一方、Maieutic PromptingやSynthetic Promptingなどの新しい手法も登場し、特定のタスクで最高性能(SoTA)を達成している。これらの手法は、LLMの常識的推論能力を向上させる上で重要な役割を果たしている。

Dataset	Prompting Strategies	LLM(s)	SoTA
Reasoning about Colored Objects	Analogical Reasoning, CoT, Basic, CoC, PAL, Synthetic Prompting	PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, InstructGPT (Text-Davinci-003), Codex (Code-Davinci-002)	Synthetic Prompting
CSQA	Basic, CoT, Auto-CoT, Self-Consistency, Random CoT, Active-Prompt, PoT, PS	Codex (Code-Davinci-001), Codex (Code-Davinci-002), GPT-3, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), LaMDA-137B, PaLM-540B, UL2-20B	Active-Prompt
Last Letter Concatenation	Basic, CoT, Auto-CoT, Self-Consistency, LoT, Random CoT, Active-Prompt, Least-to-Most, DecomP, PS	Codex (Code-Davinci-001), Codex (Code-Davinci-002), GPT-3, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, InstructGPT (Text-Davinci-001), InstructGPT (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Vicuna-13B, Vicuna-33B, Vicuna-7B	DecomP
CSQA 2.0	Basic, CoT, Self-Consistency, GKP, Maieutic Prompting	InstructGPT (Text-Davinci-001)	Maieutic Prompting
Date Understanding	Basic, CoT, LoT, CoC, PAL, Complex CoT	Codex (Code-Davinci-002), DiVeRSe’, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, LaMDA-137B, Minerva-540B, PaLM 2-S, PaLM-540B, UL2-20B, Vicuna-13B, Vicuna-33B, Vicuna-7B	Complex CoT
Sports Understanding	Basic, CoT, CoC	GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoT
Coin Flip	Basic, CoT, Auto-CoT, Self-Consistency, PS	GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001)	Auto-CoT
Odd One Out	CoT, LoT	GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B	LoT
Disambigu-ation QA	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoC
Hyperbaton	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoC
Com2Sense	Basic, CoT, Self-Consistency, GKP, Maieutic Prompting	InstructGPT (Text-Davinci-001)	Maieutic Prompting
Creak	Basic, CoT, Self-Consistency, GKP, Maieutic Prompting	InstructGPT (Text-Davinci-001)	Maieutic Prompting
List Reversal	CoT, DecomP	InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002)	DecomP

多段階推論

多段階推論は、複雑な問題解決能力を要する高度なタスクである。表は、様々なデータセットと手法を用いた実験結果を示している。Chain-of-Thought(CoT)や自己一貫性(Self-Consistency)などの基本的な戦略に加え、Active-Prompt、Chain-of-Knowledge(CoK)、Decomposition Prompting(DecomP)などの新しい手法が登場し、多くのタスクで最高性能(SoTA)を達成している。これらの手法は、LLMの多段階推論能力を向上させる上で重要な役割を果たしている。

Dataset	Prompting Strategies	LLM(s)	SoTA
StrategyQA	Basic, CoT, Auto-CoT, Self-Consistency, Contrastive CoT, Contrastive Self-Consistency, Random CoT, Active-Prompt, Complex CoT, PS	GPT-3, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), Codex (Code-Davinci-001), GPT-3.5-Turbo, Minerva-540B, DiVeRSe	Active-Prompt
HotpotQA	Basic, CoT, Act, ReAct, Self-Consistency, VE, CoK, DecomP, Least-to-Most	PaLM-540B, GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002)	CoK
CommaQA-E	CoT, DecomP	InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002)	DecomP
MuSiQue	Basic, CoT, DecomP	InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002)	DecomP
2WikiMult-ihopQA	Basic, CoT, DecomP	InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002)	DecomP

因果推論

因果推論は、モデルの因果関係の理解と処理能力を評価する重要なタスクである。表は、Cause And EffectとCausal Judgementという2つのデータセットに対する実験結果を示している。Chain-of-Thought(CoT)やLogical Thought(LoT)などの高度なプロンプト戦略が効果的であり、特にLoTがCause And Effectタスクで最高性能(SoTA)を達成している。これらの手法は、LLMの因果推論能力を向上させる上で重要な役割を果たしている。

Dataset	Prompting Strategies	LLM(s)	SoTA
Cause And Effect	CoT, LoT	GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B	LoT
Causal Judgement	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	Basic, CoT

社会的推論

社会的推論は、モデルが人間の社会的相互作用に関する推論能力を有しているか評価する重要なタスクである。表に示すように、Chain-of-Thought(CoT)やLogical Thought(LoT)などの高度なプロンプト戦略が有効であり、特にLoTがSocialQAタスクにおいて最高性能(SoTA)を達成した。これらの結果は、LLMの社会的推論能力向上において、高度なプロンプト設計が重要な役割を果たすことを示唆する。

Dataset	Prompting Strategies	LLM(s)	SoTA
SocialQA	CoT, LoT	GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B	LoT

文脈を考慮した質問応答

文脈を考慮した質問応答は、与えられた文脈に基づいて正確かつ適切な回答を生成する能力を評価するタスクである。

表は、実験に使用したデータセット、プロンプト戦略、LLM、および各タスクにおける最高性能（SoTA）を示している。ProcessBankやBioMRCといった専門領域のデータセットから、MultiSpanQAのような一般的な質問応答データセットまで、幅広いタスクにおいて研究が実施されている。

プロンプト戦略としては、Chain-of-Thought (CoT)やAnalogical Reasoningなど、LLMの推論能力を引き出すための様々な手法がメインで、Implicit RAGは、文脈情報を直接モデルに入力することで、より正確な回答を生成できることが示唆される。

研究結果を見ると、タスクやデータセットによって最適なプロンプト戦略が異なることが分かる。例えば、FinQAやTAT-QAといった金融や法律に関するデータセットでは、PoT (Prompting with Template)が効果的であった。

これらの結果は、LLMの文脈理解能力が、タスクの性質やデータセットの特性に大きく依存することを示唆している。今後、より複雑な文脈や多様なデータセットを用いた研究が期待される。

Dataset	Prompting Strategies	LLM(s)	SoTA
ProcessBank	Basic, Implicit RAG, CoT, Analogical Reasoning	GPT-4	Implicit RAG
BioMRC	Basic, Implicit RAG, CoT, Analogical Reasoning	GPT-4	Basic
MASH-QA	Basic, Implicit RAG, CoT, Analogical Reasoning	GPT-4	Basic
CliCR	Basic, Implicit RAG, CoT, Analogical Reasoning	GPT-4	Implicit RAG, Analogical Reasoning
MultiSpanQA	Basic, CoT, CoVe	LLaMA-65B, LLaMA-2-70B Chat	CoVe
FinQA	PoT, CoT, Self-Consistency	Codex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi and Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA	PoT
TAT-QA	PoT, CoT, Self-Consistency	Codex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi and Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA	PoT
Patient Case Reports	Implicit RAG, CoT, Analogical Reasoning, Basic, Basic with Term Definitions	GPT-4	Implicit RAG
Drop	Basic, CoT, Least-to-Most	GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), Codex (Code-Davinci-001)	Least-to-Most
BoolQ	CoT, PS, Self-Consistency, MP	Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat	MP

文脈に依存しない質問応答

文脈に依存しない質問応答は、与えられた文脈情報に頼らず、モデルが保有する知識や外部知識に基づいて質問に回答する能力を評価するタスクである。

表は、PopQAやEntityQといった一般的な知識に関するデータセットから、MedMCQAやUSMLEといった医学に関する専門知識を問うデータセットまで、幅広いタスクがあることが分かる。

プロンプト戦略としては、Chain-of-Thought (CoT)やThought of Thoughts (ThoT)など、LLMの推論能力を引き出すための様々な手法が提案されている。CoVeは、文脈ベクトルを用いて、より正確な回答を生成できることが示唆された。

研究の結果、タスクやデータセットによって最適なプロンプト戦略は異なることが明らかになった。例えば、MedMCQAやMedQAといった医学に関するデータセットでは、VE (Verbalization)やCoK (Knowledge Grounding)が効果的である。

これらの結果は、LLMの知識活用能力が、タスクの性質やデータセットの特性に大きく依存することを示唆している。今後、より複雑な質問や専門的な知識を要求するタスクに対する研究が期待される。

Dataset	Prompting Strategies	LLM(s)	SoTA
PopQA	Basic, CoT, ThoT	GPT-4, GPT-3.5-Turbo, LLaMA-2-7B-Chat, LLaMA-2-13B-Chat, LLaMA-2-70B-Chat, Vicuna-7B, Vicuna-13B, Vicuna-33B	ThoT
EntityQ	Basic, CoT, ThoT	GPT-4, GPT-3.5-Turbo, LLaMA-2-7B-Chat, LLaMA-2-13B-Chat, LLaMA-2-70B-Chat, Vicuna-7B, Vicuna-13B, Vicuna-33B	ThoT
Wikidata	Basic, CoT, CoVe	LLaMA-65B, LLaMA-2-70B Chat	CoVe
Wiki-Catoegory List	Basic, CoT, CoVe	LLaMA-65B, LLaMA-2-70B Chat	CoVe
MedMCQA	Basic, CoT, Self-Consistency, VE, CoK, ER	GPT-3.5-Turbo, GPT-4, GPT-3.5, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Med-PaLM 2, Flan-PaLM, GPT-4-Base, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540B	Basic
MedQA	Basic, CoT, Self-Consistency, ER	GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Med-PaLM 2, Flan-PaLM, GPT-4-Base, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540B	Basic
MMLU Physics	Basic, CoT, Self-Consistency, VE, CoK	GPT-3.5-Turbo	CoK
MMLU Biology	Basic, CoT, Self-Consistency, VE, CoK	GPT-3.5-Turbo	CoK
USMLE Sample Exam	Basic	GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM	Basic
USMLE Self Assessments	Basic	GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM	Basic
AI2 Reasoning Challenge	CoT, Self-Consistency	GPT-3, LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-001), Codex (Code-Davinci-002)	Self-Consistency
PubMedQA	Basic, CoT, Self-Consistency, ER	GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Med-PaLM 2, Flan-PaLM, GPT-4-Base, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540B	Basic
MMLU	Basic, CoT, Self-Consistency, ER	Med-PaLM 2, Flan-PaLM, GPT-4-Base, GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-4, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540B	Basic

空間に関する質問応答

空間に関する質問応答は、モデルが空間的な概念を理解し、空間的な推論を行う能力を評価するタスクである。このタスクでは、モデルは、与えられた空間的な情報に基づいて、オブジェクトの位置関係や、ある場所から別の場所への移動経路などを推論することが求められる。

プロンプト戦略としては、Chain-of-Thought (CoT)やChain-of-Symbol (CoS)など、LLMの推論能力を引き出すための様々な手法が提案されている。特に、CoSが多くのタスクにおいてSoTAを達成し、空間的な推論において効果的な戦略であることが示唆される。

Dataset	Prompting Strategies	LLM(s)	SoTA
Brick World	CoT, CoS	GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoS
NLVR-Based Manipulation	CoT, CoS	GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoS
Natural Language Navigation	CoT, CoS	GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoS
Spartun	CoT, CoS	GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoS
Navigate	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoT

会話文脈を考慮した質問応答

会話文脈を考慮した質問応答は、モデルが過去の会話内容を理解し、それに基づいて適切な応答を生成する能力を評価するタスクである。このタスクでは、モデルは、文脈内の情報を統合し、質問の意図を正確に把握する必要がある。プロンプト戦略としては、PoT (Program-of-Thoughts) が最も効果的である。

Dataset	Prompting Strategies	LLM(s)	SoTA
ConvFinQA	PoT, CoT, Self-Consistency, PAL	Codex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA	PoT

対話システム

対話システムは、人間と機械が自然な言語で対話を行うことを目的としたシステムである。プロンプト戦略としては、Thread-of-Thought (ThoT) が最も効果的である。

Dataset	Prompting Strategies	LLM(s)	SoTA
MTCR	Basic, CoT, ThoT	GPT-4, GPT-3.5-Turbo, LLaMA-2-7B-Chat, LLaMA-2-13B-Chat, LLaMA-2-70B-Chat, Vicuna-7B, Vicuna-13B, Vicuna-33B	ThoT

コード生成

コード生成は、自然言語の指示や説明から、対応するプログラムコードを生成するタスクである。SCoT (Structured Chain-of-Thought) が、多くのタスクにおいてSoTAを達成し、コード生成において効果的な戦略であることが示された。

Dataset	Prompting Strategies	LLM(s)	SoTA
Codeforce Scraping	Analogical Reasoning, CoT	GPT-3.5-Turbo, GPT-4, PaLM 2-L	Analogical Reasoning
HumanEval	Basic, SCoT, CoT	Codex (Code-Davinci-002), GPT-3.5-Turbo	SCoT
MBPP	Basic, SCoT, CoT	Codex (Code-Davinci-002), GPT-3.5-Turbo	SCoT
MBCPP	Basic, SCoT, CoT	Codex (Code-Davinci-002), GPT-3.5-Turbo	SCoT

自由回答

表は、自由形式のテキスト生成におけるデータセットとプロンプト戦略、LLMの比較結果を示している。特に、Tree-of-Thoughts（ToT）やChain-of-Verification（CoVe）がそれぞれのデータセットで最高性能(SoTA)を達成しており、これらの手法がタスクの性能向上に寄与している。

Dataset	Prompting Strategies	LLM(s)	SoTA
Creative Writing	Basic, CoT, Self-Consistency, ToT	GPT-4	ToT
Longform Generation of Biographies	Basic, CoT, CoVe	LLaMA-65B, LLaMA-2-70B Chat	CoVe

真実性判断

真実性判断は、モデルが誤情報を生成せずに、事実に基づいた回答を行う能力を評価するタスクである。表は、Sycophancy-EvalやFeverなどのデータセットに対する実験結果を示しており、ReActやLeast-to-Mostといった高度なプロンプト戦略が特定のタスクで最高性能(SoTA)を達成している。これらの手法は、モデルの真実性判断能力を強化する上で重要な役割を果たしている。

Dataset	Prompting Strategies	LLM(s)	SoTA
Sycophancy-Eval	S2A, CoT, Instructed Prompting	LLaMA-2-70B-Chat	S2A
Longform Generation	S2A, CoT, Instructed Prompting	LLaMA-2-70B-Chat	S2A
Fever	Basic, CoT, Act, ReAct, Self-Consistency, VE, CoK	PaLM-540B, GPT-3.5 (Text-Davinci-002), GPT-3.5-Turbo, InstructGPT (Text-Davinci-003)	ReAct
GSM-IC	CoT, Least-to-Most, Instructed Prompting, Self-Consistency, S2A	Codex (Code-Davinci-002), GPT-3.5 ( Text-Davinci-003), LLaMA-2-70B-Chat	Least-to-Most

表に基づく真実性判断

表に基づく真実性判断は、モデルが表形式のデータにおいて誤情報を排除し、正確な事実を伝える能力を評価するタスクである。表は、TabFactデータセットに対する実験結果を示しており、Chain-of-Table戦略が最高性能(SoTA)を達成している。これにより、モデルの表形式データに対する信頼性が向上することが示されている。

Dataset	Prompting Strategies	LLM(s)	SoTA
TabFact	Basic, CoT, Binder, Dater, Chain-of-Table	PaLM 2-S, GPT-3.5-Turbo, LLaMA-2-17B-Chat	Chain-of-Table

表に基づく質問応答

表に基づく質問応答は、表形式データに対する質問に正確に答えるモデルの能力を評価するタスクである。表は、WikiTQとFeTaQAの2つのデータセットに対する実験結果を示しており、Chain-of-Table戦略が最高性能(SoTA)を達成している。これにより、表形式のデータに基づく質問応答において、LLMの精度向上が確認されている。

Dataset	Prompting Strategies	LLM(s)	SoTA
WikiTQ	Basic, CoT, Binder, Dater, Chain-of-Table	PaLM 2-S, GPT-3.5-Turbo, LLaMA-2-17B-Chat, Codex (Code-Davinci-002)	Chain-of-Table
FeTaQA	Basic, CoT, Dater, Chain-of-Table, Self-Consistency, VE, CoK	PaLM 2-S, GPT-3.5-Turbo, LLaMA-2-17B-Chat, GPT-3.5-Turbo, Codex (Code-Davinci-002)	Chain-of-Table

表に基づく数学的問題解決

表に基づく数学的問題解決は、表形式のデータに対する数式処理や計算能力を評価するタスクである。表は、TabMWPとPenguins in a Tableという2つのデータセットに対する実験結果を示しており、PoTやPALといったプロンプト戦略が最高性能(SoTA)を達成している。これにより、モデルの数学的問題解決能力が向上することが確認されている。

Dataset	Prompting Strategies	LLM(s)	SoTA
TabMWP	PoT, CoT, Self-Consistency, PAL	Codex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA	PoT
Penguins in a Table	Basic, CoT, CoC, PAL, Random CoT, Complex CoT	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3 (Text-Davinci-002), DiVeRSe	PAL

Dataset	Prompting Strategies	LLM(s)	SoTA
Movie Recommendation	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, Codex (Code-Davinci-002)	Basic

感情/感性理解

感情や感性の理解は、モデルが人間の感情や感性をどれだけ適切に捉えられるかを評価するタスクである。表は、SnarksやSemEval14 Laptop and Restaurantなどのデータセットに対する実験結果を示しており、THORやCoCなどのプロンプト戦略がそれぞれのタスクで最高性能(SoTA)を達成している。これにより、モデルの感情理解能力が大きく向上していることが確認されている。

Dataset	Prompting Strategies	LLM(s)	SoTA
Snarks	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	CoC
Ruin Names	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	Basic
SemEval14 Laptop and Restaurant	THOR, CoT	Flan-T5-250M (Base), Flan-T5-780M (Large), Flan-T5-3B (XL), Flan-T5-11B (XXL), GPT3-350M, GPT3-1.3B, GPT3-6.7B, GPT3-175B, GPT-3.5-Turbo	THOR
Forex	Basic, Basic + Variations	GPT-3.5-Turbo	Basic + Variations

機械翻訳

機械翻訳は、モデルが異なる言語間で正確な翻訳を行う能力を評価するタスクである。表には、Salient Translation Error DetectionやFLORESなどのデータセットに基づく実験結果が示されており、基本的なプロンプト戦略やそのバリエーションが高い性能を発揮していることが分かる。特に、GLM-130Bを使用した実験では、基本プロンプトとその変化形が複数のデータセットで最高性能(SoTA)を達成している。

Dataset	Prompting Strategies	LLM(s)	SoTA
Salient Translation Error Detection	Basic, CoT, CoC	PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4	Basic
FLORES	Basic, Basic + Variations	GLM-130B	Basic + Variations
WMT21	Basic, Basic + Variations	GLM-130B	Basic + Variations
Multi-Domain	Basic, Basic + Variations	GLM-130B	Basic + Variations
PDC	Basic, Basic + Variations	GLM-130B	Basic + Variations

固有表現認識

固有表現認識は、入力テキスト内の定義済みのクラスやカテゴリを特定するタスクである。表には、MTSamplesやVAERSなどのデータセットに対する実験結果が示されており、Annotation Guideline-Based PromptingやError Analysis-Based Promptingが高い性能を発揮していることが分かる。特に、これらの高度なプロンプト戦略が固有表現認識タスクで最高性能(SoTA)を達成している。

Dataset	Prompting Strategies	LLM(s)	SoTA
MTSamples	Basic, Basic + Annotation Guideline-based Prompting, Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting	GPT-3.5-Turbo, GPT-4	Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting
VAERS	Basic, Basic + Annotation Guideline-based Prompting, Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting	GPT-3.5-Turbo, GPT-4	Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting
Research Papers	Basic, CoT	GPT-3.5-Turbo, GPT-4	Basic
BC5CDR-chem	CoT, PS, Self-Consistency, MP	Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat	MP

語義曖昧性解消

語義曖昧性解消は、異なる文脈で同じ単語の異なる意味を解読する能力を評価するタスクである。表には、WiCデータセットに対する実験結果が示されており、特にMetacognitive Prompting (MP)が最高性能(SoTA)を達成していることが分かる。MPがこのタスクにおいて最も効果的なプロンプト戦略である。

Dataset	Prompting Strategies	LLM(s)	SoTA
WiC	CoT, PS, Self-Consistency, MP	Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat	MP

要約

要約は、長文テキストを要約し、重要な情報を保持する能力を評価するタスクである。表には、WCEPおよびCCTCデータセットに対する実験結果が示されており、特にChain-of-Event (CoE)が最高性能(SoTA)を達成している。CoEはこのタスクにおいて最も効果的なプロンプト戦略である。

Dataset	Prompting Strategies	LLM(s)	SoTA
WCEP	Basic, CoE	ChatGLM2-6B	CoE
CCTC	Basic, CoE	ChatGLM2-6B	CoE

言い換え

言い換えは、与えられたテキストを異なる言葉で書き換えながら、元の意味を保持する能力を評価するタスクである。表には、QQPデータセットに対する実験結果が示されており、特にMetacognitive Prompting (MP)が最高性能(SoTA)を達成している。MPはこのタスクにおいて最も効果的なプロンプト戦略である。

Dataset	Prompting Strategies	LLM(s)	SoTA
QQP	CoT, PS, Self-Consistency, MP	Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat	MP

立場検出

立場検出は、テキストから著者の意見が特定のトピックや対象に対して賛成か反対かを判断する能力を評価するタスクである。表には、SemEval-2016、VAST、P-Stanceのデータセットに対する実験結果が示されており、Chain-of-Thought (CoT) が最高性能(SoTA)を達成している。CoTはこのタスクにおいて最も効果的なプロンプト戦略である。

Dataset	Prompting Strategies	LLM(s)	SoTA
SemEval-2016	CoT	GPT-3.5-Turbo	CoT
VAST	CoT	GPT-3.5-Turbo	CoT
P-Stance	CoT	GPT-3.5-Turbo	CoT

自然言語推論

自然言語推論は、前提に対して仮説が真であるか（含意）、偽であるか（矛盾）、または不明であるか（中立）を判断するタスクである。表には、QNLIとMedNLIという2つのデータセットに対する実験結果が示されており、Metacognitive Prompting (MP) が最高性能(SoTA)を達成している。MPはこのタスクにおいて最も効果的なプロンプト戦略である。

Dataset	Prompting Strategies	LLM(s)	SoTA
QNLI	CoT, PS, Self-Consistency, MP	Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat	MP
MedNLI	CoT, PS, Self-Consistency, MP	Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat	MP

関係抽出

関係抽出は、モデルが事前に定義されたクラスやカテゴリのオブジェクトや固有表現間の意味的関係を特定する能力を評価するタスクである。表には、DDIデータセットに対する実験結果が示されており、Metacognitive Prompting (MP) が最も効果的なプロンプト戦略として最高性能(SoTA)を達成している。

Dataset	Prompting Strategies	LLM(s)	SoTA
DDI	CoT, PS, Self-Consistency, MP	Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat	MP

言語ベースのタスク完了

言語ベースのタスク完了は、モデルが一連の言語に基づくナビゲーションコマンドを追従し、タスクを完了するために必要なアクションを決定する能力を評価するタスクである。表には、ALFWorld、Scan、WebShop、SayCanというデータセットに対する実験結果が示されており、特にReActとCoTがそれぞれのデータセットで最高性能(SoTA)を達成している。

Dataset	Prompting Strategies	LLM(s)	SoTA
ALFWorld	Act, ReAct	PaLM-540B, GPT-3 (Text-Davinci-002)	ReAct
Scan	Basic, CoT, Least-to-Most	GPT-3 (Text-Davinci-002), Codex (Code-Davinci-001), Codex (Code-Davinci-001)	Least-to-Most
WebShop	Act, ReAct	PaLM-540B, GPT-3 (Text-Davinci-002)	ReAct
SayCan	Basic, CoT	GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002)	CoT

多ラベルテキスト分類

多ラベルテキスト分類は、モデルが各入力に対して複数の事前定義されたターゲットラベルを割り当てる能力を測定するタスクである。表には、EUR-LEX、UNFAIR-ToS、LEDGARというデータセットに対する実験結果が示されており、特にMPが各データセットで最高性能(SoTA)を達成している。これらのデータセットは、他の分類タスクに適切に分類できない場合に含まれている。

Dataset	Prompting Strategies	LLM(s)	SoTA
EUR-LEX	CoT, PS, Self-Consistency, MP	Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat	MP
UNFAIR-ToS	CoT, PS, Self-Consistency, MP	Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat	MP
LEDGAR	CoT, PS, Self-Consistency, MP	Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat	MP

More information: arXiv:2407.12994, Shubham Vatsal, Harsh Dubey, 「A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks」, https://arxiv.org/abs/2407.12994

Blog

自然言語タスクとプロンプト戦略

代表的なプロンプトテクニック