自然言語タスクとプロンプト戦略

今回は、自然言語処理の各タスクについて、有効なプロンプト設計についてまとめていく。まず、代表的なプロンプトテクニックをまとめ、その後タスクごとにどのようなプロンプト戦略が有効か見ていくことにする。
代表的なプロンプトテクニック
No. | プロンプトテクニック | 概要 |
---|---|---|
1 | Basic/Standard/Vanilla Prompting | LLMに直接クエリを投げかける最も基本的な方法。特別なエンジニアリングは行わない。 |
2 | Chain-of-Thought (CoT) | 複雑な問題を小さな中間ステップに分解し、順を追って解決する方法。人間の思考プロセスを模倣している。 |
3 | Self-Consistency | 複数の推論パスを生成し、最も一貫性のある答えを選択する手法。複雑な推論問題に有効。 |
4 | Ensemble Refinement (ER) | CoTとSelf-Consistencyを組み合わせ、複数の生成を行い、それらを基に改善された説明と回答を生成する。 |
5 | Automatic Chain-of-Thought (Auto-CoT) | クエリをクラスタリングし、各クラスタから代表的なクエリを選んでゼロショットCoTで推論チェーンを生成する自動化手法。 |
6 | Complex CoT | 複雑なデータポイントを訓練例として使用し、デコード時に最も複雑な推論チェーンから多数決で回答を選択する手法。 |
7 | Program-of-Thoughts (PoT) | CoTを拡張し、Pythonプログラムを生成して計算部分をPythonインタプリタに委ねる手法。数値推論に特に有効。 |
8 | Least-to-Most | 問題を部分問題に分解し、順次解決していく2段階の手法。例示よりも難しい問題にも対応可能。 |
9 | Chain-of-Symbol (CoS) | 自然言語の代わりに記号を使用して空間的関係を表現する手法。空間に関する質問応答タスクに特に有効。 |
10 | Structured Chain-of-Thought (SCoT) | プログラム構造(シーケンス、分岐、ループ)を使用して中間推論ステップを構造化し、より正確なコード生成を行う手法。 |
11 | Plan-and-Solve (PS) | 問題を小さな部分問題に分割する計画を立て、その計画に従って解決する2段階の手法。CoTの短所を改善している。 |
12 | MathPrompter | 数学的問題解決のための4段階の手法。代数式の生成、解析的解決、変数の値の代入、最終的な計算を行う。 |
13 | Contrastive CoT/ Contrastive Self-Consistency | 正例と負例の両方を提示することで、LLMの推論能力を向上させる手法。CoTとSelf-Consistencyの拡張版。 |
14 | Federated Same/Different Parameter Self-Consistency/CoT (Fed-SP/DP-SC/CoT) | クラウドソーシングされた類似クエリを使用してLLMの推論能力を向上させる手法。パラメータの同一性に基づいて2つの変種がある。 |
15 | Analogical Reasoning | 人間の類推的推論を模倣し、元の問題に類似した例を生成して解決し、その後元の問題に適用する手法。 |
16 | Synthetic Prompting | LLMを使用して合成例を生成し、既存の手作りの例に追加する手法。2段階のプロセスで生成と推論を行う。 |
17 | Tree-of-Thoughts (ToT) | 問題解決を木構造で表現し、各ノードを部分解とする探索手法。LLMに思考の生成と評価を行わせ、最適な解を探索する。 |
18 | Logical Thoughts (LoT) | 論理的等価性を利用してLLMのゼロショット推論能力を向上させる手法。推論チェーンの検証と修正を行う。 |
19 | Maieutic Prompting | 深い再帰的推論を用いて、様々な仮説に対する帰納的説明を引き出す手法。矛盾する選択肢を協調的に排除する。 |
20 | Verify-and-Edit (VE) | CoTで生成された推論チェーンを事後編集し、より事実に即した出力を得る3段階の手法。 |
21 | Reason + Act (ReAct) | 推論と行動を組み合わせ、言語推論と意思決定タスクを解決する手法。言語的推論トレースと行動を交互に生成する。 |
22 | Active-Prompt | タスク固有の例を識別し、フューショット設定でLLMをプロンプトする際に最も関連性の高いデータポイントを使用する4段階の手法。 |
23 | Thread-of-Thought (ThoT) | 長い混沌としたコンテキストを扱うための2段階の手法。文書の各セクションを分析・要約し、その出力に基づいてクエリに回答する。 |
24 | Implicit Retrieval Augmented Generation (Implicit RAG) | LLM自体に与えられたコンテキストから重要な部分を抽出させ、それに基づいてクエリに回答させる手法。 |
25 | System 2 Attention (S2A) | 不適切なコンテキストによる誤判断を防ぐ2段階の手法。コンテキストを再生成して不要な部分を除去し、その結果を使用して回答を生成する。 |
26 | Instructed Prompting | 問題記述の無関係な情報を無視するようLLMに明示的に指示する1段階の手法。 |
27 | Chain-of-Verification (CoVe) | 幻覚を防ぎ、性能を向上させるための4段階の手法。基準回答の生成、検証クエリの生成、検証、修正を行う。 |
28 | Chain-of-Knowledge (CoK) | 幻覚に対処するための3段階の手法。予備的な根拠と回答の準備、動的な知識適応、回答の統合を行う。 |
29 | Chain-of-Code (CoC) | LLMのコード指向の推論を改善する拡張手法。コードの記述だけでなく、特定の行の期待される出力を選択的にシミュレートする。 |
30 | Program-aided Language Models (PAL) | 自然言語とプログラミング言語の文を交互に生成し、最終的にPythonインタプリタを使用して回答を得る手法。 |
31 | Binder | LLMの機能を1つのAPIとしてプログラミング言語にバインドし、より広範なクエリに対応する2段階のニューラル記号的手法。 |
32 | Dater | 大きなテーブルを関連する小さなサブテーブルに分解し、複雑な自然言語クエリを論理的・数値的計算に分解する3段階の手法。 |
33 | Chain-of-Table | CoTを表形式データに適用した3段階の手法。テーブル操作の動的計画、引数生成、最終回答生成を行う。 |
34 | Decomposed Prompting (DecomP) | 複雑な問題をより単純な部分問題に分解し、それぞれを専用のLLMに委ねる手法。階層的、再帰的、または外部API呼び出しによる分解が可能。 |
35 | Three-Hop Reasoning (THOR) | 感情/感情理解タスクのための3段階の手法。アスペクトの特定、詳細な意見の抽出、感情極性の推論を行う。 |
36 | Metacognitive Prompting (MP) | 認知心理学の概念に基づく5段階の手法。テキストの理解、予備的判断、批判的評価、最終決定、自信度評価を行う。 |
37 | Chain-of-Event (CoE) | 要約タスクのための4段階の手法。イベントの抽出、分析・一般化、フィルタリング、統合を行う。 |
38 | Basic with Term Definitions | 基本的なプロンプト指示に医学用語の定義を追加する手法。しかし、固定の定義がLLMを混乱させる可能性がある。 |
39 | Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting | 臨床固有表現認識タスクのための3つのコンポーネントを組み合わせた手法。基本情報、アノテーションガイドライン、エラー分析に基づく指示を含む。 |
自然言語タスクとプロンプト戦略
ここでは、大規模言語モデルの各タスクについて、データセットやプロンプト戦略について整理する。
まずは、下表に自然言語処理タスクの概要をまとめる。
タスク名 | 和訳 | 概要 |
---|---|---|
Mathematical Problem Solving | 数学的問題解決 | 数学的な問題を解決する能力を評価するタスク |
Logical Reasoning | 論理的推論 | 論理的な推論を行う能力を評価するタスク |
Commonsense Reasoning | 常識的推論 | 一般常識に基づいた推論を行う能力を評価するタスク |
Multi-Hop Reasoning | 多段階推論 | 複数のステップを経て推論を行う能力を評価するタスク |
Causal Reasoning | 因果推論 | 因果関係を理解し推論する能力を評価するタスク |
Social Reasoning | 社会的推論 | 社会的な状況や人間関係を理解し推論する能力を評価するタスク |
Contextual Question-Answering | 文脈を考慮した質問応答 | 文脈を考慮して質問に答える能力を評価するタスク |
Context-Free Question-Answering | 文脈に依存しない質問応答 | 与えられた情報のみで質問に答える能力を評価するタスク |
Spatial Question-Answering | 空間に関する質問応答 | 空間的な情報に関する質問に答える能力を評価するタスク |
Conversational Contextual Question-Answering | 会話文脈を考慮した質問応答 | 会話の文脈を考慮して質問に答える能力を評価するタスク |
Dialogue System | 対話システム | 人間との対話を行うシステムの能力を評価するタスク |
Code Generation | コード生成 | プログラミングコードを生成する能力を評価するタスク |
Free Response | 自由回答 | 制約のない自由な回答を生成する能力を評価するタスク |
Truthfulness | 真実性判断 | 情報の正確性や真実性を判断する能力を評価するタスク |
Table-Based Truthfulness | 表に基づく真実性判断 | 表形式のデータに基づいて情報の真実性を判断する能力を評価するタスク |
Table-Based Question-Answering | 表に基づく質問応答 | 表形式のデータに基づいて質問に答える能力を評価するタスク |
Table-Based Mathematical Problem Solving | 表に基づく数学的問題解決 | 表形式のデータを用いて数学的問題を解決する能力を評価するタスク |
Recommender System | 推薦システム | ユーザーの嗜好に基づいて推薦を行う能力を評価するタスク |
Emotion/Sentiment Understanding | 感情/感性理解 | テキストから感情や感性を理解する能力を評価するタスク |
Machine Translation | 機械翻訳 | ある言語から別の言語に翻訳する能力を評価するタスク |
Named Entity Recognition | 固有表現認識 | テキスト中の固有表現(人名、組織名など)を識別する能力を評価するタスク |
Word Sense Disambiguation | 語義曖昧性解消 | 多義語の文脈に応じた意味を特定する能力を評価するタスク |
Summarization | 要約 | 長文を要約する能力を評価するタスク |
Paraphrasing | 言い換え | 文章を別の表現で言い換える能力を評価するタスク |
Stance Detection | 立場検出 | テキストの立場や態度を検出する能力を評価するタスク |
Natural Language Inference | 自然言語推論 | 前提と仮説の関係(含意、矛盾、中立)を推論する能力を評価するタスク |
Relation Extraction | 関係抽出 | テキスト中の実体間の関係を抽出する能力を評価するタスク |
Language-Based Task Completion | 言語ベースのタスク完了 | 言語指示に基づいてタスクを完了する能力を評価するタスク |
Multilabel Text Classification | 多ラベルテキスト分類 | テキストに複数のラベルを割り当てる能力を評価するタスク |
数学的問題解決
数学的問題解決において、LLMは様々なプロンプティング戦略を用いて性能を向上させている。下表は、代表的な数学問題データセットと、それらに対する効果的なプロンプティング戦略、および優れた性能を示したLLMをまとめたものである。
例えば、GSM8Kデータセットでは、Basic, Analogical Reasoning, CoTなどのプロンプティング戦略が有効であり、GPT-3.5-Turbo, GPT-4などのLLMが優れた性能を示している。また、MATHデータセットでは、Analogical Reasoning, CoTが有効であり、GPT-3.5-Turbo, GPT-4, PaLM 2-Lが優れた性能を示している。
これらの結果から、数学問題解決においては、データセットや問題の特性に応じて適切なプロンプティング戦略を選択し、それに適したLLMを使用することが重要であることがわかる。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
GSM8K | Basic, Analogical Reasoning, CoT, Auto-CoT, Self-Consistency, LoT, PoT, PAL, CoC, Contrastive CoT, Contrastive Self-Consistency, Least-to-Most, Synthetic Prompting, Random CoT, Complex CoT, Active-Prompt, Fed-SP-SC, Fed-DP-CoT, PS | GPT-3.5-Turbo, GPT-4, PaLM 2-L, GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001), Vicuna-7B, Vicuna-13B, Vicuna-33B, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, PaLM 2-S, GPT-3.5 (Text-Davinci-003), Minerva-540B, InstructGPT (Text-Davinci-003), DiVeRSe, UL2-20B | PoT |
MATH | Analogical Reasoning, CoT | GPT-3.5-Turbo, GPT-4, PaLM 2-L | Analogical Reasoning |
SVAMP | Basic, CoT, Auto-CoT, Self-Consistency, PAL, PoT, Random CoT, Active-Prompt, Synthetic Prompting, Contrastive CoT, Contrastive Self-Consistency, Fed-SP-SC, Fed-DP-CoT, PS | GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, UL2-20B, Codex (Code-Davinci-001), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, Minerva-540B, GPT-3.5 (Text-Davinci-003), InstructGPT (Text-Davinci-003) | PoT |
ASDiv | Basic, CoT, Self-Consistency, PAL, Contrastive CoT, Contrastive Self-Consistency, Synthetic Prompting, Auto-CoT, Random CoT, Active-Prompt | GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001), Minerva-540B, GPT-3.5-Turbo, InstructGPT (Text-Davinci-003), GPT-3.5 (Text-Davinci-003) | Contrastive Self-Consistency |
AQuA | Basic, CoT, Auto-CoT, Self-Consistency, LoT, PoT, Contrastive CoT, Contrastive Self-Consistency, Random CoT, Active-Prompt, PS | GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001), GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, GPT-3.5 (Text-Davinci-003) | PoT |
MAWPS | Basic, CoT | GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002) | CoT |
Game of 24 | Basic, CoT, Self-Consistency, ToT | GPT-4 | ToT |
MultiArith | Basic, CoT, Auto-CoT, Self-Consistency, PoT, PAL, MathPrompter, Random CoT, Complex CoT, PS | GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), GPT-3, LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-001), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, Minerva-540B, GPT-3.5 (Text-Davinci-003), DiVeRSe | Self-Consistency |
Multi-Step Arithmetic | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoC |
AddSub | Basic, CoT, Auto-CoT, Self-Consistency, PAL, PoT, PS | GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003) Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B | PAL |
SingleEq | Basic, CoT, Auto-CoT, PAL, Self-Consistency, Random CoT, Active-Prompt, PS, PoT | GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3.5 (Text-Davinci-003) | Active-Prompt |
GSM-HARD | Basic, CoT, PAL, Contrastive CoT, Contrastive Self-Consistency, Synthetic Prompting | Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3.5-Turbo, InstructGPT (Text-Davinci-003) | Synthetic Prompting |
SingleOp | Basic, CoT, PAL, Synthetic Prompting | Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, InstructGPT (Text-Davinci-003), GPT-3 (Text-Davinci-002) | Synthetic Prompting |
MathQA | CoT, Random CoT, Complex CoT | LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), DiVeRSe | Complex CoT |
論理的推論
論理的推論は、大規模言語モデル(LLM)の能力を評価する重要な分野である。表は、様々なデータセットと手法を用いた実験結果を示している。Chain-of-Thought(CoT)やChain-of-Causality(CoC)などの高度なプロンプト戦略が、多くのタスクで最高性能(SoTA)を達成していることが分かる。特にCoCは、複雑な推論を要する課題で優れた結果を示している。これらの手法は、LLMの論理的思考能力を向上させる上で重要な役割を果たしている。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
Word Sorting | Basic, Analogical Reasoning, CoT, CoC | GPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003) | CoC |
Logical Deduction | Basic, Analogical Reasoning, CoT, CoC | GPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003) | CoC |
Temporal Sequences | Basic, Analogical Reasoning, CoT, CoC | GPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003) | CoC |
Formal Fallacies | Basic, Analogical Reasoning, CoT, CoC | GPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003) | Analogical Reasoning |
Mini Crosswords | Basic, CoT, ToT | GPT-4 | ToT |
Tracking Shuffled Objects | Basic, CoT, LoT, CoC | GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B, PaLM 2-S, GPT-3.5 (Text-Davinci-003) | CoT, LoT, CoC |
Object Counting | Basic, CoT, CoC, PAL | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B | CoC |
Boolean Expressions | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoC |
Web of Lies | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoT |
Dyck Languages | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoC |
Geometric Shapes | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoC |
Repeat Copy Logic | Basic, CoT, PAL, Synthetic Prompting | Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, InstructGPT (Text-Davinci-003) | PAL |
常識的推論
常識的推論は、大規模言語モデル(LLM)の実用性を評価する重要な指標である。表は、様々なデータセットと手法を用いた実験結果を示している。Chain-of-Thought(CoT)やChain-of-Code(CoC)などの高度なプロンプト戦略が多くのタスクで高い性能を示す一方、Maieutic PromptingやSynthetic Promptingなどの新しい手法も登場し、特定のタスクで最高性能(SoTA)を達成している。これらの手法は、LLMの常識的推論能力を向上させる上で重要な役割を果たしている。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
Reasoning about Colored Objects | Analogical Reasoning, CoT, Basic, CoC, PAL, Synthetic Prompting | PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, InstructGPT (Text-Davinci-003), Codex (Code-Davinci-002) | Synthetic Prompting |
CSQA | Basic, CoT, Auto-CoT, Self-Consistency, Random CoT, Active-Prompt, PoT, PS | Codex (Code-Davinci-001), Codex (Code-Davinci-002), GPT-3, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), LaMDA-137B, PaLM-540B, UL2-20B | Active-Prompt |
Last Letter Concatenation | Basic, CoT, Auto-CoT, Self-Consistency, LoT, Random CoT, Active-Prompt, Least-to-Most, DecomP, PS | Codex (Code-Davinci-001), Codex (Code-Davinci-002), GPT-3, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, InstructGPT (Text-Davinci-001), InstructGPT (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Vicuna-13B, Vicuna-33B, Vicuna-7B | DecomP |
CSQA 2.0 | Basic, CoT, Self-Consistency, GKP, Maieutic Prompting | InstructGPT (Text-Davinci-001) | Maieutic Prompting |
Date Understanding | Basic, CoT, LoT, CoC, PAL, Complex CoT | Codex (Code-Davinci-002), DiVeRSe’, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, LaMDA-137B, Minerva-540B, PaLM 2-S, PaLM-540B, UL2-20B, Vicuna-13B, Vicuna-33B, Vicuna-7B | Complex CoT |
Sports Understanding | Basic, CoT, CoC | GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoT |
Coin Flip | Basic, CoT, Auto-CoT, Self-Consistency, PS | GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001) | Auto-CoT |
Odd One Out | CoT, LoT | GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B | LoT |
Disambigu-ation QA | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoC |
Hyperbaton | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoC |
Com2Sense | Basic, CoT, Self-Consistency, GKP, Maieutic Prompting | InstructGPT (Text-Davinci-001) | Maieutic Prompting |
Creak | Basic, CoT, Self-Consistency, GKP, Maieutic Prompting | InstructGPT (Text-Davinci-001) | Maieutic Prompting |
List Reversal | CoT, DecomP | InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002) | DecomP |
多段階推論
多段階推論は、複雑な問題解決能力を要する高度なタスクである。表は、様々なデータセットと手法を用いた実験結果を示している。Chain-of-Thought(CoT)や自己一貫性(Self-Consistency)などの基本的な戦略に加え、Active-Prompt、Chain-of-Knowledge(CoK)、Decomposition Prompting(DecomP)などの新しい手法が登場し、多くのタスクで最高性能(SoTA)を達成している。これらの手法は、LLMの多段階推論能力を向上させる上で重要な役割を果たしている。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
StrategyQA | Basic, CoT, Auto-CoT, Self-Consistency, Contrastive CoT, Contrastive Self-Consistency, Random CoT, Active-Prompt, Complex CoT, PS | GPT-3, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), Codex (Code-Davinci-001), GPT-3.5-Turbo, Minerva-540B, DiVeRSe | Active-Prompt |
HotpotQA | Basic, CoT, Act, ReAct, Self-Consistency, VE, CoK, DecomP, Least-to-Most | PaLM-540B, GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002) | CoK |
CommaQA-E | CoT, DecomP | InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002) | DecomP |
MuSiQue | Basic, CoT, DecomP | InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002) | DecomP |
2WikiMult-ihopQA | Basic, CoT, DecomP | InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002) | DecomP |
因果推論
因果推論は、モデルの因果関係の理解と処理能力を評価する重要なタスクである。表は、Cause And EffectとCausal Judgementという2つのデータセットに対する実験結果を示している。Chain-of-Thought(CoT)やLogical Thought(LoT)などの高度なプロンプト戦略が効果的であり、特にLoTがCause And Effectタスクで最高性能(SoTA)を達成している。これらの手法は、LLMの因果推論能力を向上させる上で重要な役割を果たしている。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
Cause And Effect | CoT, LoT | GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B | LoT |
Causal Judgement | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | Basic, CoT |
社会的推論
社会的推論は、モデルが人間の社会的相互作用に関する推論能力を有しているか評価する重要なタスクである。表に示すように、Chain-of-Thought(CoT)やLogical Thought(LoT)などの高度なプロンプト戦略が有効であり、特にLoTがSocialQAタスクにおいて最高性能(SoTA)を達成した。これらの結果は、LLMの社会的推論能力向上において、高度なプロンプト設計が重要な役割を果たすことを示唆する。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
SocialQA | CoT, LoT | GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B | LoT |
文脈を考慮した質問応答
文脈を考慮した質問応答は、与えられた文脈に基づいて正確かつ適切な回答を生成する能力を評価するタスクである。
表は、実験に使用したデータセット、プロンプト戦略、LLM、および各タスクにおける最高性能(SoTA)を示している。ProcessBankやBioMRCといった専門領域のデータセットから、MultiSpanQAのような一般的な質問応答データセットまで、幅広いタスクにおいて研究が実施されている。
プロンプト戦略としては、Chain-of-Thought (CoT)やAnalogical Reasoningなど、LLMの推論能力を引き出すための様々な手法がメインで、Implicit RAGは、文脈情報を直接モデルに入力することで、より正確な回答を生成できることが示唆される。
研究結果を見ると、タスクやデータセットによって最適なプロンプト戦略が異なることが分かる。例えば、FinQAやTAT-QAといった金融や法律に関するデータセットでは、PoT (Prompting with Template)が効果的であった。
これらの結果は、LLMの文脈理解能力が、タスクの性質やデータセットの特性に大きく依存することを示唆している。今後、より複雑な文脈や多様なデータセットを用いた研究が期待される。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
ProcessBank | Basic, Implicit RAG, CoT, Analogical Reasoning | GPT-4 | Implicit RAG |
BioMRC | Basic, Implicit RAG, CoT, Analogical Reasoning | GPT-4 | Basic |
MASH-QA | Basic, Implicit RAG, CoT, Analogical Reasoning | GPT-4 | Basic |
CliCR | Basic, Implicit RAG, CoT, Analogical Reasoning | GPT-4 | Implicit RAG, Analogical Reasoning |
MultiSpanQA | Basic, CoT, CoVe | LLaMA-65B, LLaMA-2-70B Chat | CoVe |
FinQA | PoT, CoT, Self-Consistency | Codex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi and Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA | PoT |
TAT-QA | PoT, CoT, Self-Consistency | Codex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi and Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA | PoT |
Patient Case Reports | Implicit RAG, CoT, Analogical Reasoning, Basic, Basic with Term Definitions | GPT-4 | Implicit RAG |
Drop | Basic, CoT, Least-to-Most | GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), Codex (Code-Davinci-001) | Least-to-Most |
BoolQ | CoT, PS, Self-Consistency, MP | Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat | MP |
文脈に依存しない質問応答
文脈に依存しない質問応答は、与えられた文脈情報に頼らず、モデルが保有する知識や外部知識に基づいて質問に回答する能力を評価するタスクである。
表は、PopQAやEntityQといった一般的な知識に関するデータセットから、MedMCQAやUSMLEといった医学に関する専門知識を問うデータセットまで、幅広いタスクがあることが分かる。
プロンプト戦略としては、Chain-of-Thought (CoT)やThought of Thoughts (ThoT)など、LLMの推論能力を引き出すための様々な手法が提案されている。CoVeは、文脈ベクトルを用いて、より正確な回答を生成できることが示唆された。
研究の結果、タスクやデータセットによって最適なプロンプト戦略は異なることが明らかになった。例えば、MedMCQAやMedQAといった医学に関するデータセットでは、VE (Verbalization)やCoK (Knowledge Grounding)が効果的である。
これらの結果は、LLMの知識活用能力が、タスクの性質やデータセットの特性に大きく依存することを示唆している。今後、より複雑な質問や専門的な知識を要求するタスクに対する研究が期待される。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
PopQA | Basic, CoT, ThoT | GPT-4, GPT-3.5-Turbo, LLaMA-2-7B-Chat, LLaMA-2-13B-Chat, LLaMA-2-70B-Chat, Vicuna-7B, Vicuna-13B, Vicuna-33B | ThoT |
EntityQ | Basic, CoT, ThoT | GPT-4, GPT-3.5-Turbo, LLaMA-2-7B-Chat, LLaMA-2-13B-Chat, LLaMA-2-70B-Chat, Vicuna-7B, Vicuna-13B, Vicuna-33B | ThoT |
Wikidata | Basic, CoT, CoVe | LLaMA-65B, LLaMA-2-70B Chat | CoVe |
Wiki-Catoegory List | Basic, CoT, CoVe | LLaMA-65B, LLaMA-2-70B Chat | CoVe |
MedMCQA | Basic, CoT, Self-Consistency, VE, CoK, ER | GPT-3.5-Turbo, GPT-4, GPT-3.5, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Med-PaLM 2, Flan-PaLM, GPT-4-Base, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540B | Basic |
MedQA | Basic, CoT, Self-Consistency, ER | GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Med-PaLM 2, Flan-PaLM, GPT-4-Base, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540B | Basic |
MMLU Physics | Basic, CoT, Self-Consistency, VE, CoK | GPT-3.5-Turbo | CoK |
MMLU Biology | Basic, CoT, Self-Consistency, VE, CoK | GPT-3.5-Turbo | CoK |
USMLE Sample Exam | Basic | GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM | Basic |
USMLE Self Assessments | Basic | GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM | Basic |
AI2 Reasoning Challenge | CoT, Self-Consistency | GPT-3, LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-001), Codex (Code-Davinci-002) | Self-Consistency |
PubMedQA | Basic, CoT, Self-Consistency, ER | GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Med-PaLM 2, Flan-PaLM, GPT-4-Base, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540B | Basic |
MMLU | Basic, CoT, Self-Consistency, ER | Med-PaLM 2, Flan-PaLM, GPT-4-Base, GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-4, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540B | Basic |
空間に関する質問応答
空間に関する質問応答は、モデルが空間的な概念を理解し、空間的な推論を行う能力を評価するタスクである。このタスクでは、モデルは、与えられた空間的な情報に基づいて、オブジェクトの位置関係や、ある場所から別の場所への移動経路などを推論することが求められる。
プロンプト戦略としては、Chain-of-Thought (CoT)やChain-of-Symbol (CoS)など、LLMの推論能力を引き出すための様々な手法が提案されている。特に、CoSが多くのタスクにおいてSoTAを達成し、空間的な推論において効果的な戦略であることが示唆される。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
Brick World | CoT, CoS | GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoS |
NLVR-Based Manipulation | CoT, CoS | GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoS |
Natural Language Navigation | CoT, CoS | GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoS |
Spartun | CoT, CoS | GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoS |
Navigate | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoT |
会話文脈を考慮した質問応答
会話文脈を考慮した質問応答は、モデルが過去の会話内容を理解し、それに基づいて適切な応答を生成する能力を評価するタスクである。このタスクでは、モデルは、文脈内の情報を統合し、質問の意図を正確に把握する必要がある。プロンプト戦略としては、PoT (Program-of-Thoughts) が最も効果的である。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
ConvFinQA | PoT, CoT, Self-Consistency, PAL | Codex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA | PoT |
対話システム
対話システムは、人間と機械が自然な言語で対話を行うことを目的としたシステムである。プロンプト戦略としては、Thread-of-Thought (ThoT) が最も効果的である。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
MTCR | Basic, CoT, ThoT | GPT-4, GPT-3.5-Turbo, LLaMA-2-7B-Chat, LLaMA-2-13B-Chat, LLaMA-2-70B-Chat, Vicuna-7B, Vicuna-13B, Vicuna-33B | ThoT |
コード生成
コード生成は、自然言語の指示や説明から、対応するプログラムコードを生成するタスクである。SCoT (Structured Chain-of-Thought) が、多くのタスクにおいてSoTAを達成し、コード生成において効果的な戦略であることが示された。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
Codeforce Scraping | Analogical Reasoning, CoT | GPT-3.5-Turbo, GPT-4, PaLM 2-L | Analogical Reasoning |
HumanEval | Basic, SCoT, CoT | Codex (Code-Davinci-002), GPT-3.5-Turbo | SCoT |
MBPP | Basic, SCoT, CoT | Codex (Code-Davinci-002), GPT-3.5-Turbo | SCoT |
MBCPP | Basic, SCoT, CoT | Codex (Code-Davinci-002), GPT-3.5-Turbo | SCoT |
自由回答
表は、自由形式のテキスト生成におけるデータセットとプロンプト戦略、LLMの比較結果を示している。特に、Tree-of-Thoughts(ToT)やChain-of-Verification(CoVe)がそれぞれのデータセットで最高性能(SoTA)を達成しており、これらの手法がタスクの性能向上に寄与している。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
Creative Writing | Basic, CoT, Self-Consistency, ToT | GPT-4 | ToT |
Longform Generation of Biographies | Basic, CoT, CoVe | LLaMA-65B, LLaMA-2-70B Chat | CoVe |
真実性判断
真実性判断は、モデルが誤情報を生成せずに、事実に基づいた回答を行う能力を評価するタスクである。表は、Sycophancy-EvalやFeverなどのデータセットに対する実験結果を示しており、ReActやLeast-to-Mostといった高度なプロンプト戦略が特定のタスクで最高性能(SoTA)を達成している。これらの手法は、モデルの真実性判断能力を強化する上で重要な役割を果たしている。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
Sycophancy-Eval | S2A, CoT, Instructed Prompting | LLaMA-2-70B-Chat | S2A |
Longform Generation | S2A, CoT, Instructed Prompting | LLaMA-2-70B-Chat | S2A |
Fever | Basic, CoT, Act, ReAct, Self-Consistency, VE, CoK | PaLM-540B, GPT-3.5 (Text-Davinci-002), GPT-3.5-Turbo, InstructGPT (Text-Davinci-003) | ReAct |
GSM-IC | CoT, Least-to-Most, Instructed Prompting, Self-Consistency, S2A | Codex (Code-Davinci-002), GPT-3.5 ( Text-Davinci-003), LLaMA-2-70B-Chat | Least-to-Most |
表に基づく真実性判断
表に基づく真実性判断は、モデルが表形式のデータにおいて誤情報を排除し、正確な事実を伝える能力を評価するタスクである。表は、TabFactデータセットに対する実験結果を示しており、Chain-of-Table戦略が最高性能(SoTA)を達成している。これにより、モデルの表形式データに対する信頼性が向上することが示されている。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
TabFact | Basic, CoT, Binder, Dater, Chain-of-Table | PaLM 2-S, GPT-3.5-Turbo, LLaMA-2-17B-Chat | Chain-of-Table |
表に基づく質問応答
表に基づく質問応答は、表形式データに対する質問に正確に答えるモデルの能力を評価するタスクである。表は、WikiTQとFeTaQAの2つのデータセットに対する実験結果を示しており、Chain-of-Table戦略が最高性能(SoTA)を達成している。これにより、表形式のデータに基づく質問応答において、LLMの精度向上が確認されている。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
WikiTQ | Basic, CoT, Binder, Dater, Chain-of-Table | PaLM 2-S, GPT-3.5-Turbo, LLaMA-2-17B-Chat, Codex (Code-Davinci-002) | Chain-of-Table |
FeTaQA | Basic, CoT, Dater, Chain-of-Table, Self-Consistency, VE, CoK | PaLM 2-S, GPT-3.5-Turbo, LLaMA-2-17B-Chat, GPT-3.5-Turbo, Codex (Code-Davinci-002) | Chain-of-Table |
表に基づく数学的問題解決
表に基づく数学的問題解決は、表形式のデータに対する数式処理や計算能力を評価するタスクである。表は、TabMWPとPenguins in a Tableという2つのデータセットに対する実験結果を示しており、PoTやPALといったプロンプト戦略が最高性能(SoTA)を達成している。これにより、モデルの数学的問題解決能力が向上することが確認されている。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
TabMWP | PoT, CoT, Self-Consistency, PAL | Codex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA | PoT |
Penguins in a Table | Basic, CoT, CoC, PAL, Random CoT, Complex CoT | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3 (Text-Davinci-002), DiVeRSe | PAL |
推薦システム
推薦システムは、与えられた入力に基づいて最も関連性の高い項目を提示するモデルの能力を評価するタスクである。表は、Movie Recommendationデータセットに対する実験結果を示しており、興味深いことに、基本的なプロンプトが最高性能(SoTA)を達成している。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
Movie Recommendation | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, Codex (Code-Davinci-002) | Basic |
感情/感性理解
感情や感性の理解は、モデルが人間の感情や感性をどれだけ適切に捉えられるかを評価するタスクである。表は、SnarksやSemEval14 Laptop and Restaurantなどのデータセットに対する実験結果を示しており、THORやCoCなどのプロンプト戦略がそれぞれのタスクで最高性能(SoTA)を達成している。これにより、モデルの感情理解能力が大きく向上していることが確認されている。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
Snarks | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | CoC |
Ruin Names | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | Basic |
SemEval14 Laptop and Restaurant | THOR, CoT | Flan-T5-250M (Base), Flan-T5-780M (Large), Flan-T5-3B (XL), Flan-T5-11B (XXL), GPT3-350M, GPT3-1.3B, GPT3-6.7B, GPT3-175B, GPT-3.5-Turbo | THOR |
Forex | Basic, Basic + Variations | GPT-3.5-Turbo | Basic + Variations |
機械翻訳
機械翻訳は、モデルが異なる言語間で正確な翻訳を行う能力を評価するタスクである。表には、Salient Translation Error DetectionやFLORESなどのデータセットに基づく実験結果が示されており、基本的なプロンプト戦略やそのバリエーションが高い性能を発揮していることが分かる。特に、GLM-130Bを使用した実験では、基本プロンプトとその変化形が複数のデータセットで最高性能(SoTA)を達成している。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
Salient Translation Error Detection | Basic, CoT, CoC | PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 | Basic |
FLORES | Basic, Basic + Variations | GLM-130B | Basic + Variations |
WMT21 | Basic, Basic + Variations | GLM-130B | Basic + Variations |
Multi-Domain | Basic, Basic + Variations | GLM-130B | Basic + Variations |
PDC | Basic, Basic + Variations | GLM-130B | Basic + Variations |
固有表現認識
固有表現認識は、入力テキスト内の定義済みのクラスやカテゴリを特定するタスクである。表には、MTSamplesやVAERSなどのデータセットに対する実験結果が示されており、Annotation Guideline-Based PromptingやError Analysis-Based Promptingが高い性能を発揮していることが分かる。特に、これらの高度なプロンプト戦略が固有表現認識タスクで最高性能(SoTA)を達成している。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
MTSamples | Basic, Basic + Annotation Guideline-based Prompting, Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting | GPT-3.5-Turbo, GPT-4 | Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting |
VAERS | Basic, Basic + Annotation Guideline-based Prompting, Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting | GPT-3.5-Turbo, GPT-4 | Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting |
Research Papers | Basic, CoT | GPT-3.5-Turbo, GPT-4 | Basic |
BC5CDR-chem | CoT, PS, Self-Consistency, MP | Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat | MP |
語義曖昧性解消
語義曖昧性解消は、異なる文脈で同じ単語の異なる意味を解読する能力を評価するタスクである。表には、WiCデータセットに対する実験結果が示されており、特にMetacognitive Prompting (MP)が最高性能(SoTA)を達成していることが分かる。MPがこのタスクにおいて最も効果的なプロンプト戦略である。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
WiC | CoT, PS, Self-Consistency, MP | Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat | MP |
要約
要約は、長文テキストを要約し、重要な情報を保持する能力を評価するタスクである。表には、WCEPおよびCCTCデータセットに対する実験結果が示されており、特にChain-of-Event (CoE)が最高性能(SoTA)を達成している。CoEはこのタスクにおいて最も効果的なプロンプト戦略である。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
WCEP | Basic, CoE | ChatGLM2-6B | CoE |
CCTC | Basic, CoE | ChatGLM2-6B | CoE |
言い換え
言い換えは、与えられたテキストを異なる言葉で書き換えながら、元の意味を保持する能力を評価するタスクである。表には、QQPデータセットに対する実験結果が示されており、特にMetacognitive Prompting (MP)が最高性能(SoTA)を達成している。MPはこのタスクにおいて最も効果的なプロンプト戦略である。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
QQP | CoT, PS, Self-Consistency, MP | Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat | MP |
立場検出
立場検出は、テキストから著者の意見が特定のトピックや対象に対して賛成か反対かを判断する能力を評価するタスクである。表には、SemEval-2016、VAST、P-Stanceのデータセットに対する実験結果が示されており、Chain-of-Thought (CoT) が最高性能(SoTA)を達成している。CoTはこのタスクにおいて最も効果的なプロンプト戦略である。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
SemEval-2016 | CoT | GPT-3.5-Turbo | CoT |
VAST | CoT | GPT-3.5-Turbo | CoT |
P-Stance | CoT | GPT-3.5-Turbo | CoT |
自然言語推論
自然言語推論は、前提に対して仮説が真であるか(含意)、偽であるか(矛盾)、または不明であるか(中立)を判断するタスクである。表には、QNLIとMedNLIという2つのデータセットに対する実験結果が示されており、Metacognitive Prompting (MP) が最高性能(SoTA)を達成している。MPはこのタスクにおいて最も効果的なプロンプト戦略である。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
QNLI | CoT, PS, Self-Consistency, MP | Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat | MP |
MedNLI | CoT, PS, Self-Consistency, MP | Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat | MP |
関係抽出
関係抽出は、モデルが事前に定義されたクラスやカテゴリのオブジェクトや固有表現間の意味的関係を特定する能力を評価するタスクである。表には、DDIデータセットに対する実験結果が示されており、Metacognitive Prompting (MP) が最も効果的なプロンプト戦略として最高性能(SoTA)を達成している。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
DDI | CoT, PS, Self-Consistency, MP | Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat | MP |
言語ベースのタスク完了
言語ベースのタスク完了は、モデルが一連の言語に基づくナビゲーションコマンドを追従し、タスクを完了するために必要なアクションを決定する能力を評価するタスクである。表には、ALFWorld、Scan、WebShop、SayCanというデータセットに対する実験結果が示されており、特にReActとCoTがそれぞれのデータセットで最高性能(SoTA)を達成している。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
ALFWorld | Act, ReAct | PaLM-540B, GPT-3 (Text-Davinci-002) | ReAct |
Scan | Basic, CoT, Least-to-Most | GPT-3 (Text-Davinci-002), Codex (Code-Davinci-001), Codex (Code-Davinci-001) | Least-to-Most |
WebShop | Act, ReAct | PaLM-540B, GPT-3 (Text-Davinci-002) | ReAct |
SayCan | Basic, CoT | GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002) | CoT |
多ラベルテキスト分類
多ラベルテキスト分類は、モデルが各入力に対して複数の事前定義されたターゲットラベルを割り当てる能力を測定するタスクである。表には、EUR-LEX、UNFAIR-ToS、LEDGARというデータセットに対する実験結果が示されており、特にMPが各データセットで最高性能(SoTA)を達成している。これらのデータセットは、他の分類タスクに適切に分類できない場合に含まれている。
Dataset | Prompting Strategies | LLM(s) | SoTA |
---|---|---|---|
EUR-LEX | CoT, PS, Self-Consistency, MP | Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat | MP |
UNFAIR-ToS | CoT, PS, Self-Consistency, MP | Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat | MP |
LEDGAR | CoT, PS, Self-Consistency, MP | Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat | MP |
More information: arXiv:2407.12994, Shubham Vatsal, Harsh Dubey, 「A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks」, https://arxiv.org/abs/2407.12994