Introduction
Methodology
Experiments
Datasets
Reasoning Tasks
- GSM8K: 自然语言背景下反映日常生活场景的数学问题集合。该数据集挑战 LLM 生成必要的中间推理步骤。
- Last Letter Concatenation: 要求 LLM 通过连接单词序列的最后一个字母来生成字符串,测试其执行符号推理的能力
- Shuffled Objects:来自 BigBench,评价了通过一系列洗牌操作后,模型推理出最终状态的能力
Classification Tasks
- DDXPlus:多重选择医学诊断数据集,LLM 基于给定的患者特征,从 49 种可能的疾病中选择最合适的诊断
- MultiFin:金融数据集,需要将给定段落分为五个类别之一。
- Sports Understanding :BigBench 的这项任务测试了 LLM 判断人工构造的与体育有关的句子是否合理。
- NI - Task 280:基于给定段落的多选构造型分类任务。(对提示格式的更改非常敏感,性能变化高达 56%)
Model
-
gpt-3.5-turbo-0125
-
claude-3-haiku-20240307
-
gemini-1.5-flash
-
LLaMA-3-8B-Instruct
-
Gemma-2-9BInstruct
Evaluation
Metrics:
- 对于基于分类的任务(Sports Understanding、DDXPlus、NI - Task 280 和 MultiFin),使用准确性作为主要指标。
- 对于 Last Letter Concatenation 和 GSM8K,使用精确匹配度量,其中最终答案必须是与实际答案的精确字符串匹配。
Perfect Text Parser
为了从生成内容中区分格式错误和性能表现,使用了一个被提示来从文本中提取最后答案的LLM,而非依赖于正则表达式或者字符串解析器。
Consideration for Prompt Sensitivity
使用 9 种提示组合来评估:三个任务描述和三个JSON、XML和YAML模式,在措辞或格式上略有不同
Results
格式对LLM性能的影响取决于任务:
- 严格的格式可能会阻碍推理密集型任务,
- 要求有结构性输出的分类任务中可以提升精确度
Reasoning Tasks