您好,欢迎来到年旅网。
搜索
您的当前位置:首页【论文笔记】 A Study on the Impact of Format Restrictions on Performance of Large Language Models

【论文笔记】 A Study on the Impact of Format Restrictions on Performance of Large Language Models

来源:年旅网

Introduction

Methodology

Experiments

Datasets
Reasoning Tasks
  • GSM8K: 自然语言背景下反映日常生活场景的数学问题集合。该数据集挑战 LLM 生成必要的中间推理步骤。
  • Last Letter Concatenation: 要求 LLM 通过连接单词序列的最后一个字母来生成字符串,测试其执行符号推理的能力
  • Shuffled Objects:来自 BigBench,评价了通过一系列洗牌操作后,模型推理出最终状态的能力
Classification Tasks
  • DDXPlus:多重选择医学诊断数据集,LLM 基于给定的患者特征,从 49 种可能的疾病中选择最合适的诊断
  • MultiFin:金融数据集,需要将给定段落分为五个类别之一。
  • Sports Understanding :BigBench 的这项任务测试了 LLM 判断人工构造的与体育有关的句子是否合理。
  • NI - Task 280:基于给定段落的多选构造型分类任务。(对提示格式的更改非常敏感,性能变化高达 56%)
Model
  • gpt-3.5-turbo-0125

  • claude-3-haiku-20240307

  • gemini-1.5-flash

  • LLaMA-3-8B-Instruct

  • Gemma-2-9BInstruct

Evaluation

Metrics

  • 对于基于分类的任务(Sports Understanding、DDXPlus、NI - Task 280 和 MultiFin),使用准确性作为主要指标。
  • 对于 Last Letter Concatenation 和 GSM8K,使用精确匹配度量,其中最终答案必须是与实际答案的精确字符串匹配。

Perfect Text Parser

为了从生成内容中区分格式错误和性能表现,使用了一个被提示来从文本中提取最后答案的LLM,而非依赖于正则表达式或者字符串解析器。

Consideration for Prompt Sensitivity

使用 9 种提示组合来评估:三个任务描述和三个JSON、XML和YAML模式,在措辞或格式上略有不同

Results

格式对LLM性能的影响取决于任务:

  • 严格的格式可能会阻碍推理密集型任务
  • 要求有结构性输出的分类任务中可以提升精确度
Reasoning Tasks

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务