年旅网

搜索

您的当前位置：首页【论文笔记】 A Study on the Impact of Format Restrictions on Performance of Large Language Models

【论文笔记】 A Study on the Impact of Format Restrictions on Performance of Large Language Models

来源：年旅网

Introduction

Methodology

Experiments

Datasets

Reasoning Tasks

GSM8K：自然语言背景下反映日常生活场景的数学问题集合。该数据集挑战 LLM 生成必要的中间推理步骤。
Last Letter Concatenation：要求 LLM 通过连接单词序列的最后一个字母来生成字符串，测试其执行符号推理的能力
Shuffled Objects：来自 BigBench，评价了通过一系列洗牌操作后，模型推理出最终状态的能力

Classification Tasks

DDXPlus：多重选择医学诊断数据集，LLM 基于给定的患者特征，从 49 种可能的疾病中选择最合适的诊断
MultiFin：金融数据集，需要将给定段落分为五个类别之一。
Sports Understanding ：BigBench 的这项任务测试了 LLM 判断人工构造的与体育有关的句子是否合理。
NI - Task 280：基于给定段落的多选构造型分类任务。（对提示格式的更改非常敏感，性能变化高达 56%）

Model

gpt-3.5-turbo-0125
claude-3-haiku-20240307
gemini-1.5-flash
LLaMA-3-8B-Instruct
Gemma-2-9BInstruct

Evaluation

Metrics：

对于基于分类的任务（Sports Understanding、DDXPlus、NI - Task 280 和 MultiFin），使用准确性作为主要指标。
对于 Last Letter Concatenation 和 GSM8K，使用精确匹配度量，其中最终答案必须是与实际答案的精确字符串匹配。

Perfect Text Parser

为了从生成内容中区分格式错误和性能表现，使用了一个被提示来从文本中提取最后答案的LLM，而非依赖于正则表达式或者字符串解析器。

Consideration for Prompt Sensitivity

使用 9 种提示组合来评估：三个任务描述和三个JSON、XML和YAML模式，在措辞或格式上略有不同

Results

格式对LLM性能的影响取决于任务：

严格的格式可能会阻碍推理密集型任务，
要求有结构性输出的分类任务中可以提升精确度

Reasoning Tasks

因篇幅问题不能全部显示，请点此查看更多更全内容

Copyright © 2019- oldu.cn 版权所有浙ICP备2024123271号-1

违法及侵权请联系：TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务