本文介绍了一种名为POEM(PrOmpting with Episodic Memory)的新方法,用于优化大型语言模型(LLM)的提示。POEM旨在解决现有提示优化方法资源消耗大或性能不足的问题,特别是在少量示例学习的情况下。该方法将提示优化作为强化学习问题处理,利用情景记忆存档输入数据、少量示例的不同排列及训练期间获得的奖励。在测试阶段,POEM会为每个测试查询选择能够产生最高奖励的示例序列。实验结果显示,POEM在多种文本分类任务上的表现优于近期的技术,如TEMPERA和RLPrompt,并且在更广泛的自然语言理解任务中也表现出色,优于传统的启发式方法。此外,POEM还被证明在效率方面显著优于其他基于强化学习的方法,例如RLPrompt和TEMPERA,在某些基准测试上训练速度比这些方法快约150倍。
1 提示优化技术--POEM
语言模型对其内部结构、输入数据以及提示的敏感性是显著的。特别是对于大型语言模型而言,它们的能力随着参数数量的增加而增强,展现出诸如上下文学习等新特性,这使得模型仅需少量示例就能完成任务。然而,这种能力依赖于精心设计和组织的提示内容,包括所选示例及其顺序。研究表明,即使是细微的变化,如选项顺序的不同,也会对模型的性能产生影响。因此,优化提示内容和结构对于确保模型的一致性和高效性至关重要。下面是提示优化技术POEM的一些主要特点和工作流程:
(1)主要特点:
- 简化和高效:POEM方法简单而高效,能够显著提升大型语言模型(LLM)在各种NLP任务中的性能。
- 强化学习框架:POEM将提示优化问题建模为一个强化学习挑战,使用情景记忆来存储输入数据、少量示例的不同排列及其在训练过程中的奖励信息。
- 优化示例序列:在测试阶段,POEM根据来自情景记忆中最相似的前k个训练实例的最高累积奖励来优化每个测试查询的示例序列。
(2)工作流程:
1. 训练阶段
- 状态与动作:示例的排序编码为动作,输入数据编码为状态。这两者组合用于构建每个训练查询的提示。
- 奖励接收:通过将构建好的提示输入下游语言模型(LM),得到奖励信号。
- 记忆写入:训练过程中的状态、动作和奖励被存储在情景记忆中。
2. 测试阶段
- 记忆读取:对于每个测试查询,通过近邻估计从情景记忆中读取动作,获取估计值最高的动作。
- 构建提示:根据最佳动作序列构建测试查询的提示。
- 示例排序编码:为了减少搜索空间并促进泛化,POEM对示例排序进行了编码,基于示例与测试输入之间的相似度进行排名。
(3)技术优势:
- 搜索空间减少:POEM通过在相似度排名空间而不是原始文本空间中操作,显著减少了可能的示例排序数量。
- 优异性能:POEM在多个数据集上的实验结果表明,其在几项文本分类任务中优于TEMPERA,并在所有测试的大型语言模型上平均比RLPrompt高出13.4%。
- 广泛适用性:POEM不仅适用于文本分类,而且在常识推理和问答等更广泛的自然语言理解任务中也表现出色,超越了传统的启发式方法。
2 情景记忆的训练策略
利用情景记忆进行策略梯度训练的方法借鉴了人类大脑中快速、无需模型且基于实例的学习机制,特别是参考了海马体区域的功能。这种方法避免了复杂强化学习优化的需求,同时通过性能驱动的优化确保了比启发式方法更可靠的结果。它采用情景控制机制,将每次训练数据评估视为一个事件,并使用情景记忆来存储训练数据的各种组合及其排列与观测到的奖励。通过采样和评估特定的训练输入及其对应的少量示例学习(ICL)排列,这种方法避免了对所有可能的数据-ICL排列组合进行耗时的遍历搜索,这对于大型语言模型的评估尤其有益。在测试阶段,情景记忆则充当非参数的最近邻模型,利用记录下来的类似训练数据的表现来确定测试数据的最佳排列顺序。
若想了解更多有关油气行业大模型,赋能油气行业领域发展,可查看油气通GPT云平台,链相关接: https://cn.oilgasgpts.com/ ,也可使用手机扫描下方二位码进行查看。