多轮对话暴露大模型性能短板,“对话迷失”现象引关注
日期:2025-06-09 20:36:48 / 人气:11
大模型技术在ChatGPT的推动下,于“对话”场景中引发了AI技术的爆炸式增长。然而,近期一项超过20万次的多轮对话模拟实验表明,大模型在多轮对话中的表现明显逊于单轮对话,平均性能在六种生成任务中下降了39%,“对话迷失”现象凸显。

多轮对话性能暴跌,“对话迷失”现象严重
性能评估基准局限
现有的大模型性能评估基准基于单轮对话机制,输入指令长且信息完善,这使得大模型在真实场景多轮对话中的性能未得到有效评估。而实际情况中,用户与模型的交互往往是多轮且不明确的。
实验揭示性能下降
研究人员通过超过20万次的多轮对话模拟实验,对比15个顶级开源和闭源大模型在单轮和多轮对话场景中的表现。结果显示,所有模型在多轮对话中的表现都明显低于单轮对话,平均性能下降39%。一旦模型的第一轮答案出现偏差,后续纠正往往无效,研究人员将此现象称为“对话迷失”,即大模型在多轮对话中走错方向后,即便添加信息也难以恢复到正确问答路径。
分片模拟多轮对话,还原真实交互场景
指令分片设计
为评估大语言模型在多轮、不明确对话中的表现,研究人员将现有的单轮基准测试任务重新设计为多种类型的多轮模拟对话场景。采用“半自动化流程”对原始指令进行切分,每个分片包含原始指令中的一个元素,分片需满足信息保留、清晰原始意图等五个要素。
模拟对话过程
基于分片指令模拟多轮、不明确对话,涉及助手(被评估的大语言模型)、用户(由另一个LLM模拟)和系统(负责对助手回答进行分类和评估)三个角色。在第一轮对话中,用户模拟器向助手展示指令分片1,助手生成回答后,系统对其进行归类。后续每一轮对话中,用户模拟器最多输入一个分片信息,若助手回答尝试正确或分片数据耗尽,模拟结束。
多种模拟类型设置
设置了完全指定(full)、分片(sharded)、合并(concat)、总结(recap)和滚雪球(snowball)五种模拟类型。完全指定模拟单轮对话场景,用于评估模型基础性能;分片模拟多轮、不明确对话;合并模拟基于分片指令的单轮、完全指定对话;总结在分片对话最后增加总结轮次;滚雪球要求模型对每轮对话进行总结,评估“提醒”能否缓解失忆问题。
实验结果分析,小模型与计算量问题凸显
性能下降普遍存在
研究人员使用600条指令,针对三种主要模拟类型,从八个模型家族中选择15种LLMs进行实验,每种组合运行10次模拟,超过20万次模拟对话总成本约5000美元。结果显示,每个模型在“完全指定”和“分片对话”时表现下降,平均降幅39%,而合并设置中模型表现大致相当,说明性能下降并非因分片指令信息丢失。
小模型泛化能力弱
较小的模型(如Llama3.1 - 8B - Instruct、OLMo - 2 - 13B、Claude 3 Haiku)在合并对话中的表现下降更为明显(86% - 92%),表明小模型泛化能力不如大模型,重新措辞对其性能影响大。
计算量增加无济于事
增加测试时的计算量(推理token)不能帮助模型应对多轮不明确对话。两个推理模型(o3和Deepseek - R1)性能下降与非推理模型类似,且推理模型倾向于生成更长回答,易混淆认知,无法在多轮对话中制定有效策略。
此次实验为大模型在多轮对话场景下的应用敲响了警钟。“对话迷失”现象的存在表明,当前大模型在复杂交互场景中的性能仍有待提升。未来,研究人员需要进一步探索改进大模型的方法,以增强其在多轮不明确对话中的表现,使其更好地服务于实际应用场景。
作者:杏彩体育
新闻资讯 News
- 平陆运河:广西逆天改命的国运工...06-13
- 黄仁勋发布量子计算专用 CUDA...06-13
- 天价LABUBU背后的潮玩江湖...06-13
- 见手青“再揽热度”,精酿啤酒能...06-13
案例展示 Case
- 罗纳尔迪尼奥代言杏彩体育11-04
- 杏彩体育CNYT充提返利11-04
- 杏彩体育会员日11-04
- 杏彩体育返利日11-04
- 推荐好友 财富自由11-04
- 幸运注单 福利派送11-04