🚀 Gate Fun 启动中文 Meme 创作大赛!
创建或交易 Meme 代币,瓜分 3,000 GT 奖励! 💰
🎨 1 分钟零代码发币,仅需 ~0.0000042 GT Gas 费
🏆 最高市值代币瓜分 1,000 GT
💎 毕业代币前 100 名购买地址瓜分 2,000 GT
代币发射时间: 10 月 3 日 00:00 - 10 月 15 日 23:59(UTC+8)
活动时间: 10 月 8 日 17:30 - 10 月 15 日 23:59(UTC+8)
释放创意,立即参与 👉 https://www.gate.com/announcements/article/47516
#GateFun #GateLayer #Web3 #MemeToken
长文本处理:大模型新标配 挑战"不可能三角"困境
长文本能力:大模型的新"标配"
4000到40万token,大模型正在以显著的速度提升其处理长文本的能力。
长文本处理能力似乎已成为大模型厂商的又一新"标配"。
在国际上,OpenAI经过多次升级,将GPT-3.5的上下文输入长度从4千增至1.6万token,GPT-4从8千增至3.2万token。其竞争对手Anthropic一次性将上下文长度扩展到10万token。LongLLaMA则将上下文长度扩展到25.6万token甚至更多。
在国内,一些大模型初创公司也在这一领域取得突破。例如,一家公司发布的智能助手产品可支持输入20万汉字,约合40万token。另有研究团队开发的新技术LongLoRA,可将7B模型的文本长度扩展到10万token,70B模型扩展到3.2万token。
目前,国内外已有多家顶级大模型技术公司和研究机构将拓展上下文长度作为更新升级的重点。
这些公司和机构大多受到资本市场的青睐。例如,OpenAI获得近120亿美元投资;Anthropic最新估值可能达到300亿美元;一家成立仅半年的国内公司也快速完成多轮融资,市场估值已超3亿美元。
大模型公司为何如此重视长文本技术?上下文长度扩大100倍意味着什么?
表面上看,这意味着可输入的文本长度越来越长,模型的阅读能力越来越强。从最初只能读完一篇短文,到现在可以处理一本长篇小说。
更深层次看,长文本技术正在推动大模型在金融、司法、科研等专业领域的应用。在这些领域,长文档的摘要、理解和问答能力是基本要求,也是亟待智能化升级的方向。
然而,文本长度并非越长越好。研究表明,模型支持更长的上下文输入与模型效果更好之间并不能直接画等号。真正关键的是模型如何有效利用上下文内容。
目前,国内外对文本长度的探索还远未达到极限。40万token可能只是一个开始,各大公司仍在继续突破这一技术壁垒。
为什么要提升长文本处理能力?
一位大模型公司创始人表示,正是由于输入长度受限,造成了许多大模型应用落地的困境。这也是众多公司当前聚焦长文本技术的原因所在。
例如,在虚拟角色场景中,由于长文本能力不足,虚拟角色会遗忘重要信息。在开发剧本类游戏时,输入长度不够则只能削减规则和设定,影响游戏效果。在法律、金融等专业领域,深度内容分析和生成常常受到限制。
在通往未来AI应用的道路上,长文本仍扮演重要角色。AI代理需要依靠历史信息进行决策,原生AI应用需要上下文来保持连贯、个性化的用户体验。
该创始人认为,无论是文字、语音还是视频,对海量数据的无损压缩可以实现高程度的智能。大模型的上限由单步能力和执行步骤数共同决定,其中单步能力与参数量相关,而执行步骤数即上下文长度。
同时,即使是参数量庞大的模型也难以完全避免幻觉问题。相比短文本,长文本可以提供更多上下文和细节信息,帮助模型更准确地判断语义,减少歧义,提高推理的准确性。
可见,长文本技术既可解决大模型早期的一些问题,又是推进产业应用的关键技术之一。这也表明通用大模型正步入新阶段,从LLM迈向Long LLM时代。
通过一些新发布的产品,我们可以窥见Long LLM阶段大模型的升级功能:
首先是对超长文本进行关键信息提取、总结和分析。例如,可快速分析文章大意,提取财报关键信息,或对整本书进行问答。
在代码方面,可实现从文字直接生成代码,甚至根据论文复现代码过程。这比早期的草图生成网站代码又进了一大步。
在长对话场景中,可实现更生动的角色扮演。通过输入特定人物的语料,设置语气和性格,可以与虚拟角色进行一对一对话。
这些例子表明,对话机器人正朝着专业化、个性化、深度化的方向发展,这或许是撬动产业应用的又一抓手。
有公司瞄准的是下一个面向消费者的超级应用:以长文本技术为突破,在基础模型上衍生出多个应用。该公司创始人预测,国内大模型市场将分为企业和消费者两个阵营,在消费者市场会出现基于自研模型的超级应用。
不过,目前市面上的长文本对话场景仍有很大优化空间。例如有些不支持联网获取最新信息,生成过程中无法暂停修改,即使有背景资料支持仍可能出现错误信息等问题。
长文本的技术难题
在长文本技术方面,存在着文本长度、注意力和算力之间的"不可能三角"困境。
这表现为:文本越长,越难聚集充分注意力;注意力有限时,短文本又难以完整解读复杂信息;处理长文本需要大量算力,提高了成本。
这一困境的根源在于大多数模型都基于Transformer结构。该结构中最重要的自注意力机制,虽然让模型可以灵活分析信息间的关系,但其计算量会随上下文长度增加而呈平方级增长。
一些研究表明,过长的上下文会使相关信息占比显著下降,加剧注意力分散似乎难以避免。这构成了文本长度与注意力之间的矛盾,也是大模型长文本技术难以突破的根本原因。
同时,算力一直是稀缺资源。在实际部署中,企业端难以提供很大的算力支持,这就要求厂商在扩展模型参数或文本长度时严格控制算力消耗。但目前要突破更长的文本技术,往往需要更多算力,形成了文本长度与算力之间的又一矛盾。
对此,业内专家表示,大模型长文本建模目前还没有统一的解决方案,困扰的根源正是Transformer自身结构,而全新的架构已在研发中。
目前主要有三种不同的解决思路:
借助模型外部工具辅助处理长文本。主要方法是将长文本切分为多个短文本处理,每次只加载所需的短文本片段,避开模型无法一次读入整个长文本的问题。
重新构建自注意力计算方式。如将长文本划分成不同组,在每个组内进行计算,而非计算每个词之间的关系,以降低计算量、提高速度。
对模型本身进行优化。如在现有模型基础上微调,使其能外推到更长序列;或通过减少参数量来提升上下文长度。
长文本的"不可能三角"困境目前可能还无解,但这也明确了大模型厂商的探索方向:在文本长度、注意力和算力三者之间寻找最佳平衡点,既能处理足够信息,又能兼顾注意力计算与算力成本限制。