長文本處理:大模型新標配 挑戰"不可能三角"困境

長文本能力:大模型的新"標配"

4000到40萬token,大模型正在以顯著的速度提升其處理長文本的能力。

長文本處理能力似乎已成爲大模型廠商的又一新"標配"。

在國際上,OpenAI經過多次升級,將GPT-3.5的上下文輸入長度從4千增至1.6萬token,GPT-4從8千增至3.2萬token。其競爭對手Anthropic一次性將上下文長度擴展到10萬token。LongLLaMA則將上下文長度擴展到25.6萬token甚至更多。

在國內,一些大模型初創公司也在這一領域取得突破。例如,一家公司發布的智能助手產品可支持輸入20萬漢字,約合40萬token。另有研究團隊開發的新技術LongLoRA,可將7B模型的文本長度擴展到10萬token,70B模型擴展到3.2萬token。

目前,國內外已有多家頂級大模型技術公司和研究機構將拓展上下文長度作爲更新升級的重點。

這些公司和機構大多受到資本市場的青睞。例如,OpenAI獲得近120億美元投資;Anthropic最新估值可能達到300億美元;一家成立僅半年的國內公司也快速完成多輪融資,市場估值已超3億美元。

大模型公司爲何如此重視長文本技術?上下文長度擴大100倍意味着什麼?

表面上看,這意味着可輸入的文本長度越來越長,模型的閱讀能力越來越強。從最初只能讀完一篇短文,到現在可以處理一本長篇小說。

更深層次看,長文本技術正在推動大模型在金融、司法、科研等專業領域的應用。在這些領域,長文檔的摘要、理解和問答能力是基本要求,也是亟待智能化升級的方向。

然而,文本長度並非越長越好。研究表明,模型支持更長的上下文輸入與模型效果更好之間並不能直接畫等號。真正關鍵的是模型如何有效利用上下文內容。

目前,國內外對文本長度的探索還遠未達到極限。40萬token可能只是一個開始,各大公司仍在繼續突破這一技術壁壘。

爲什麼要提升長文本處理能力?

一位大模型公司創始人表示,正是由於輸入長度受限,造成了許多大模型應用落地的困境。這也是衆多公司當前聚焦長文本技術的原因所在。

例如,在虛擬角色場景中,由於長文本能力不足,虛擬角色會遺忘重要信息。在開發劇本類遊戲時,輸入長度不夠則只能削減規則和設定,影響遊戲效果。在法律、金融等專業領域,深度內容分析和生成常常受到限制。

在通往未來AI應用的道路上,長文本仍扮演重要角色。AI代理需要依靠歷史信息進行決策,原生AI應用需要上下文來保持連貫、個性化的用戶體驗。

該創始人認爲,無論是文字、語音還是視頻,對海量數據的無損壓縮可以實現高程度的智能。大模型的上限由單步能力和執行步驟數共同決定,其中單步能力與參數量相關,而執行步驟數即上下文長度。

同時,即使是參數量龐大的模型也難以完全避免幻覺問題。相比短文本,長文本可以提供更多上下文和細節信息,幫助模型更準確地判斷語義,減少歧義,提高推理的準確性。

可見,長文本技術既可解決大模型早期的一些問題,又是推進產業應用的關鍵技術之一。這也表明通用大模型正步入新階段,從LLM邁向Long LLM時代。

通過一些新發布的產品,我們可以窺見Long LLM階段大模型的升級功能:

首先是對超長文本進行關鍵信息提取、總結和分析。例如,可快速分析文章大意,提取財報關鍵信息,或對整本書進行問答。

在代碼方面,可實現從文字直接生成代碼,甚至根據論文復現代碼過程。這比早期的草圖生成網站代碼又進了一大步。

在長對話場景中,可實現更生動的角色扮演。通過輸入特定人物的語料,設置語氣和性格,可以與虛擬角色進行一對一對話。

這些例子表明,對話機器人正朝着專業化、個性化、深度化的方向發展,這或許是撬動產業應用的又一抓手。

有公司瞄準的是下一個面向消費者的超級應用:以長文本技術爲突破,在基礎模型上衍生出多個應用。該公司創始人預測,國內大模型市場將分爲企業和消費者兩個陣營,在消費者市場會出現基於自研模型的超級應用。

不過,目前市面上的長文本對話場景仍有很大優化空間。例如有些不支持聯網獲取最新信息,生成過程中無法暫停修改,即使有背景資料支持仍可能出現錯誤信息等問題。

長文本的技術難題

在長文本技術方面,存在着文本長度、注意力和算力之間的"不可能三角"困境。

這表現爲:文本越長,越難聚集充分注意力;注意力有限時,短文本又難以完整解讀復雜信息;處理長文本需要大量算力,提高了成本。

這一困境的根源在於大多數模型都基於Transformer結構。該結構中最重要的自注意力機制,雖然讓模型可以靈活分析信息間的關係,但其計算量會隨上下文長度增加而呈平方級增長。

一些研究表明,過長的上下文會使相關信息佔比顯著下降,加劇注意力分散似乎難以避免。這構成了文本長度與注意力之間的矛盾,也是大模型長文本技術難以突破的根本原因。

同時,算力一直是稀缺資源。在實際部署中,企業端難以提供很大的算力支持,這就要求廠商在擴展模型參數或文本長度時嚴格控制算力消耗。但目前要突破更長的文本技術,往往需要更多算力,形成了文本長度與算力之間的又一矛盾。

對此,業內專家表示,大模型長文本建模目前還沒有統一的解決方案,困擾的根源正是Transformer自身結構,而全新的架構已在研發中。

目前主要有三種不同的解決思路:

  1. 借助模型外部工具輔助處理長文本。主要方法是將長文本切分爲多個短文本處理,每次只加載所需的短文本片段,避開模型無法一次讀入整個長文本的問題。

  2. 重新構建自注意力計算方式。如將長文本劃分成不同組,在每個組內進行計算,而非計算每個詞之間的關係,以降低計算量、提高速度。

  3. 對模型本身進行優化。如在現有模型基礎上微調,使其能外推到更長序列;或通過減少參數量來提升上下文長度。

長文本的"不可能三角"困境目前可能還無解,但這也明確了大模型廠商的探索方向:在文本長度、注意力和算力三者之間尋找最佳平衡點,既能處理足夠信息,又能兼顧注意力計算與算力成本限制。

TOKEN0.32%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 5
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)