突發:Google 公布了 TurboQuant,一種旨在在不損失的情況下壓縮語言模型工作記憶的技術。


如果如研究所示達到商用,可能會緩解當前人工智慧的一個主要瓶頸:處理長篇上下文、代理和大量推理工作所需的記憶體成本與稀缺性。
TurboQuant 旨在將 KV 快取的使用量降低最多六倍,並將晶片上的處理速度提升最多八倍,且不會丟失資料。
查看原文
post-image
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言