Довгострокова обробка тексту: новий стандарт для великих моделей, виклик "Нечестива Трійця"

Довгі текстові можливості: новий "стандарт" для великих моделей

4000 до 400000 токенів, великі моделі значно підвищують свою здатність обробляти довгі тексти.

Здатність обробки довгих текстів, здається, стала ще однією новою "стандартною функцією" для виробників великих моделей.

На міжнародному рівні OpenAI кілька разів оновлювалася, збільшивши довжину контекстного вводу GPT-3.5 з 4000 до 16000 токенів, а GPT-4 з 8000 до 32000 токенів. Її конкурент Anthropic одноразово розширила довжину контексту до 100000 токенів. LongLLaMA розширила довжину контексту до 256000 токенів і навіть більше.

В країні деякі стартапи з великими моделями також досягли прориву в цій галузі. Наприклад, продукт інтелектуального асистента, випущений однією компанією, підтримує введення 200 тисяч китайських ієрогліфів, що відповідає приблизно 400 тисячам токенів. Інша дослідницька команда розробила нову технологію LongLoRA, яка може розширити довжину тексту 7B моделі до 100 тисяч токенів, а 70B моделі - до 32 тисяч токенів.

Наразі в Україні та за кордоном вже кілька провідних компаній у галузі технологій великих моделей та дослідницьких установ зосередилися на розширенні довжини контексту як ключовому напрямку оновлення та вдосконалення.

Ці компанії та установи в основному користуються популярністю на фондовому ринку. Наприклад, OpenAI отримала інвестиції в розмірі близько 12 мільярдів доларів; остання оцінка Anthropic може досягати 30 мільярдів доларів; компанія, що була заснована лише півроку тому, також швидко завершила кілька раундів фінансування, а ринкова оцінка вже перевищила 300 мільйонів доларів.

Чому компанії з великими моделями так серйозно ставляться до технології довгих текстів? Що означає розширення довжини контексту в 100 разів?

Зовні це означає, що довжина вхідного тексту стає все більшою, а здатність моделі до читання зростає. Від спочатку здатної прочитати лише короткий текст до теперішнього моменту, коли вона може обробляти цілу повість.

Глибше вникнувши, можна сказати, що технології довгих текстів сприяють впровадженню великих моделей у фінансовій, судовій, науковій та інших професійних сферах. У цих сферах здатність до узагальнення, розуміння та відповідей на запитання довгих документів є основними вимогами та є напрямком, що потребує термінової інтелектуальної модернізації.

Однак, довжина тексту не завжди є кращою. Дослідження показують, що немає прямого зв'язку між підтримкою моделлю більш тривалого контексту та покращенням її ефективності. Дійсно важливо, як модель ефективно використовує контекстний вміст.

На даний момент дослідження довжини тексту в Україні та за кордоном ще далеко не досягли межі. 400 тисяч токенів може бути лише початком, і великі компанії продовжують долати цей технічний бар'єр.

Чому потрібно підвищити здатність обробки довгих текстів?

Один із засновників компанії, що займається великими моделями, заявив, що саме через обмеження довжини введення виникають труднощі з реалізацією багатьох застосувань великих моделей. Це також є причиною, чому багато компаній зараз зосереджуються на технологіях довгих текстів.

Наприклад, у сценах з віртуальними персонажами, через недостатню здатність до обробки довгих текстів, віртуальні персонажі забувають важливу інформацію. Під час розробки ігор жанру сценарію, якщо довжини введення недостатньо, доводиться скорочувати правила та налаштування, що впливає на ігровий процес. У професійних галузях, таких як право та фінанси, глибокий аналіз та генерація контенту часто стикаються з обмеженнями.

На шляху до майбутніх застосувань ШІ довгі тексти все ще відіграють важливу роль. ШІ-агенти повинні покладатися на історичну інформацію для ухвалення рішень, корінні застосування ШІ потребують контексту для підтримки послідовного, персоналізованого користувацького досвіду.

Цей засновник вважає, що як текст, так і голос, а також відео можуть досягати високого рівня інтелекту завдяки безвтратному стисненню величезних обсягів даних. Верхня межа великих моделей визначається як здатністю одноразового виконання, так і кількістю кроків виконання, де здатність одноразового виконання пов'язана з кількістю параметрів, а кількість кроків виконання - це довжина контексту.

Одночасно, навіть моделі з величезною кількістю параметрів важко повністю уникнути проблеми ілюзії. На відміну від коротких текстів, довгі тексти можуть надати більше контексту та детальної інформації, що допомагає моделі точніше оцінювати семантику, зменшувати двозначність і підвищувати точність міркувань.

Як видно, технологія довгих текстів може вирішити деякі проблеми ранніх великих моделей, а також є однією з ключових технологій для просування промислових застосувань. Це також свідчить про те, що загальні великі моделі вступають у нову стадію, переходячи з LLM до епохи Long LLM.

Через деякі нові випущені продукти, ми можемо зазирнути в оновлені функції великої моделі Long LLM на етапі.

По-перше, це витяг, підсумок та аналіз ключової інформації з наддовгих текстів. Наприклад, можна швидко проаналізувати суть статті, витягти ключову інформацію з фінансового звіту або провести запитання та відповіді по всій книзі.

У коді можна безпосередньо генерувати код з тексту, навіть відтворювати процес кодування на основі статей. Це велике досягнення в порівнянні з ранніми сайтами, які генерували код на основі ескізів.

У сценаріях тривалих діалогів можна реалізувати більш яскраве рольове виконання. Вводячи специфічні тексти персонажів, налаштовуючи інтонацію та характер, можна вести однобічну розмову з віртуальними персонажами.

Ці приклади свідчать про те, що діалогові роботи розвиваються в напрямку спеціалізації, індивідуалізації та поглиблення, що, можливо, стане ще одним важелем для впровадження в промисловість.

Є компанії, які націлені на наступний супердодаток для споживачів: на основі технології довгих текстів, що стала проривом, створити кілька додатків на базі основної моделі. Засновник компанії прогнозує, що ринок великих моделей в країні розділиться на два табори: підприємства та споживачі, і на споживчому ринку з'являться супердодатки на основі самостійно розроблених моделей.

Проте, на сьогоднішній день на ринку ще є великий простір для оптимізації довгих текстових діалогів. Наприклад, деякі з них не підтримують підключення до Інтернету для отримання нової інформації, під час генерації неможливо призупинити та внести зміни, навіть якщо є фонові матеріали, можуть виникати помилки в інформації.

Технічні труднощі довгих текстів

У сфері технологій обробки довгих текстів існує "трикутник неможливості" між довжиною тексту, увагою та обчислювальною потужністю.

Це проявляється в тому, що: чим довший текст, тим важче зосередитися на ньому; коли увага обмежена, короткий текст важко повністю інтерпретувати складну інформацію; обробка довгих текстів вимагає великої обчислювальної потужності, що підвищує витрати.

Корінь цієї дилеми полягає в тому, що більшість моделей ґрунтуються на структурі Transformer. Найважливіший механізм самостійної уваги в цій структурі, хоча і дозволяє моделям гнучко аналізувати зв'язки між інформацією, однак обсяг обчислень зростає в квадраті з підвищенням довжини контексту.

Деякі дослідження показують, що занадто довгий контекст значно знижує частку релевантної інформації, і здавалося б, важко уникнути збільшення розсіювання уваги. Це створює суперечність між довжиною тексту та увагою і є основною причиною, чому технології великих моделей не можуть подолати проблему з довгими текстами.

Водночас, обчислювальна потужність завжди була дефіцитним ресурсом. У процесі реального впровадження підприємствам важко надати значну підтримку обчислювальної потужності, що вимагає від постачальників суворо контролювати споживання обчислювальної потужності при розширенні параметрів моделі або довжини тексту. Але для того, щоб подолати технологію довших текстів, зазвичай потрібно більше обчислювальної потужності, що створює ще один конфлікт між довжиною тексту та обчислювальною потужністю.

На це експерти в галузі заявили, що в даний час немає єдиного рішення для моделювання довгих текстів великими моделями, а корінь проблеми полягає в самій структурі Transformer, в той час як нова архітектура вже розробляється.

На сьогодні існує три основні підходи до вирішення проблеми:

  1. Використання зовнішніх інструментів моделі для обробки довгих текстів. Основний метод полягає в розділенні довгого тексту на кілька коротких текстів для обробки, завантажуючи лише потрібні фрагменти короткого тексту кожного разу, уникаючи проблеми, коли модель не може одночасно прочитати весь довгий текст.

  2. Перебудова способу обчислення самостійної уваги. Наприклад, розділити довгі тексти на різні групи, виконувати обчислення в межах кожної групи, а не обчислювати відносини між кожним словом, щоб зменшити обсяг обчислень і підвищити швидкість.

  3. Оптимізуйте саму модель. Наприклад, налаштуйте існуючу модель, щоб вона могла екстраполювати на довші послідовності; або зменште кількість параметрів, щоб підвищити довжину контексту.

В даний час "трикутник неможливості" для довгих текстів, ймовірно, ще не має вирішення, але це також чітко визначило напрямок досліджень виробників великих моделей: знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб можна було обробляти достатню кількість інформації, водночас враховуючи обмеження на обчислювальну потужність та витрати на увагу.

TOKEN-3.66%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити