Долгосрочная обработка текста: новые стандарты больших моделей, вызов "Нечестивая Троица"

Долгосрочные возможности: новая "стандартная комплектация" больших моделей

От 4000 до 400000 токенов, большая модель значительно увеличивает свою способность обрабатывать длинные тексты.

Способность обрабатывать длинные тексты, похоже, стала еще одной новой "стандартной" функцией для производителей больших моделей.

На международной арене OpenAI несколько раз обновляла GPT-3.5, увеличив длину входного контекста с 4000 до 16000 токенов, а GPT-4 — с 8000 до 32000 токенов. Его конкурент Anthropic единовременно расширил длину контекста до 100000 токенов. LongLLaMA расширила длину контекста до 256000 токенов и даже больше.

В стране некоторые стартапы с большими моделями также достигли прорыва в этой области. Например, продукт интеллектуального помощника, выпущенный одной компанией, может поддерживать ввод 200 000 китайских иероглифов, что соответствует примерно 400 000 токенов. Кроме того, исследовательская команда разработала новую технологию LongLoRA, которая может увеличить длину текста модели 7B до 100 000 токенов, а модели 70B до 32 000 токенов.

В настоящее время многие ведущие компании и исследовательские учреждения в области технологий крупных моделей как внутри страны, так и за рубежом делают акцент на расширении длины контекста в качестве приоритета обновления.

Большинство из этих компаний и учреждений пользуются благосклонностью капитальных рынков. Например, OpenAI привлекла почти 12 миллиардов долларов инвестиций; последняя оценка Anthropic может достигать 30 миллиардов долларов; отечественная компания, основанная всего полгода назад, также быстро завершила несколько раундов финансирования, и ее рыночная оценка уже превышает 300 миллионов долларов.

Почему компании с большими моделями придают такое большое значение технологиям длинных текстов? Что означает увеличение длины контекста в 100 раз?

На первый взгляд, это означает, что длина вводимого текста становится все длиннее, а способность модели к чтению все сильнее. Сначала она могла прочитать только короткий текст, а теперь может обрабатывать целый роман.

С более глубоким пониманием, технологии длинного текста способствуют применению крупных моделей в таких профессиональных областях, как финансы, юстиция и научные исследования. В этих областях способности к аннотированию, пониманию и ответам на вопросы длинных документов являются основными требованиями и направлением, требующим срочной интеллектуальной модернизации.

Однако длина текста не всегда является показателем его качества. Исследования показывают, что нельзя прямо проводить параллель между поддержкой модели более длинного контекстного ввода и лучшими результатами модели. Действительно ключевым является то, как эффективно модель использует контент контекста.

На данный момент исследования длины текста как в стране, так и за рубежом еще далеки от предельных значений. 400,000 токенов может быть лишь началом, и многие компании продолжают преодолевать этот технологический барьер.

Почему необходимо улучшить способность обработки длинных текстов?

Основатель одной из компаний по разработке больших моделей заявил, что именно из-за ограниченной длины ввода возникли проблемы с реализацией многих приложений больших моделей. Это также является причиной, по которой многие компании в настоящее время сосредоточены на технологиях длинных текстов.

Например, в сценах с виртуальными персонажами из-за недостатка способности к длинным текстам виртуальные персонажи могут забывать важную информацию. При разработке сценарных игр, если длины ввода недостаточно, можно только сократить правила и настройки, что влияет на качество игры. В таких профессиональных областях, как право и финансы, глубокий анализ и генерация контента часто сталкиваются с ограничениями.

На пути к будущим приложениям ИИ длинные тексты по-прежнему играют важную роль. ИИ-агенты нуждаются в исторической информации для принятия решений, а нативные приложения ИИ требуют контекста для поддержания последовательного и персонализированного пользовательского опыта.

Основатель считает, что независимо от того, является ли это текстом, речью или видео, без损压缩 больших объемов данных может обеспечить высокий уровень интеллекта. Пределы больших моделей определяются как способностью на одном шаге, так и количеством шагов выполнения, при этом способность на одном шаге связана с количеством параметров, а количество шагов выполнения соответствует длине контекста.

Тем не менее, даже модели с большим количеством параметров трудно полностью избежать проблемы галлюцинаций. В отличие от коротких текстов, длинные тексты могут предоставить больше контекста и подробной информации, что помогает модели более точно определять семантику, уменьшать двусмысленность и повышать точность вывода.

Таким образом, технологии длинных текстов могут решить некоторые проблемы ранних моделей большого размера и являются одной из ключевых технологий для продвижения промышленного применения. Это также указывает на то, что универсальные большие модели вступают в новую стадию, переходя от LLM к эпохе Long LLM.

С помощью некоторых новых выпущенных продуктов мы можем заглянуть в обновленные функции больших моделей Long LLM.

Сначала проводится извлечение, суммирование и анализ ключевой информации из сверхдлинного текста. Например, можно быстро проанализировать основную идею статьи, извлечь ключевую информацию из финансового отчета или провести вопросы и ответы по целой книге.

В коде можно реализовать прямое преобразование текста в код, а также воспроизведение процесса кодирования на основе статей. Это шаг вперед по сравнению с ранними сайтами, генерирующими код с помощью эскизов.

В длинных диалогах возможно более яркое ролевое взаимодействие. Вводя корпус текста конкретных персонажей, устанавливая интонацию и характер, можно вести диалог один на один с виртуальными персонажами.

Эти примеры показывают, что диалоговые роботы движутся в сторону профессионализации, персонализации и углубления, что может стать еще одним рычагом для внедрения в промышленность.

Некоторые компании нацелены на создание следующего суперприложения для потребителей: с использованием технологий длинного текста в качестве прорыва, на основе базовой модели будут развиваться несколько приложений. Основатель компании прогнозирует, что рынок крупных моделей в стране разделится на два лагеря: корпоративный и потребительский, и на потребительском рынке появятся суперприложения на основе собственных моделей.

Однако в настоящее время на рынке диалоговых систем с длинными текстами все еще есть большие возможности для оптимизации. Например, некоторые из них не поддерживают подключение к сети для получения актуальной информации, в процессе генерации невозможно приостановить и внести изменения, и даже при наличии фоновых данных могут возникать ошибки и другие проблемы.

Технические проблемы длинного текста

В области технологий длинных текстов существует "недостижимый треугольник" между длиной текста, вниманием и вычислительной мощностью.

Это проявляется в том, что: чем длиннее текст, тем сложнее сосредоточить достаточное внимание; когда внимание ограничено, короткие тексты сложно полностью интерпретировать сложную информацию; для обработки длинных текстов требуется большое количество вычислительной мощности, что увеличивает затраты.

Корень этой проблемы заключается в том, что большинство моделей основаны на структуре Transformer. В этой структуре наиболее важный механизм самовнимания, хотя и позволяет моделям гибко анализировать отношения между информацией, но его вычислительная нагрузка возрастает квадратично с увеличением длины контекста.

Некоторые исследования показывают, что слишком длинный контекст значительно снижает долю релевантной информации, и, похоже, трудно избежать увеличения рассеяния внимания. Это создает противоречие между длиной текста и вниманием, а также является основной причиной, по которой технологии длинного текста больших моделей трудно преодолеть.

В то же время вычислительная мощность остается дефицитом. На практике предприятиям трудно предоставить большую поддержку вычислительной мощности, что требует от производителей строгого контроля потребления вычислительной мощности при расширении параметров модели или длины текста. Однако для преодоления технологий более длинного текста часто требуется больше вычислительной мощности, что создает очередное противоречие между длиной текста и вычислительной мощностью.

По этому поводу эксперты отрасли отметили, что в настоящее время нет единого решения для моделирования длинных текстов с использованием больших моделей, и причиной этого является структура самого трансформера, в то время как новая архитектура уже разрабатывается.

В настоящее время существует три основных подхода к решению проблемы:

  1. Используйте внешние инструменты модели для обработки длинных текстов. Основной метод заключается в разбиении длинного текста на несколько коротких текстов для обработки, загружая только необходимые короткие фрагменты текста, избегая проблемы, когда модель не может прочитать весь длинный текст за раз.

  2. Перестроить способ вычисления самовнимания. Например, разделить длинный текст на разные группы и выполнять вычисления внутри каждой группы, а не вычислять отношения между каждым словом, чтобы уменьшить вычислительные затраты и повысить скорость.

  3. Оптимизация самой модели. Например, доработка существующей модели для того, чтобы она могла экстраполировать на более длинные последовательности; или повышение длины контекста за счет уменьшения количества параметров.

Дилемма "невозможного треугольника" для длинных текстов в настоящее время, возможно, еще не решена, но это также ясно указывает на направление исследований производителей крупных моделей: поиск оптимального баланса между длиной текста, вниманием и вычислительной мощностью, чтобы можно было обрабатывать достаточное количество информации, при этом учитывая ограничения на вычислительные затраты и внимание.

TOKEN-3.66%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить