Capacidad de texto largo: el nuevo "estándar" de los grandes modelos
De 4000 a 400,000 tokens, los grandes modelos están mejorando su capacidad para procesar textos largos a un ritmo notable.
La capacidad de procesamiento de texto largo parece haberse convertido en un nuevo "estándar" para los fabricantes de grandes modelos.
A nivel internacional, OpenAI ha actualizado varias veces, aumentando la longitud de entrada de contexto de GPT-3.5 de 4,000 a 16,000 tokens, y de GPT-4 de 8,000 a 32,000 tokens. Su competidor Anthropic amplió la longitud del contexto a 100,000 tokens de una sola vez. LongLLaMA, por su parte, ha aumentado la longitud del contexto a 256,000 tokens e incluso más.
En el país, algunas startups de grandes modelos también han logrado avances en este campo. Por ejemplo, un producto de asistente inteligente lanzado por una empresa puede soportar la entrada de 200,000 caracteres chinos, equivalentes a aproximadamente 400,000 tokens. Además, un equipo de investigación ha desarrollado una nueva tecnología llamada LongLoRA, que puede ampliar la longitud de texto de un modelo de 7B a 100,000 tokens y de un modelo de 70B a 32,000 tokens.
Actualmente, varias empresas de tecnología de modelos avanzados y organizaciones de investigación tanto nacionales como internacionales han hecho de la expansión de la longitud del contexto una de sus prioridades en las actualizaciones.
Estas empresas e instituciones son en su mayoría favorecidas por el mercado de capitales. Por ejemplo, OpenAI ha recibido cerca de 12 mil millones de dólares en inversiones; la última valoración de Anthropic podría alcanzar los 30 mil millones de dólares; una empresa nacional que se fundó hace solo medio año también ha completado rápidamente varias rondas de financiación, y su valoración de mercado ya supera los 300 millones de dólares.
¿Por qué las empresas de grandes modelos valoran tanto la tecnología de texto largo? ¿Qué significa expandir la longitud del contexto 100 veces?
A primera vista, esto significa que la longitud del texto que se puede ingresar es cada vez más larga, y la capacidad de lectura del modelo se está volviendo más fuerte. Desde que inicialmente solo podía leer un artículo corto, hasta ahora puede manejar una novela larga.
A un nivel más profundo, la tecnología de texto largo está impulsando la aplicación de grandes modelos en campos profesionales como las finanzas, la justicia y la investigación científica. En estos campos, la capacidad de resumir, comprender y responder a documentos largos es un requisito básico y también una dirección que necesita una actualización inteligente.
Sin embargo, la longitud del texto no siempre es mejor. Los estudios muestran que no se puede establecer una relación directa entre el soporte de entradas de contexto más largas y un mejor rendimiento del modelo. Lo realmente clave es cómo el modelo utiliza eficazmente el contenido del contexto.
Actualmente, la exploración de la longitud del texto a nivel nacional e internacional aún no ha alcanzado su límite. 400,000 tokens puede ser solo un comienzo, y las grandes empresas continúan superando esta barrera tecnológica.
¿Por qué es importante mejorar la capacidad de procesamiento de texto largo?
Un fundador de una empresa de modelos grandes ha declarado que la limitación en la longitud de entrada ha causado muchas dificultades para la implementación de aplicaciones de modelos grandes. Esta es también la razón por la que muchas empresas se están enfocando actualmente en la tecnología de texto largo.
Por ejemplo, en escenas de personajes virtuales, debido a la insuficiencia de capacidad de texto largo, los personajes virtuales olvidan información importante. Al desarrollar juegos de tipo guion, si la longitud de entrada es insuficiente, solo se pueden reducir las reglas y configuraciones, lo que afecta el efecto del juego. En campos profesionales como el derecho y las finanzas, el análisis y la generación de contenido profundo a menudo se ven limitados.
En el camino hacia las aplicaciones de IA del futuro, los textos largos siguen desempeñando un papel importante. Los agentes de IA necesitan confiar en la información histórica para tomar decisiones, y las aplicaciones nativas de IA requieren contexto para mantener una experiencia de usuario coherente y personalizada.
El fundador cree que, ya sea texto, voz o video, la compresión sin pérdida de grandes volúmenes de datos puede lograr un alto grado de inteligencia. El límite de los grandes modelos está determinado por la capacidad de un solo paso y el número de pasos de ejecución, donde la capacidad de un solo paso está relacionada con la cantidad de parámetros, y el número de pasos de ejecución se refiere a la longitud del contexto.
Al mismo tiempo, incluso los modelos con una gran cantidad de parámetros tienen dificultades para evitar por completo el problema de las alucinaciones. En comparación con los textos cortos, los textos largos pueden proporcionar más contexto e información detallada, ayudando al modelo a juzgar la semántica con mayor precisión, reducir la ambigüedad y mejorar la exactitud del razonamiento.
Como se puede ver, la tecnología de textos largos no solo puede resolver algunos problemas tempranos de los grandes modelos, sino que también es una de las tecnologías clave para impulsar las aplicaciones industriales. Esto también indica que los grandes modelos generales están entrando en una nueva etapa, pasando de LLM a la era de Long LLM.
A través de algunos productos recién lanzados, podemos vislumbrar las funciones de actualización del modelo a gran escala de Long LLM.
Primero, se realiza la extracción, resumen y análisis de información clave de textos muy largos. Por ejemplo, se puede analizar rápidamente el contenido principal de un artículo, extraer información clave de informes financieros o realizar preguntas sobre un libro completo.
En términos de código, se puede generar código directamente a partir de texto, e incluso reproducir el proceso de código basado en un artículo. Esto es un gran avance en comparación con los sitios web de generación de código a partir de bocetos en etapas anteriores.
En escenas de diálogos largos, se puede lograr una interpretación de personajes más vívida. Al ingresar el corpus de personajes específicos, establecer el tono y la personalidad, se puede tener una conversación uno a uno con personajes virtuales.
Estos ejemplos muestran que los chatbots están avanzando hacia una dirección de especialización, personalización y profundización, lo que podría ser otra palanca para impulsar la aplicación industrial.
Una empresa está apuntando hacia la próxima superaplicación orientada al consumidor: con tecnología de texto largo como avance, derivando múltiples aplicaciones de un modelo básico. El fundador de la empresa predice que el mercado nacional de modelos grandes se dividirá en dos campos, empresas y consumidores, y en el mercado de consumidores aparecerán superaplicaciones basadas en modelos de desarrollo propio.
Sin embargo, aún hay un gran espacio para la optimización en los escenarios de diálogo de largo texto en el mercado actual. Por ejemplo, algunos no admiten la conexión a Internet para obtener la información más reciente, no se puede pausar y modificar durante el proceso de generación, y pueden aparecer errores incluso con el apoyo de información de fondo.
El desafío técnico de los textos largos
En la tecnología de texto largo, existe la paradoja de "triángulo imposible" entre la longitud del texto, la atención y la potencia de cálculo.
Esto se manifiesta en que: cuanto más largo es el texto, más difícil es reunir la atención suficiente; cuando la atención es limitada, los textos cortos son difíciles de interpretar completamente la información compleja; procesar textos largos requiere una gran cantidad de capacidad de cálculo, lo que aumenta los costos.
La raíz de este dilema radica en que la mayoría de los modelos se basan en la estructura Transformer. El mecanismo de autoatención más importante en esta estructura, aunque permite que el modelo analice de manera flexible las relaciones entre la información, su carga computacional aumenta de forma cuadrática con la longitud del contexto.
Algunos estudios indican que un contexto demasiado largo puede hacer que la proporción de información relevante disminuya significativamente, y parece que la dispersión de la atención es difícil de evitar. Esto constituye una contradicción entre la longitud del texto y la atención, y también es la razón fundamental por la cual las tecnologías de texto largo de los modelos grandes son difíciles de superar.
Al mismo tiempo, la potencia de cálculo ha sido un recurso escaso. En la implementación práctica, las empresas tienen dificultades para proporcionar un gran soporte de potencia de cálculo, lo que requiere que los fabricantes controlen estrictamente el consumo de potencia de cálculo al expandir los parámetros del modelo o la longitud del texto. Pero actualmente, para superar la tecnología de textos más largos, a menudo se necesita más potencia de cálculo, lo que genera otra contradicción entre la longitud del texto y la potencia de cálculo.
Al respecto, los expertos de la industria afirman que actualmente no existe una solución unificada para el modelado de textos largos con modelos grandes, y la raíz del problema radica en la propia estructura del Transformer, mientras que una nueva arquitectura ya está en desarrollo.
Actualmente hay tres enfoques diferentes para resolver esto:
Utilizar herramientas externas al modelo para ayudar en el procesamiento de textos largos. El método principal es dividir el texto largo en múltiples textos cortos, cargando solo el fragmento corto requerido cada vez, evitando así el problema de que el modelo no puede leer todo el texto largo de una vez.
Reconstruir la forma de cálculo de autoatención. Por ejemplo, dividir textos largos en diferentes grupos y realizar cálculos dentro de cada grupo, en lugar de calcular la relación entre cada palabra, para reducir la carga computacional y aumentar la velocidad.
Optimizar el modelo en sí. Por ejemplo, ajustar finamente el modelo existente para que pueda extrapolar a secuencias más largas; o aumentar la longitud del contexto reduciendo la cantidad de parámetros.
El dilema del "triángulo imposible" de los textos largos actualmente puede no tener solución, pero esto también aclara la dirección de exploración de los fabricantes de grandes modelos: buscar el mejor punto de equilibrio entre la longitud del texto, la atención y la capacidad de cálculo, que pueda manejar suficiente información y al mismo tiempo considerar las limitaciones de cálculo de atención y costo de cómputo.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Procesamiento de texto largo: el nuevo estándar de los grandes modelos desafía la "Unholy Trinity".
Capacidad de texto largo: el nuevo "estándar" de los grandes modelos
De 4000 a 400,000 tokens, los grandes modelos están mejorando su capacidad para procesar textos largos a un ritmo notable.
La capacidad de procesamiento de texto largo parece haberse convertido en un nuevo "estándar" para los fabricantes de grandes modelos.
A nivel internacional, OpenAI ha actualizado varias veces, aumentando la longitud de entrada de contexto de GPT-3.5 de 4,000 a 16,000 tokens, y de GPT-4 de 8,000 a 32,000 tokens. Su competidor Anthropic amplió la longitud del contexto a 100,000 tokens de una sola vez. LongLLaMA, por su parte, ha aumentado la longitud del contexto a 256,000 tokens e incluso más.
En el país, algunas startups de grandes modelos también han logrado avances en este campo. Por ejemplo, un producto de asistente inteligente lanzado por una empresa puede soportar la entrada de 200,000 caracteres chinos, equivalentes a aproximadamente 400,000 tokens. Además, un equipo de investigación ha desarrollado una nueva tecnología llamada LongLoRA, que puede ampliar la longitud de texto de un modelo de 7B a 100,000 tokens y de un modelo de 70B a 32,000 tokens.
Actualmente, varias empresas de tecnología de modelos avanzados y organizaciones de investigación tanto nacionales como internacionales han hecho de la expansión de la longitud del contexto una de sus prioridades en las actualizaciones.
Estas empresas e instituciones son en su mayoría favorecidas por el mercado de capitales. Por ejemplo, OpenAI ha recibido cerca de 12 mil millones de dólares en inversiones; la última valoración de Anthropic podría alcanzar los 30 mil millones de dólares; una empresa nacional que se fundó hace solo medio año también ha completado rápidamente varias rondas de financiación, y su valoración de mercado ya supera los 300 millones de dólares.
¿Por qué las empresas de grandes modelos valoran tanto la tecnología de texto largo? ¿Qué significa expandir la longitud del contexto 100 veces?
A primera vista, esto significa que la longitud del texto que se puede ingresar es cada vez más larga, y la capacidad de lectura del modelo se está volviendo más fuerte. Desde que inicialmente solo podía leer un artículo corto, hasta ahora puede manejar una novela larga.
A un nivel más profundo, la tecnología de texto largo está impulsando la aplicación de grandes modelos en campos profesionales como las finanzas, la justicia y la investigación científica. En estos campos, la capacidad de resumir, comprender y responder a documentos largos es un requisito básico y también una dirección que necesita una actualización inteligente.
Sin embargo, la longitud del texto no siempre es mejor. Los estudios muestran que no se puede establecer una relación directa entre el soporte de entradas de contexto más largas y un mejor rendimiento del modelo. Lo realmente clave es cómo el modelo utiliza eficazmente el contenido del contexto.
Actualmente, la exploración de la longitud del texto a nivel nacional e internacional aún no ha alcanzado su límite. 400,000 tokens puede ser solo un comienzo, y las grandes empresas continúan superando esta barrera tecnológica.
¿Por qué es importante mejorar la capacidad de procesamiento de texto largo?
Un fundador de una empresa de modelos grandes ha declarado que la limitación en la longitud de entrada ha causado muchas dificultades para la implementación de aplicaciones de modelos grandes. Esta es también la razón por la que muchas empresas se están enfocando actualmente en la tecnología de texto largo.
Por ejemplo, en escenas de personajes virtuales, debido a la insuficiencia de capacidad de texto largo, los personajes virtuales olvidan información importante. Al desarrollar juegos de tipo guion, si la longitud de entrada es insuficiente, solo se pueden reducir las reglas y configuraciones, lo que afecta el efecto del juego. En campos profesionales como el derecho y las finanzas, el análisis y la generación de contenido profundo a menudo se ven limitados.
En el camino hacia las aplicaciones de IA del futuro, los textos largos siguen desempeñando un papel importante. Los agentes de IA necesitan confiar en la información histórica para tomar decisiones, y las aplicaciones nativas de IA requieren contexto para mantener una experiencia de usuario coherente y personalizada.
El fundador cree que, ya sea texto, voz o video, la compresión sin pérdida de grandes volúmenes de datos puede lograr un alto grado de inteligencia. El límite de los grandes modelos está determinado por la capacidad de un solo paso y el número de pasos de ejecución, donde la capacidad de un solo paso está relacionada con la cantidad de parámetros, y el número de pasos de ejecución se refiere a la longitud del contexto.
Al mismo tiempo, incluso los modelos con una gran cantidad de parámetros tienen dificultades para evitar por completo el problema de las alucinaciones. En comparación con los textos cortos, los textos largos pueden proporcionar más contexto e información detallada, ayudando al modelo a juzgar la semántica con mayor precisión, reducir la ambigüedad y mejorar la exactitud del razonamiento.
Como se puede ver, la tecnología de textos largos no solo puede resolver algunos problemas tempranos de los grandes modelos, sino que también es una de las tecnologías clave para impulsar las aplicaciones industriales. Esto también indica que los grandes modelos generales están entrando en una nueva etapa, pasando de LLM a la era de Long LLM.
A través de algunos productos recién lanzados, podemos vislumbrar las funciones de actualización del modelo a gran escala de Long LLM.
Primero, se realiza la extracción, resumen y análisis de información clave de textos muy largos. Por ejemplo, se puede analizar rápidamente el contenido principal de un artículo, extraer información clave de informes financieros o realizar preguntas sobre un libro completo.
En términos de código, se puede generar código directamente a partir de texto, e incluso reproducir el proceso de código basado en un artículo. Esto es un gran avance en comparación con los sitios web de generación de código a partir de bocetos en etapas anteriores.
En escenas de diálogos largos, se puede lograr una interpretación de personajes más vívida. Al ingresar el corpus de personajes específicos, establecer el tono y la personalidad, se puede tener una conversación uno a uno con personajes virtuales.
Estos ejemplos muestran que los chatbots están avanzando hacia una dirección de especialización, personalización y profundización, lo que podría ser otra palanca para impulsar la aplicación industrial.
Una empresa está apuntando hacia la próxima superaplicación orientada al consumidor: con tecnología de texto largo como avance, derivando múltiples aplicaciones de un modelo básico. El fundador de la empresa predice que el mercado nacional de modelos grandes se dividirá en dos campos, empresas y consumidores, y en el mercado de consumidores aparecerán superaplicaciones basadas en modelos de desarrollo propio.
Sin embargo, aún hay un gran espacio para la optimización en los escenarios de diálogo de largo texto en el mercado actual. Por ejemplo, algunos no admiten la conexión a Internet para obtener la información más reciente, no se puede pausar y modificar durante el proceso de generación, y pueden aparecer errores incluso con el apoyo de información de fondo.
El desafío técnico de los textos largos
En la tecnología de texto largo, existe la paradoja de "triángulo imposible" entre la longitud del texto, la atención y la potencia de cálculo.
Esto se manifiesta en que: cuanto más largo es el texto, más difícil es reunir la atención suficiente; cuando la atención es limitada, los textos cortos son difíciles de interpretar completamente la información compleja; procesar textos largos requiere una gran cantidad de capacidad de cálculo, lo que aumenta los costos.
La raíz de este dilema radica en que la mayoría de los modelos se basan en la estructura Transformer. El mecanismo de autoatención más importante en esta estructura, aunque permite que el modelo analice de manera flexible las relaciones entre la información, su carga computacional aumenta de forma cuadrática con la longitud del contexto.
Algunos estudios indican que un contexto demasiado largo puede hacer que la proporción de información relevante disminuya significativamente, y parece que la dispersión de la atención es difícil de evitar. Esto constituye una contradicción entre la longitud del texto y la atención, y también es la razón fundamental por la cual las tecnologías de texto largo de los modelos grandes son difíciles de superar.
Al mismo tiempo, la potencia de cálculo ha sido un recurso escaso. En la implementación práctica, las empresas tienen dificultades para proporcionar un gran soporte de potencia de cálculo, lo que requiere que los fabricantes controlen estrictamente el consumo de potencia de cálculo al expandir los parámetros del modelo o la longitud del texto. Pero actualmente, para superar la tecnología de textos más largos, a menudo se necesita más potencia de cálculo, lo que genera otra contradicción entre la longitud del texto y la potencia de cálculo.
Al respecto, los expertos de la industria afirman que actualmente no existe una solución unificada para el modelado de textos largos con modelos grandes, y la raíz del problema radica en la propia estructura del Transformer, mientras que una nueva arquitectura ya está en desarrollo.
Actualmente hay tres enfoques diferentes para resolver esto:
Utilizar herramientas externas al modelo para ayudar en el procesamiento de textos largos. El método principal es dividir el texto largo en múltiples textos cortos, cargando solo el fragmento corto requerido cada vez, evitando así el problema de que el modelo no puede leer todo el texto largo de una vez.
Reconstruir la forma de cálculo de autoatención. Por ejemplo, dividir textos largos en diferentes grupos y realizar cálculos dentro de cada grupo, en lugar de calcular la relación entre cada palabra, para reducir la carga computacional y aumentar la velocidad.
Optimizar el modelo en sí. Por ejemplo, ajustar finamente el modelo existente para que pueda extrapolar a secuencias más largas; o aumentar la longitud del contexto reduciendo la cantidad de parámetros.
El dilema del "triángulo imposible" de los textos largos actualmente puede no tener solución, pero esto también aclara la dirección de exploración de los fabricantes de grandes modelos: buscar el mejor punto de equilibrio entre la longitud del texto, la atención y la capacidad de cálculo, que pueda manejar suficiente información y al mismo tiempo considerar las limitaciones de cálculo de atención y costo de cómputo.