Acabo de ver que PrismML sacó algo bastante interesante: la serie Ternary Bonsai de modelos de lenguaje. Lo que me llamó la atención es que lograron reducir drásticamente el consumo de memoria GPU, bajando a una novena parte comparado con modelos de 16 bits. Básicamente usan pesos ternarios de 1.58 bits que solo pueden tomar tres valores: -1, 0 o +1. Suena técnico, pero la idea es eliminar conexiones redundantes de la red neuronal para mejorar el razonamiento sin sacrificar rendimiento.



La parte interesante del precio y la accesibilidad es que el modelo Bonsai 8B ocupa solo 1.75 GB de almacenamiento en pesos, lo que lo hace súper práctico para dispositivos edge. Comparado con alternativas más pesadas, el costo-beneficio es bastante favorable. Alcanzan un promedio de 75.5 en benchmarks, superando incluso a su predecesor de 1 bit y a modelos densos similares. Lo mejor es que funciona nativamente en dispositivos Apple, así que no necesitas workarounds raros.

En términos de velocidad, en un iPhone 17 Pro Max logran 27 tokens por segundo con una eficiencia energética 3 a 4 veces mejor. Eso es un salto significativo para inferencia en dispositivos móviles. Ahora tienen disponibles modelos de 8B, 4B y 1.7B parámetros, todos open source en Hugging Face bajo Apache 2.0. Para desarrolladores que buscan soluciones de IA de alto rendimiento sin gastar una fortuna en infraestructura, estos modelos Bonsai parecen una opción bastante sólida.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado