Uzun Metin İşleme: Büyük Modelin Yeni Standart Özelliği, "Kutsal Olmayan Üçlü" Zorluğunu Aşmak

Uzun Metin Yeteneği: Büyük Modellerin Yeni "Standart Özelliği"

4000 ile 400.000 token arasında, büyük modeller uzun metinleri işleme yeteneklerini önemli bir hızla artırıyor.

Uzun metin işleme yeteneği, görünüşe göre büyük model üreticileri için bir başka yeni "standart özellik" haline gelmiştir.

Uluslararası alanda, OpenAI birçok güncelleme ile GPT-3.5'in bağlam giriş uzunluğunu 4 bin token'dan 16 bin token'a, GPT-4'ü ise 8 bin token'dan 32 bin token'a çıkardı. Rakibi Anthropic, bağlam uzunluğunu bir seferde 100 bin token'a genişletti. LongLLaMA ise bağlam uzunluğunu 256 bin token'a hatta daha fazlasına genişletti.

Ülkede, bazı büyük model girişim şirketleri bu alanda da atılımlar yaptı. Örneğin, bir şirketin piyasaya sürdüğü akıllı asistan ürünü, 200 bin Çince karakter girişi destekleyebiliyor, bu da yaklaşık 400 bin token'a eşdeğer. Ayrıca, bir araştırma ekibi tarafından geliştirilen yeni teknoloji LongLoRA, 7B modelinin metin uzunluğunu 100 bin token'a, 70B modelini ise 32 bin token'a kadar uzatabiliyor.

Şu anda, hem yurtiçinde hem de yurtdışında birçok önde gelen büyük model teknoloji şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi güncelleme ve yükseltmenin odak noktası olarak belirlemiştir.

Bu şirketler ve kurumlar genellikle sermaye piyasalarının ilgisini çekmektedir. Örneğin, OpenAI yaklaşık 12 milyar dolar yatırım aldı; Anthropic'in son değeri 30 milyar dolara ulaşabilir; sadece altı ay önce kurulan bir yerli şirket de hızlı bir şekilde birçok finansman turunu tamamlayarak piyasa değerini 300 milyon doların üzerine çıkardı.

Büyük model şirketleri neden uzun metin teknolojisine bu kadar önem veriyor? Bağlam uzunluğunun 100 kat artması ne anlama geliyor?

Yüzeysel olarak bakıldığında, bu giriş metninin uzunluğunun giderek uzadığı ve modelin okuma yeteneğinin giderek güçlendiği anlamına geliyor. İlk başta sadece kısa bir metni okuyabilen model, şimdi bir romanı işleyebiliyor.

Daha derin bir bakışla, uzun metin teknolojisi büyük modellerin finans, yargı, araştırma gibi uzmanlık alanlarındaki uygulamalarını teşvik ediyor. Bu alanlarda, uzun belgelerin özetlenmesi, anlaşılması ve soru-cevap yetenekleri temel gerekliliklerdir ve akıllı bir şekilde yükseltilmesi gereken bir yön olarak öne çıkmaktadır.

Ancak, metin uzunluğu her zaman daha iyi değildir. Araştırmalar, modelin daha uzun bağlam girdilerini desteklemesi ile modelin performansı arasında doğrudan bir ilişki olmadığını göstermektedir. Asıl önemli olan, modelin bağlam içeriğini ne kadar etkili bir şekilde kullandığıdır.

Şu anda, yurt içinde ve yurt dışında metin uzunluğu üzerindeki keşifler henüz sınırına ulaşmadı. 400.000 token belki sadece bir başlangıç, büyük şirketler bu teknik engeli aşmaya devam ediyor.

Neden uzun metin işleme yeteneğini artırmalıyız?

Bir büyük model şirketinin kurucusu, giriş uzunluğunun sınırlı olmasının birçok büyük model uygulamasının hayata geçmesinde zorluklara neden olduğunu belirtti. Bu, birçok şirketin şu anda uzun metin teknolojisine odaklanmasının nedenidir.

Örneğin, sanal karakter sahnelerinde, uzun metin yeteneklerinin yetersizliği nedeniyle sanal karakterler önemli bilgileri unutabilir. Senaryo tabanlı oyunlar geliştirirken, girdi uzunluğu yetersizse kurallar ve ayarları azaltmak zorunda kalır, bu da oyun deneyimini etkiler. Hukuk, finans gibi uzmanlık alanlarında, derin içerik analizi ve üretimi genellikle sınırlamalarla karşılaşır.

Gelecekteki AI uygulamalarına giden yolda, uzun metinler hala önemli bir rol oynamaktadır. AI ajanları, karar vermek için tarihsel bilgilere dayanmak zorundadır ve yerel AI uygulamaları, tutarlı ve kişiselleştirilmiş bir kullanıcı deneyimi sağlamak için bağlama ihtiyaç duyar.

Kurucu, metin, ses veya video olsun, büyük veri kümesi için kayıpsız sıkıştırmanın yüksek derecede zeka sağlanabileceğini düşünüyor. Büyük modelin sınırı, tek adım yeteneği ve yürütme adım sayısı ile birlikte belirlenmektedir; burada tek adım yeteneği parametre sayısıyla ilgiliyken, yürütme adım sayısı bağlam uzunluğunu ifade eder.

Aynı zamanda, parametre sayısı çok büyük olan modeller bile halüsinasyon sorunundan tamamen kaçınmakta zorluk çekiyor. Kısa metinlere kıyasla, uzun metinler daha fazla bağlam ve ayrıntı bilgisi sağlayarak modelin anlamı daha doğru bir şekilde değerlendirmesine, belirsizliği azaltmasına ve çıkarımın doğruluğunu artırmasına yardımcı olabilir.

Görülebilir ki, uzun metin teknolojisi hem büyük modellerin erken dönemindeki bazı sorunları çözebilir hem de endüstri uygulamalarını ilerletmek için anahtar teknolojilerden biridir. Bu da genel büyük modellerin yeni bir aşamaya geçtiğini, LLM'den Long LLM dönemine geçtiğini göstermektedir.

Yeni yayımlanan bazı ürünler aracılığıyla, Long LLM aşamasındaki büyük modelin yükseltme işlevlerini görebiliriz:

Öncelikle uzun metinlerin anahtar bilgilerini çıkarma, özetleme ve analiz etme işlemleridir. Örneğin, bir makalenin genelini hızlı bir şekilde analiz edebilir, finansal raporların anahtar bilgilerini çıkarabilir veya bir kitabın tamamı hakkında soru-cevap yapabilirsiniz.

Kod açısından, metinden doğrudan kod oluşturmak ve hatta makaleye dayanarak kod sürecini yeniden üretmek mümkündür. Bu, daha önceki taslak oluşturma web sitelerinin kodundan çok daha ileri bir adımdır.

Uzun diyalog sahnelerinde, daha canlı bir rol oynama gerçekleştirilebilir. Belirli karakterlerin metinlerini girerek, ton ve kişilik ayarlayarak sanal karakterle bire bir diyalog kurabilirsiniz.

Bu örnekler, sohbet robotlarının profesyonelleşme, kişiselleşme ve derinleşme yönünde geliştiğini göstermektedir; bu da belki de endüstriyel uygulamaları harekete geçirecek bir başka araçtır.

Bazı şirketler, tüketicilere yönelik bir sonraki süper uygulamayı hedefliyor: uzun metin teknolojisini bir突破 olarak kullanarak, temel modeller üzerinden birçok uygulama türetecekler. Şirketin kurucusu, yerel büyük model pazarının iki cepheye bölüneceğini ve tüketici pazarında kendi geliştirdikleri modellere dayanan süper uygulamaların ortaya çıkacağını öngörüyor.

Ancak, şu anda piyasada uzun metinli diyalog senaryolarının hala büyük bir iyileştirme alanı var. Örneğin, bazıları en son bilgileri almak için internete bağlanmayı desteklemiyor, oluşturma sürecinde duraklatıp düzenleme yapılamıyor, arka plan bilgileri desteklense bile hatalı bilgiler ortaya çıkabiliyor gibi sorunlar var.

Uzun Metinlerin Teknik Sorunları

Uzun metin teknolojisi açısından, metin uzunluğu, dikkat ve hesaplama gücü arasında bir "imkansız üçgen" sıkıntısı vardır.

Bu, metin ne kadar uzunsa, dikkat toplamayı o kadar zorlaştırdığı şeklinde ortaya çıkar; dikkat sınırlı olduğunda, kısa metinler karmaşık bilgileri tam olarak yorumlamakta zorlanır; uzun metinleri işlemek büyük ölçüde hesap gücü gerektirir, bu da maliyetleri artırır.

Bu durumun kökeni, çoğu modelin Transformer yapısına dayanmasındadır. Bu yapıda en önemli bileşen olan kendi dikkat mekanizması, modelin bilgilerin arasındaki ilişkileri esnek bir şekilde analiz etmesini sağlasa da, hesaplama yükü bağlam uzunluğuyla birlikte kare şeklinde artmaktadır.

Bazı araştırmalar, çok uzun bağlamların ilgili bilgilerin oranını önemli ölçüde düşürdüğünü ve dikkat dağınıklığını artırmanın zorunlu hale geldiğini göstermektedir. Bu, metin uzunluğu ile dikkat arasındaki çelişkiyi oluşturmaktadır ve büyük modellerin uzun metin teknolojisinde aşması zor olan temel bir nedendir.

Aynı zamanda, hesaplama gücü her zaman kıt bir kaynak olmuştur. Gerçek dağıtımda, işletme tarafı büyük hesaplama gücü desteği sağlayamıyor, bu da üreticilerin model parametrelerini veya metin uzunluğunu genişletirken hesaplama tüketimini sıkı bir şekilde kontrol etmelerini gerektiriyor. Ancak şu anda daha uzun metin teknolojilerini aşmak genellikle daha fazla hesaplama gücü gerektiriyor ve bu da metin uzunluğu ile hesaplama gücü arasında başka bir çelişki oluşturuyor.

Bu konuda, sektördeki uzmanlar büyük model uzun metin modellemesinin şu anda birleşik bir çözümü olmadığını, sorun kaynağının ise Transformer'ın kendine özgü yapısı olduğunu ifade ediyor ve tamamen yeni bir yapının geliştirilmekte olduğunu belirtiyor.

Şu anda üç farklı çözüm yaklaşımı vardır:

  1. Uzun metinleri işlemek için modelin dışındaki araçlardan yararlanma. Ana yöntem, uzun metni birden fazla kısa metne bölmek, her seferinde yalnızca gerekli kısa metin parçalarını yüklemek ve modelin tüm uzun metni bir seferde okuyamaması sorununu aşmaktır.

  2. Yeniden yapılandırılmış öz-dikkat hesaplama yöntemi. Uzun metinlerin farklı gruplara ayrılması, her grup içinde hesaplama yapılması ve her kelime arasındaki ilişkiyi hesaplamak yerine hesaplama yükünü azaltarak hızı artırmak.

  3. Modelin kendisini optimize edin. Mevcut modelin üzerine ince ayar yaparak, daha uzun dizilere dışa vurum yapabilmesini sağlayın; veya parametre sayısını azaltarak bağlam uzunluğunu artırın.

Uzun metinlerin "imkansız üçgen" sıkıntısının şu anda bir çözümü olmayabilir, ancak bu, büyük model üreticilerinin keşif yönünü de netleştiriyor: Metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi denge noktasını bulmak, yeterli bilgiyi işleyebilmek ve aynı zamanda dikkat hesaplaması ile hesaplama gücü maliyet kısıtlamalarını dikkate almak.

TOKEN-3.66%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 5
  • Repost
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)