Pengolahan Teks Panjang: Standar Baru Model Besar Tantangan "Unholy Trinity"

Kemampuan Teks Panjang: "Standar Baru" untuk Model Besar

4000 hingga 400.000 token, model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan yang signifikan.

Kemampuan pemrosesan teks panjang tampaknya telah menjadi "standar baru" bagi produsen model besar.

Secara internasional, OpenAI telah melakukan beberapa pembaruan, meningkatkan panjang input konteks GPT-3.5 dari 4.000 menjadi 16.000 token, dan GPT-4 dari 8.000 menjadi 32.000 token. Pesaingnya, Anthropic, sekaligus memperluas panjang konteks menjadi 100.000 token. LongLLaMA bahkan memperluas panjang konteks menjadi 256.000 token atau lebih.

Di dalam negeri, beberapa perusahaan rintisan model besar juga telah mencapai terobosan di bidang ini. Misalnya, produk asisten pintar yang diluncurkan oleh sebuah perusahaan dapat mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Selain itu, tim penelitian telah mengembangkan teknologi baru LongLoRA, yang dapat memperluas panjang teks model 7B hingga 100.000 token dan model 70B hingga 32.000 token.

Saat ini, banyak perusahaan teknologi model besar dan lembaga penelitian terkemuka di dalam dan luar negeri menjadikan perpanjangan panjang konteks sebagai fokus pembaruan dan peningkatan.

Sebagian besar perusahaan dan lembaga ini mendapat perhatian dari pasar modal. Misalnya, OpenAI menerima investasi hampir 12 miliar dolar; valuasi terbaru Anthropic mungkin mencapai 30 miliar dolar; sebuah perusahaan domestik yang baru berdiri selama setengah tahun juga dengan cepat menyelesaikan beberapa putaran pendanaan, dengan valuasi pasar sudah melebihi 300 juta dolar.

Mengapa perusahaan model besar sangat memperhatikan teknologi teks panjang? Apa arti dari peningkatan panjang konteks hingga 100 kali?

Secara permukaan, ini berarti panjang teks yang dapat dimasukkan semakin panjang, kemampuan membaca model semakin kuat. Dari awal yang hanya bisa membaca sebuah artikel pendek, sekarang dapat menangani sebuah novel panjang.

Melihat lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Di bidang-bidang ini, kemampuan untuk merangkum, memahami, dan menjawab pertanyaan dari dokumen panjang adalah persyaratan dasar, serta arah yang mendesak untuk peningkatan kecerdasan.

Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa tidak ada hubungan langsung antara dukungan model untuk input konteks yang lebih panjang dan kinerja model yang lebih baik. Yang benar-benar penting adalah bagaimana model memanfaatkan konten konteks dengan efektif.

Saat ini, eksplorasi panjang teks di dalam dan luar negeri belum mencapai batasnya. 400.000 token mungkin hanya permulaan, dan berbagai perusahaan masih terus menerobos batasan teknologi ini.

Mengapa perlu meningkatkan kemampuan pemrosesan teks panjang?

Seorang pendiri perusahaan model besar menyatakan, bahwa karena panjang input yang terbatas, banyak aplikasi model besar mengalami kesulitan dalam penerapan. Ini juga merupakan alasan mengapa banyak perusahaan saat ini fokus pada teknologi teks panjang.

Misalnya, dalam skenario karakter virtual, karena kemampuan teks yang panjang tidak mencukupi, karakter virtual akan melupakan informasi penting. Ketika mengembangkan permainan jenis skrip, jika panjang input tidak cukup, hanya bisa mengurangi aturan dan pengaturan, yang mempengaruhi efek permainan. Dalam bidang profesional seperti hukum dan keuangan, analisis dan generasi konten yang mendalam seringkali terbatas.

Di jalan menuju aplikasi AI masa depan, teks panjang masih memainkan peran penting. Agen AI perlu bergantung pada informasi sejarah untuk mengambil keputusan, dan aplikasi AI asli memerlukan konteks untuk menjaga pengalaman pengguna yang koheren dan personal.

Pendiri tersebut percaya bahwa, baik itu teks, suara, atau video, kompresi tanpa kerugian untuk data besar dapat mencapai tingkat kecerdasan yang tinggi. Batasan dari model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana kemampuan langkah tunggal terkait dengan jumlah parameter, sedangkan jumlah langkah eksekusi adalah panjang konteks.

Sementara itu, bahkan model dengan jumlah parameter yang besar pun sulit untuk sepenuhnya menghindari masalah ilusi. Dibandingkan dengan teks pendek, teks panjang dapat memberikan lebih banyak konteks dan informasi detail, membantu model untuk menilai makna dengan lebih akurat, mengurangi ambiguitas, dan meningkatkan akurasi penalaran.

Terlihat, teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah awal dari model besar, tetapi juga merupakan salah satu teknologi kunci untuk mendorong aplikasi industri. Ini juga menunjukkan bahwa model besar umum sedang memasuki fase baru, dari LLM menuju era Long LLM.

Melalui beberapa produk yang baru dirilis, kita dapat melihat fitur peningkatan dari model besar Long LLM tahap.

Pertama-tama adalah ekstraksi, ringkasan, dan analisis informasi kunci dari teks yang sangat panjang. Misalnya, dapat dengan cepat menganalisis inti artikel, mengekstrak informasi kunci dari laporan keuangan, atau melakukan tanya jawab tentang sebuah buku.

Dalam hal kode, dapat menghasilkan kode langsung dari teks, bahkan mereproduksi proses kode berdasarkan makalah. Ini adalah langkah maju yang signifikan dibandingkan dengan situs web generasi sketsa awal.

Dalam skenario percakapan panjang, peran karakter dapat menjadi lebih hidup. Dengan memasukkan korpus dari karakter tertentu, mengatur nada dan kepribadian, Anda dapat melakukan percakapan satu lawan satu dengan karakter virtual.

Contoh-contoh ini menunjukkan bahwa chatbot sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman, yang mungkin merupakan alat lain untuk mendorong penerapan industri.

Ada perusahaan yang menargetkan aplikasi super yang ditujukan kepada konsumen berikutnya: dengan teknologi teks panjang sebagai terobosan, mengembangkan beberapa aplikasi dari model dasar. Pendiri perusahaan tersebut memprediksi bahwa pasar model besar domestik akan terbagi menjadi dua kubu, yaitu perusahaan dan konsumen, dan di pasar konsumen akan muncul aplikasi super berbasis model yang dikembangkan sendiri.

Namun, saat ini masih ada banyak ruang untuk mengoptimalkan skenario percakapan teks panjang di pasar. Misalnya, beberapa tidak mendukung koneksi internet untuk mendapatkan informasi terbaru, tidak dapat dijeda untuk diedit selama proses pembuatan, dan meskipun ada dukungan materi latar belakang, masih mungkin muncul informasi yang salah.

Tantangan teknis dari teks panjang

Dalam teknologi teks panjang, terdapat dilema "segitiga tak mungkin" antara panjang teks, perhatian, dan daya komputasi.

Ini ditunjukkan oleh: semakin panjang teks, semakin sulit untuk mengumpulkan perhatian yang cukup; ketika perhatian terbatas, teks pendek sulit untuk menginterpretasikan informasi kompleks secara lengkap; memproses teks panjang membutuhkan banyak daya komputasi, yang meningkatkan biaya.

Sumber dari dilema ini terletak pada kenyataan bahwa sebagian besar model didasarkan pada struktur Transformer. Mekanisme perhatian diri yang paling penting dalam struktur ini, meskipun memungkinkan model untuk secara fleksibel menganalisis hubungan antar informasi, tetapi beban komputasinya akan meningkat secara kuadrat seiring dengan bertambahnya panjang konteks.

Beberapa penelitian menunjukkan bahwa konteks yang terlalu panjang akan secara signifikan mengurangi proporsi informasi yang relevan, dan tampaknya sulit untuk menghindari peningkatan gangguan perhatian. Ini membentuk kontradiksi antara panjang teks dan perhatian, serta merupakan alasan mendasar mengapa teknologi teks panjang model besar sulit untuk diatasi.

Pada saat yang sama, daya komputasi selalu menjadi sumber daya yang langka. Dalam penerapan nyata, pihak perusahaan sulit untuk menyediakan dukungan daya komputasi yang besar, yang mengharuskan pemasok untuk mengontrol konsumsi daya komputasi secara ketat saat memperluas parameter model atau panjang teks. Namun, saat ini untuk memecahkan teknologi teks yang lebih panjang, sering kali memerlukan lebih banyak daya komputasi, yang menciptakan satu lagi kontradiksi antara panjang teks dan daya komputasi.

Terkait hal ini, para ahli industri menyatakan bahwa saat ini belum ada solusi yang seragam untuk pemodelan teks panjang dengan model besar, dan akar permasalahan terletak pada struktur Transformer itu sendiri, sementara arsitektur baru sedang dalam pengembangan.

Saat ini ada tiga pendekatan solusi yang berbeda:

  1. Menggunakan alat eksternal model untuk membantu memproses teks panjang. Metode utama adalah membagi teks panjang menjadi beberapa teks pendek untuk diproses, hanya memuat potongan teks pendek yang diperlukan setiap kali, menghindari masalah di mana model tidak dapat membaca seluruh teks panjang sekaligus.

  2. Membangun kembali cara perhitungan perhatian diri. Seperti membagi teks panjang menjadi kelompok yang berbeda, melakukan perhitungan di dalam setiap kelompok, bukan menghitung hubungan antara setiap kata, untuk mengurangi beban perhitungan dan meningkatkan kecepatan.

  3. Mengoptimalkan model itu sendiri. Misalnya, melakukan fine-tuning pada model yang ada agar dapat mengeluarkan prediksi untuk urutan yang lebih panjang; atau dengan mengurangi jumlah parameter untuk meningkatkan panjang konteks.

"Segitiga ketidakmungkinan" dari teks panjang saat ini mungkin masih belum terpecahkan, tetapi ini juga jelas menunjukkan arah eksplorasi untuk penyedia model besar: mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi, yang mampu memproses informasi yang cukup sembari memperhatikan batasan biaya perhatian dan daya komputasi.

TOKEN0.32%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 5
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)