Revolusi Teks Panjang Model Besar: Terobosan dan Tantangan dari 4000 hingga 400000 token

robot
Pembuatan abstrak sedang berlangsung

Teknologi teks panjang model besar memasuki tahap baru, apa rahasia di balik 4000 hingga 40 juta token?

Baru-baru ini, kemampuan teks panjang dari model besar meningkat dengan kecepatan yang mengesankan. Dari awalnya 4000 token hingga sekarang 400.000 token, persaingan antara penyedia model besar di bidang ini semakin ketat.

Di dunia internasional, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 menjadi masing-masing 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah memperluas panjang konteks modelnya, Claude, menjadi 100.000 token. LongLLaMA telah mendorong angka ini hingga 256.000 token atau bahkan lebih tinggi.

Di dalam negeri, perusahaan rintisan bulan yang gelap meluncurkan Kimi Chat yang mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan oleh CUHK dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.

Saat ini, banyak perusahaan dan lembaga penelitian model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Dark Side of the Moon, menjadikan peningkatan panjang konteks sebagai arah pengembangan utama. Sebagian besar perusahaan ini sangat diminati di pasar modal. OpenAI telah mendapatkan hampir 12 miliar dolar investasi, valuasi Anthropic diperkirakan akan mencapai 30 miliar dolar, dan Dark Side of the Moon telah menyelesaikan beberapa putaran pendanaan dalam waktu enam bulan setelah didirikan, dengan valuasi melebihi 300 juta dolar.

Peningkatan kemampuan teks panjang berarti jumlah informasi yang dapat diproses oleh model meningkat secara signifikan. Dari awal yang hanya dapat membaca sebuah artikel pendek, kini dapat dengan mudah memproses sebuah novel panjang, aplikasi model besar semakin meluas. Teknologi ini memiliki prospek aplikasi yang luas di bidang profesional seperti keuangan, hukum, dan penelitian ilmiah, dan diharapkan dapat mendorong peningkatan kecerdasan di industri-industri ini.

Namun, para ahli menunjukkan bahwa panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa tidak ada hubungan linear yang sederhana antara panjang konteks yang didukung model dengan efektivitasnya. Yang lebih penting adalah bagaimana model dapat memanfaatkan informasi konteks dengan efektif. Saat ini, eksplorasi teknologi teks panjang di industri masih berlanjut, 400.000 token mungkin hanya merupakan titik awal.

Perkembangan teknologi teks panjang tidak hanya menyelesaikan beberapa masalah yang dihadapi model besar pada awalnya, tetapi juga membuka jalan untuk aplikasi industri lebih lanjut. Ini menandakan bahwa model besar telah memasuki tahap baru dari LLM ke Long LLM.

Sebagai contoh Kimi Chat dari sisi gelap bulan, kemampuan teks panjangnya menunjukkan keunggulan unik di berbagai skenario:

  1. Dapat menganalisis poin-poin penting dari artikel panjang dengan cepat dan mengekstrak informasi kunci.
  2. Dapat menangani seluruh buku atau dokumen hukum profesional, mendukung tanya jawab mendalam.
  3. Dapat langsung mengubah makalah menjadi kode dan melakukan modifikasi.
  4. Mendukung peran dalam percakapan panjang, mewujudkan interaksi yang dipersonalisasi.

Fungsi-fungsi ini menunjukkan bahwa model besar sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman, dan diharapkan dapat menjadi tumpuan baru untuk mendorong aplikasi industri.

Namun, perkembangan teknologi teks panjang juga menghadapi dilema "segitiga ketidakmungkinan": sulit untuk mengakomodasi ketiga aspek yaitu panjang teks, distribusi perhatian, dan kebutuhan komputasi. Ini terutama disebabkan oleh kompleksitas perhitungan mekanisme perhatian diri dalam struktur Transformer yang meningkat secara kuadrat seiring dengan panjang teks.

Saat ini, industri utama menggunakan tiga solusi untuk menghadapi tantangan ini:

  1. Menggunakan alat eksternal untuk membantu memproses teks panjang.
  2. Mengoptimalkan cara perhitungan mekanisme perhatian diri.
  3. Mengoptimalkan model itu sendiri.

Meskipun teknologi teks panjang masih menghadapi banyak tantangan, ia membuka arah pengembangan baru untuk model besar. Di masa depan, penyedia model besar akan mencari titik keseimbangan terbaik antara panjang teks, distribusi perhatian, dan kebutuhan daya komputasi untuk mendorong pengembangan dan penerapan teknologi ini lebih lanjut.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 9
  • Bagikan
Komentar
0/400
PancakeFlippavip
· 07-13 04:55
Teks panjang adalah jalan yang benar
Lihat AsliBalas0
NFTRegretfulvip
· 07-11 10:00
Kecerdasan hanya mengubah dunia
Lihat AsliBalas0
CodeAuditQueenvip
· 07-11 05:56
Verifikasi kode sangat penting
Lihat AsliBalas0
DefiVeteranvip
· 07-10 15:02
Persaingan pada akhirnya akan membawa kemajuan
Lihat AsliBalas0
TokenGuruvip
· 07-10 14:59
Kemampuan untuk memperpanjang hidup memang bull
Lihat AsliBalas0
ImpermanentSagevip
· 07-10 14:59
Daya Komputasi pada akhirnya terbatas
Lihat AsliBalas0
ProxyCollectorvip
· 07-10 14:52
Unholy Trinity benar-benar ada
Lihat AsliBalas0
ColdWalletGuardianvip
· 07-10 14:44
Konteks adalah poin kunci
Lihat AsliBalas0
MaticHoleFillervip
· 07-10 14:40
Performa yang luar biasa
Lihat AsliBalas0
Lihat Lebih Banyak
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)