Perbandingan Kemampuan Teks Panjang Model Besar: Dari 4000 hingga 400.000 token, "Kekuatan Membaca" AI Melonjak
Model besar sedang meningkatkan kemampuan pemrosesan teks panjang dengan kecepatan yang mengagumkan. Dari awalnya 4000 token hingga sekarang 400.000 token, kemampuan teks panjang tampaknya telah menjadi standar baru bagi produsen model besar.
Di tingkat internasional, OpenAI telah meningkatkan panjang input konteks GPT-3.5 dari 4 ribu menjadi 16 ribu token melalui beberapa pembaruan, sementara GPT-4 meningkat dari 8 ribu menjadi 32 ribu token. Pesaingnya, Anthropic, bahkan berhasil meningkatkan panjang konteks hingga 100 ribu token. LongLLaMA bahkan memperluas panjang konteks menjadi lebih dari 256 ribu token.
Di dalam negeri, perusahaan startup model besar, Kimi Chat yang diluncurkan oleh Bulan yang Gelap, dapat mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan oleh Universitas Cina Hong Kong dan MIT dapat memperluas panjang teks model 7B menjadi 100.000 token, dan model 70B menjadi 32.000 token.
Saat ini, banyak perusahaan dan lembaga riset model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menganggap perpanjangan panjang konteks sebagai arah peningkatan yang utama. Perusahaan-perusahaan ini secara umum mendapatkan perhatian besar dari pasar modal, dengan ukuran pendanaan dan valuasi yang menunjukkan pertumbuhan cepat.
Perusahaan model besar sangat memperhatikan teknologi teks panjang, apa arti terobosan 400.000 token? Secara permukaan, ini menunjukkan bahwa panjang teks input model dan kemampuan membaca meningkat secara signifikan. Dari awal yang hanya dapat memproses sebuah artikel pendek, hingga sekarang dapat membaca seluruh novel panjang, skenario aplikasi model mengalami perluasan yang signifikan.
Dalam pandangan yang lebih mendalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah kunci untuk meningkatkan kecerdasan di bidang-bidang ini.
Namun, mirip dengan parameter model, panjang teks tidak selalu lebih baik jika lebih panjang. Penelitian menunjukkan bahwa tidak ada hubungan positif yang sederhana antara panjang konteks yang didukung model dan efektivitasnya. Kuncinya adalah bagaimana model dapat memanfaatkan konten konteks dengan efektif.
Saat ini, eksplorasi teknologi teks panjang belum mencapai batas. Perusahaan model besar di dalam dan luar negeri masih terus melakukan terobosan, 400.000 token mungkin hanya sebuah awal.
Mengapa perusahaan model besar berlomba-lomba untuk "menggulung" teks panjang?
Pendiri Dark Side of the Moon, Yang Zhilin, menyatakan bahwa batasan panjang input model besar menyebabkan banyak kesulitan dalam penerapan, inilah alasan mengapa banyak perusahaan saat ini fokus pada teknologi teks panjang.
Misalnya, dalam skenario karakter virtual, karena kurangnya kemampuan teks panjang, karakter virtual mungkin melupakan informasi penting. Dalam mengembangkan permainan jenis skrip pembunuhan, panjang input yang tidak cukup dapat menyebabkan aturan dan pengaturan dipotong, mempengaruhi efek permainan. Dalam bidang profesional seperti hukum dan keuangan, analisis dan generasi konten yang mendalam juga sering kali terbatas.
Teks panjang memainkan peran penting dalam aplikasi asli Agent dan AI di masa depan. Agent perlu mengandalkan informasi historis untuk perencanaan dan pengambilan keputusan, sementara aplikasi asli AI memerlukan konteks untuk mempertahankan pengalaman pengguna yang koheren dan personal.
Yang Zhilin berpendapat bahwa batasan model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana kemampuan langkah tunggal terkait dengan jumlah parameter, sedangkan jumlah langkah eksekusi adalah panjang konteks. Teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah awal dari model besar, tetapi juga merupakan salah satu teknologi kunci untuk mendorong industri dan penerapan di lapangan.
Dengan Kimi Chat yang baru dirilis oleh Bulan Gelap, kita dapat melihat sekilas peningkatan fungsi model besar di era teks panjang:
Ekstraksi, ringkasan, dan analisis informasi kunci dari teks yang sangat panjang
Peningkatan kemampuan untuk menghasilkan dan memodifikasi kode
Peran dalam Skenario Dialog Panjang
Fungsi-fungsi ini menunjukkan bahwa robot percakapan sedang berkembang menuju arah yang lebih profesional, personal, dan mendalam, dan diharapkan menjadi pendorong penting bagi penerapan industri dan munculnya super APP.
Dilema "segitiga tak mungkin" dari teks panjang
Dalam teknologi teks panjang, terdapat dilema "segitiga tidak mungkin" antara panjang teks, perhatian, dan daya komputasi. Ini ditunjukkan sebagai:
Semakin panjang teks, semakin sulit untuk mengumpulkan perhatian yang cukup, sulit untuk mencerna informasi secara lengkap.
Di bawah batas perhatian, teks pendek tidak dapat sepenuhnya memahami informasi kompleks.
Mengolah teks panjang membutuhkan banyak daya komputasi, meningkatkan biaya
Akar dari dilema ini terletak pada sebagian besar model yang didasarkan pada struktur Transformer. Mekanisme perhatian diri dalam struktur ini menyebabkan jumlah perhitungan meningkat secara kuadrat seiring dengan panjang konteks.
Saat ini ada tiga solusi utama:
Menggunakan alat eksternal model untuk membantu memproses teks panjang
Mengoptimalkan perhitungan mekanisme perhatian diri
Metode umum untuk mengoptimalkan model
Dilema "segitiga yang tidak mungkin" dari teks panjang saat ini masih belum terpecahkan, tetapi ini juga menjelaskan jalur eksplorasi bagi produsen model besar: mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan biaya komputasi, sehingga dapat memproses informasi yang cukup, sambil memperhitungkan pembatasan biaya perhatian dan komputasi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Kemampuan teks panjang model besar melampaui 400.000 token mendorong aplikasi AI di bidang keuangan dan hukum.
Perbandingan Kemampuan Teks Panjang Model Besar: Dari 4000 hingga 400.000 token, "Kekuatan Membaca" AI Melonjak
Model besar sedang meningkatkan kemampuan pemrosesan teks panjang dengan kecepatan yang mengagumkan. Dari awalnya 4000 token hingga sekarang 400.000 token, kemampuan teks panjang tampaknya telah menjadi standar baru bagi produsen model besar.
Di tingkat internasional, OpenAI telah meningkatkan panjang input konteks GPT-3.5 dari 4 ribu menjadi 16 ribu token melalui beberapa pembaruan, sementara GPT-4 meningkat dari 8 ribu menjadi 32 ribu token. Pesaingnya, Anthropic, bahkan berhasil meningkatkan panjang konteks hingga 100 ribu token. LongLLaMA bahkan memperluas panjang konteks menjadi lebih dari 256 ribu token.
Di dalam negeri, perusahaan startup model besar, Kimi Chat yang diluncurkan oleh Bulan yang Gelap, dapat mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan oleh Universitas Cina Hong Kong dan MIT dapat memperluas panjang teks model 7B menjadi 100.000 token, dan model 70B menjadi 32.000 token.
Saat ini, banyak perusahaan dan lembaga riset model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menganggap perpanjangan panjang konteks sebagai arah peningkatan yang utama. Perusahaan-perusahaan ini secara umum mendapatkan perhatian besar dari pasar modal, dengan ukuran pendanaan dan valuasi yang menunjukkan pertumbuhan cepat.
Perusahaan model besar sangat memperhatikan teknologi teks panjang, apa arti terobosan 400.000 token? Secara permukaan, ini menunjukkan bahwa panjang teks input model dan kemampuan membaca meningkat secara signifikan. Dari awal yang hanya dapat memproses sebuah artikel pendek, hingga sekarang dapat membaca seluruh novel panjang, skenario aplikasi model mengalami perluasan yang signifikan.
Dalam pandangan yang lebih mendalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah kunci untuk meningkatkan kecerdasan di bidang-bidang ini.
Namun, mirip dengan parameter model, panjang teks tidak selalu lebih baik jika lebih panjang. Penelitian menunjukkan bahwa tidak ada hubungan positif yang sederhana antara panjang konteks yang didukung model dan efektivitasnya. Kuncinya adalah bagaimana model dapat memanfaatkan konten konteks dengan efektif.
Saat ini, eksplorasi teknologi teks panjang belum mencapai batas. Perusahaan model besar di dalam dan luar negeri masih terus melakukan terobosan, 400.000 token mungkin hanya sebuah awal.
Mengapa perusahaan model besar berlomba-lomba untuk "menggulung" teks panjang?
Pendiri Dark Side of the Moon, Yang Zhilin, menyatakan bahwa batasan panjang input model besar menyebabkan banyak kesulitan dalam penerapan, inilah alasan mengapa banyak perusahaan saat ini fokus pada teknologi teks panjang.
Misalnya, dalam skenario karakter virtual, karena kurangnya kemampuan teks panjang, karakter virtual mungkin melupakan informasi penting. Dalam mengembangkan permainan jenis skrip pembunuhan, panjang input yang tidak cukup dapat menyebabkan aturan dan pengaturan dipotong, mempengaruhi efek permainan. Dalam bidang profesional seperti hukum dan keuangan, analisis dan generasi konten yang mendalam juga sering kali terbatas.
Teks panjang memainkan peran penting dalam aplikasi asli Agent dan AI di masa depan. Agent perlu mengandalkan informasi historis untuk perencanaan dan pengambilan keputusan, sementara aplikasi asli AI memerlukan konteks untuk mempertahankan pengalaman pengguna yang koheren dan personal.
Yang Zhilin berpendapat bahwa batasan model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana kemampuan langkah tunggal terkait dengan jumlah parameter, sedangkan jumlah langkah eksekusi adalah panjang konteks. Teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah awal dari model besar, tetapi juga merupakan salah satu teknologi kunci untuk mendorong industri dan penerapan di lapangan.
Dengan Kimi Chat yang baru dirilis oleh Bulan Gelap, kita dapat melihat sekilas peningkatan fungsi model besar di era teks panjang:
Fungsi-fungsi ini menunjukkan bahwa robot percakapan sedang berkembang menuju arah yang lebih profesional, personal, dan mendalam, dan diharapkan menjadi pendorong penting bagi penerapan industri dan munculnya super APP.
Dilema "segitiga tak mungkin" dari teks panjang
Dalam teknologi teks panjang, terdapat dilema "segitiga tidak mungkin" antara panjang teks, perhatian, dan daya komputasi. Ini ditunjukkan sebagai:
Akar dari dilema ini terletak pada sebagian besar model yang didasarkan pada struktur Transformer. Mekanisme perhatian diri dalam struktur ini menyebabkan jumlah perhitungan meningkat secara kuadrat seiring dengan panjang konteks.
Saat ini ada tiga solusi utama:
Dilema "segitiga yang tidak mungkin" dari teks panjang saat ini masih belum terpecahkan, tetapi ini juga menjelaskan jalur eksplorasi bagi produsen model besar: mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan biaya komputasi, sehingga dapat memproses informasi yang cukup, sambil memperhitungkan pembatasan biaya perhatian dan komputasi.