Perusahaan model besar berlomba-lomba untuk memecahkan kemampuan teks panjang 400.000 token mungkin hanya permulaan
Model besar sedang meningkatkan kemampuan pemrosesan teks panjang dengan kecepatan yang menakjubkan, dari awalnya 4000 token melonjak menjadi 400.000 token. Kemampuan teks panjang telah menjadi "standar baru" bagi banyak penyedia model.
Menurut statistik, saat ini di dalam dan luar negeri, banyak perusahaan dan lembaga penelitian model besar terkemuka seperti OpenAI, Anthropic, Meta, dan Dark Side of the Moon telah menjadikan perpanjangan panjang konteks sebagai arah peningkatan yang utama. Sebagian besar perusahaan ini menjadi objek yang sangat diminati di pasar modal dan telah mendapatkan pendanaan besar.
Mengapa perusahaan model besar sangat memperhatikan teknologi teks panjang? Apa arti dari peningkatan panjang konteks hingga 100 kali lipat?
Secara superficial, ini berarti bahwa teks yang dapat dimasukkan ke dalam model semakin panjang dan kemampuan membaca semakin kuat. Secara mendalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian, seperti peningkatan kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab.
Namun, penelitian menunjukkan bahwa dukungan model untuk konteks yang lebih panjang dan kinerja yang lebih baik tidak bisa langsung disamakan. Penggunaan konten konteks oleh model jauh lebih penting. Saat ini, eksplorasi terhadap panjang teks di dalam dan luar negeri masih jauh dari "titik kritis", 400 ribu token mungkin hanya permulaan.
Pendiri Dark Side of the Moon, Yang Zhilin, menyatakan bahwa keterbatasan panjang input model besar telah menyebabkan banyak tantangan dalam penerapan aplikasi. Dalam perjalanan menuju aplikasi Agent dan AI yang asli di masa depan, teks panjang memainkan peran penting.
Teknologi teks panjang dapat menyelesaikan beberapa masalah awal model besar, sekaligus menjadi teknologi kunci dalam mendorong penerapan industri. Ini menandakan bahwa perkembangan model besar telah memasuki tahap baru dari LLM ke Long LLM.
Melalui Kimi Chat di sisi gelap bulan, kita dapat melihat peningkatan fungsi model besar di tahap Long LLM, seperti ekstraksi informasi teks yang sangat panjang, pembuatan kode, peran bermain, dan lainnya. Ini menunjukkan bahwa robot percakapan sedang berkembang menuju profesionalisasi, personalisasi, dan kedalaman, yang diharapkan dapat menjadi alat untuk mendorong penerapan industri.
Namun, teknologi teks panjang menghadapi dilema "segitiga tidak mungkin" terkait panjang teks, perhatian, dan daya komputasi. Sejak beban komputasi mekanisme perhatian meningkat secara kuadrat seiring dengan panjang konteks, konteks yang terlalu panjang dapat menyebabkan perhatian teralihkan. Pada saat yang sama, kekurangan daya komputasi juga membatasi terobosan teknologi teks panjang.
Saat ini ada tiga solusi utama: menggunakan alat eksternal untuk membantu pemrosesan, mengoptimalkan perhitungan mekanisme perhatian diri, dan memanfaatkan metode optimasi model. Setiap vendor sedang mencari titik keseimbangan terbaik di antara ketiganya, untuk menangani informasi yang cukup sambil memperhitungkan perhitungan perhatian dan batasan daya komputasi.
Terobosan teknologi teks panjang menandakan kemajuan model besar menuju skenario aplikasi yang lebih profesional dan mendalam. Di masa depan, seiring dengan evolusi teknologi yang berkelanjutan, model besar diharapkan dapat berperan penting di lebih banyak bidang.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
14 Suka
Hadiah
14
8
Bagikan
Komentar
0/400
DegenRecoveryGroup
· 07-18 23:16
400 ribu token Penuh dengan tanda tanya
Lihat AsliBalas0
ApeWithAPlan
· 07-17 03:11
Empat ratus ribu token? Bertahan
Lihat AsliBalas0
GasFeeBeggar
· 07-16 18:47
40w panjangnya juga tidak cukup untuk saya menghitung uang
Model besar menembus 400.000 token teks panjang, keseimbangan antara panjang dan efek menjadi fokus.
Perusahaan model besar berlomba-lomba untuk memecahkan kemampuan teks panjang 400.000 token mungkin hanya permulaan
Model besar sedang meningkatkan kemampuan pemrosesan teks panjang dengan kecepatan yang menakjubkan, dari awalnya 4000 token melonjak menjadi 400.000 token. Kemampuan teks panjang telah menjadi "standar baru" bagi banyak penyedia model.
Menurut statistik, saat ini di dalam dan luar negeri, banyak perusahaan dan lembaga penelitian model besar terkemuka seperti OpenAI, Anthropic, Meta, dan Dark Side of the Moon telah menjadikan perpanjangan panjang konteks sebagai arah peningkatan yang utama. Sebagian besar perusahaan ini menjadi objek yang sangat diminati di pasar modal dan telah mendapatkan pendanaan besar.
Mengapa perusahaan model besar sangat memperhatikan teknologi teks panjang? Apa arti dari peningkatan panjang konteks hingga 100 kali lipat?
Secara superficial, ini berarti bahwa teks yang dapat dimasukkan ke dalam model semakin panjang dan kemampuan membaca semakin kuat. Secara mendalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian, seperti peningkatan kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab.
Namun, penelitian menunjukkan bahwa dukungan model untuk konteks yang lebih panjang dan kinerja yang lebih baik tidak bisa langsung disamakan. Penggunaan konten konteks oleh model jauh lebih penting. Saat ini, eksplorasi terhadap panjang teks di dalam dan luar negeri masih jauh dari "titik kritis", 400 ribu token mungkin hanya permulaan.
Pendiri Dark Side of the Moon, Yang Zhilin, menyatakan bahwa keterbatasan panjang input model besar telah menyebabkan banyak tantangan dalam penerapan aplikasi. Dalam perjalanan menuju aplikasi Agent dan AI yang asli di masa depan, teks panjang memainkan peran penting.
Teknologi teks panjang dapat menyelesaikan beberapa masalah awal model besar, sekaligus menjadi teknologi kunci dalam mendorong penerapan industri. Ini menandakan bahwa perkembangan model besar telah memasuki tahap baru dari LLM ke Long LLM.
Melalui Kimi Chat di sisi gelap bulan, kita dapat melihat peningkatan fungsi model besar di tahap Long LLM, seperti ekstraksi informasi teks yang sangat panjang, pembuatan kode, peran bermain, dan lainnya. Ini menunjukkan bahwa robot percakapan sedang berkembang menuju profesionalisasi, personalisasi, dan kedalaman, yang diharapkan dapat menjadi alat untuk mendorong penerapan industri.
Namun, teknologi teks panjang menghadapi dilema "segitiga tidak mungkin" terkait panjang teks, perhatian, dan daya komputasi. Sejak beban komputasi mekanisme perhatian meningkat secara kuadrat seiring dengan panjang konteks, konteks yang terlalu panjang dapat menyebabkan perhatian teralihkan. Pada saat yang sama, kekurangan daya komputasi juga membatasi terobosan teknologi teks panjang.
Saat ini ada tiga solusi utama: menggunakan alat eksternal untuk membantu pemrosesan, mengoptimalkan perhitungan mekanisme perhatian diri, dan memanfaatkan metode optimasi model. Setiap vendor sedang mencari titik keseimbangan terbaik di antara ketiganya, untuk menangani informasi yang cukup sambil memperhitungkan perhitungan perhatian dan batasan daya komputasi.
Terobosan teknologi teks panjang menandakan kemajuan model besar menuju skenario aplikasi yang lebih profesional dan mendalam. Di masa depan, seiring dengan evolusi teknologi yang berkelanjutan, model besar diharapkan dapat berperan penting di lebih banyak bidang.