Büyük model 400.000 token uzun metin sınırını aştı, uzunluk ve etki dengesi odak noktası haline geldi.

robot
Abstract generation in progress

Büyük model üreticileri uzun metin yeteneklerini aşmak için yarışıyor 400.000 token belki de sadece başlangıç

Büyük modeller, uzun metin işleme yeteneklerini şaşırtıcı bir hızla artırıyor, başlangıçta 4000 token'dan 400.000 token'a fırladı. Uzun metin yetenekleri, büyük model üreticilerinin yeni "standartı" haline geldi.

Yapılan istatistiklere göre, şu anda hem yurtiçinde hem de yurtdışında OpenAI, Anthropic, Meta, Ay'ın Karanlık Yüzü gibi birçok üst düzey büyük model şirketi ve araştırma kuruluşu, bağlam uzunluğunu genişletmeyi önemli bir yükseltme yönü olarak belirlemiştir. Bu şirketlerin çoğu, sermaye piyasasında büyük ilgi gören ve büyük miktarda finansman sağlamış olanlardır.

Büyük model şirketleri neden uzun metin teknolojisine bu kadar önem veriyor? Bağlam uzunluğunun 100 kat artması ne anlama geliyor?

Yüzeysel olarak, bu modelin girdi olarak alabileceği metinlerin giderek daha uzun hale geldiği ve okuma becerisinin arttığı anlamına geliyor. Daha derin bir bakış açısıyla, uzun metin teknolojisi, büyük modellerin finans, yargı, araştırma gibi uzmanlık alanlarında uygulanmasını teşvik ediyor; örneğin, uzun belgelerin özetlenmesi, okuma anlama, soru yanıtlama gibi yeteneklerin geliştirilmesi.

Ancak, araştırmalar, modelin daha uzun bağlamı desteklemesi ile daha iyi performans göstermesi arasında doğrudan bir eşitlik kurulamayacağını göstermektedir. Modelin bağlam içeriğini kullanımı daha kritik bir unsurdur. Şu anda yurt içinde ve yurt dışında metin uzunluğuna yönelik yapılan araştırmalar henüz "kritik nokta"ya ulaşmamıştır, 400 bin token belki de sadece bir başlangıçtır.

Ay'ın karanlık yüzü kurucusu Yang Zhilin, büyük modelin giriş uzunluğunun sınırlı olmasının birçok uygulamanın hayata geçirilmesinde zorluklara neden olduğunu belirtti. Gelecekteki Ajans ve AI yerel uygulamalarına giden yolda, uzun metinlerin önemli bir rol oynadığını söyledi.

Uzun metin teknolojisi, büyük modellerin erken aşamalarındaki bazı sorunları çözebilir ve aynı zamanda sanayinin uygulanmasındaki anahtar teknolojidir. Bu, büyük model gelişiminin LLM'den Long LLM'ye yeni bir aşamaya geçtiğini göstermektedir.

Kimi Chat'in Ay'ın karanlık yüzü üzerinden, Long LLM aşamasındaki büyük modelin güncelleme yeteneklerini, örneğin ultra uzun metin bilgi çıkarımı, kod oluşturma, rol yapma gibi özelliklerini görebiliyoruz. Bu, sohbet robotlarının profesyonelleşme, kişiselleşme ve derinleşme yönünde ilerlediğini gösteriyor ve sanayinin uygulanmasını sağlamak için bir kaldıraç olma potansiyeline sahip.

Ancak, uzun metin teknolojisi, metin uzunluğu, dikkat ve hesaplama gücünün "imkansız üçgen" zorluğu ile karşı karşıyadır. Dikkat mekanizmasının hesaplama yükü, bağlam uzunluğu ile kare oranında artmaktadır; çok uzun bağlamlar dikkatin dağılmasına neden olur. Aynı zamanda, hesaplama gücü eksikliği de uzun metin teknolojisindeki atılımları sınırlandırmaktadır.

Şu anda üç ana çözüm bulunmaktadır: dış araçlar yardımıyla işlem yapmak, kendine dikkat mekanizması hesaplamalarını optimize etmek ve model optimizasyon yöntemlerini kullanmak. Büyük firmalar, yeterli bilgi işleme ile dikkat hesaplaması ve hesaplama gücü sınırlamaları arasında en iyi dengeyi bulmaya çalışıyor.

Uzun metin teknolojisindeki bu atılım, büyük modellerin daha profesyonel ve daha derin uygulama senaryolarına doğru ilerlediğini göstermektedir. Gelecekte, teknolojinin sürekli evrimi ile büyük modellerin daha geniş alanlarda önemli bir rol oynaması beklenmektedir.

TOKEN-9.09%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 8
  • Share
Comment
0/400
DegenRecoveryGroupvip
· 07-18 23:16
400 bin token kafamda soru işareti
View OriginalReply0
ApeWithAPlanvip
· 07-17 03:11
Dört yüz bin token? Dayanamadım.
View OriginalReply0
GasFeeBeggarvip
· 07-16 18:47
40w uzun bile benim para saymam için yeterli değil
View OriginalReply0
HalfBuddhaMoneyvip
· 07-16 18:44
40 bin tokenin ne işe yarar, kahve içemem.
View OriginalReply0
GateUser-44a00d6cvip
· 07-16 18:36
Artık ekran kartı almak için param yok mu?
View OriginalReply0
MEV_Whisperervip
· 07-16 18:32
Bilgi İşlem Gücü yakıyor
View OriginalReply0
VirtualRichDreamvip
· 07-16 18:28
Her şeyde tam seviyeye çıkmak...
View OriginalReply0
AirdropGrandpavip
· 07-16 18:26
Bağlamın uzun olmasının ne faydası var, yoruldum.
View OriginalReply0
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)