Yapay Zeka Çoklu Model Savaşı: Akademik Sorunlardan Mühendislik Yarışmalarına

AI endüstrisinde yüzlerce model savaşı: Akademik sorunlardan mühendislik sorunlarına

Geçen ay, AI endüstrisinde hayvan temalı bir düello sahnelendi.

Bir taraf Meta'nın sunduğu Llama, açık kaynak özellikleri sayesinde geliştirici topluluğu tarafından büyük ilgi görüyor. Japon elektrik şirketi (NEC), Llama makalesini ve kaynak kodunu inceledikten sonra, Japonca versiyon ChatGPT'yi hızla geliştirerek Japonya'nın AI gelişimindeki engelleri aştı.

Diğer taraf, Falcon adlı büyük bir modeldir. Bu yıl Mayıs ayında, Falcon-40B piyasaya sürüldü ve Llama'yı geçerek "Açık Kaynak LLM Sıralaması"nda zirveye yerleşti. Bu liste, açık kaynak model topluluğu tarafından hazırlanmıştır ve LLM yeteneklerini değerlendirmek için bir standart sunmaktadır. Sıralama temelde Llama ve Falcon'un sırayla zirveye yerleşmesinden oluşmaktadır.

Llama 2'nin piyasaya sürülmesinden sonra, Llama ailesi geçici olarak önde; ancak Eylül başında, Falcon 180B sürümünü piyasaya sürdü ve tekrar daha yüksek bir sıralama elde etti.

Enteresan bir şekilde, Falcon'un geliştiricisi Birleşik Arap Emirlikleri'nin başkenti Abu Dabi'deki Teknoloji İnovasyon Araştırma Enstitüsü'dür. BAE yetkilileri, bu alanda yer almalarının mevcut durumu kırmak için olduğunu belirtti.

180B sürümünün yayınlanmasından bir gün sonra, Birleşik Arap Emirlikleri Yapay Zeka Bakanı, "Zaman Dergisi" tarafından seçilen "Yapay Zeka alanındaki en etkili 100 kişi" listesine girdi; onunla birlikte "Yapay Zeka babası" Hinton, OpenAI'den Altman gibi isimler de yer aldı.

Artık AI alanı birçok farklı projenin ortaya çıktığı bir aşamaya girdi: Biraz finansal gücü olan ülkeler ve şirketler, yerel versiyon ChatGPT planlarını ilerletiyorlar. Sadece Körfez bölgesinde bile birden fazla katılımcı var - Ağustos'ta Suudi Arabistan, yerel üniversiteler için 3000'den fazla H100 çipi satın aldı ve bunları LLM eğitimi için kullanacak.

Bir yatırımcı şöyle şikayet etmiş: "O zamanlar internetin iş modeli yeniliklerini küçümsemiştim, hiçbir engel yoktu; hiç beklemediğim bir şekilde, sert teknolojinin büyük model girişimleri hâlâ birçok kişinin rekabet ettiği bir alan..."

Yüksek zorlukta bir sert teknoloji olması gereken şey, neden herkesin katılabileceği bir yarışmaya dönüştü?

Dönüştürücü: AI gelişiminin kilit dönüm noktası

Amerika'daki girişimler, Çin teknoloji devleri ve Orta Doğu petrol baronları, büyük model hayallerini gerçekleştirebiliyorsa, bunun nedeni o ünlü makaledir: "Attention Is All You Need".

2017 yılında, 8 Google bilgisayar bilimcisi bu makalede Transformer algoritmasını kamuoyuna açıkladı. Bu makale, şu anda AI tarihindeki en çok alıntı yapılan üçüncü makaledir ve Transformer'ın ortaya çıkışı bu AI dalgasını tetikledi.

Mevcut çeşitli büyük modeller, dünya çapında ses getiren GPT serisi de dahil olmak üzere, Transformer tabanlıdır.

Bundan önce, makinelerin metni anlaması akademik dünyanın bir sorunu olmuştur. Görüntü tanımadan farklı olarak, insanlar okurken sadece o anki kelime veya cümleye değil, bağlamı da dikkate alarak anlamaya çalışırlar. Erken sinir ağlarının girdileri birbirinden bağımsızdı, bu nedenle uzun metinleri veya hatta tam makaleleri anlamakta zorlanıyorlardı.

2014 yılında, Google bilim insanı Ilya ilk büyük başarıyı elde etti. Doğal dili işlemek için döngüsel sinir ağı (RNN) kullandı ve Google Çeviri'nin performansını önemli ölçüde artırdı. RNN, "döngü tasarımı"nı getirerek nöronların hem mevcut girişi hem de bir önceki zaman dilimindeki girişi almasını sağladı, böylece "bağlamı birleştirme" yeteneğine sahip oldu.

RNN'nin ortaya çıkışı akademik dünyanın araştırma heyecanını artırdı. Ancak geliştiriciler kısa sürede RNN'nin ciddi kusurları olduğunu keşfettiler: Bu algoritma sıralı hesaplama kullanıyor, bağlam sorununu çözmesine rağmen, çalıştırma verimliliği düşüktür ve çok sayıda parametreyi işlemek zordur.

2015 yılından itibaren, Shazeel ve diğerleri RNN'in alternatiflerini geliştirmeye başladılar ve nihai sonuç Transformer oldu. RNN ile karşılaştırıldığında, Transformer'ın iki büyük yeniliği var: biri, döngü tasarımını konum kodlaması ile değiştirmek, paralel hesaplamayı gerçekleştirmek ve eğitim verimliliğini büyük ölçüde artırmak; diğeri ise bağlamı anlama yeteneğini daha da güçlendirmektir.

Transformer, birçok teknik sorunu bir seferde çözerek, doğal dil işleme alanında ana akım bir çözüm haline geldi. Bu, büyük modellerin teorik araştırmalardan saf mühendislik sorunlarına dönüşmesini sağladı.

2019'da, OpenAI Transformer temelinde GPT-2'yi geliştirdi ve akademik dünyayı şok etti. Google hemen daha güçlü bir AI - Meena'yı piyasaya sürdü. Meena, GPT-2'ye kıyasla algoritma yeniliği sunmuyor, sadece eğitim parametreleri ve hesaplama gücünü artırıyor. Bu "şiddetli yığınlama" yöntemi, Transformer'ın yazarı Şahezar üzerinde derin bir etki bıraktı.

Transformer'ın ortaya çıkması, akademik dünyadaki temel algoritma yeniliklerinin hızını yavaşlattı. Veri mühendisliği, hesaplama gücü ölçeği, model mimarisi gibi mühendislik unsurları, AI yarışmasının anahtarı haline geldi. Belirli bir teknik yeterliliğe sahip olan şirketler, büyük modeller geliştirebiliyor.

Stanford Üniversitesi'nde konuşma yapan bilgisayar bilimcisi Andrew Ng, "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve şimdi de üretken yapay zeka dahil olmak üzere bir dizi aracın toplamıdır. Bunlar, elektrik ve internet gibi genel teknolojilerdir."

OpenAI hala LLM'nin lideri olsa da, yarı iletken analiz kuruluşları, GPT-4'ün avantajının esasen mühendislik çözümlerinden kaynaklandığını düşünüyor - eğer açık kaynak olursa, herhangi bir rakip bunu hızla kopyalayabilir. Bu analist, diğer büyük teknoloji şirketlerinin yakında GPT-4 ile karşılaştırılabilir büyük modeller oluşturabileceğini öngörüyor.

Hendeklerin Kırılganlığı

Artık "Yüz Model Savaşı" abartılı bir ifade değil, nesnel bir gerçek.

Rapora göre, bu yıl Temmuz itibarıyla, Çin'deki büyük model sayısı 130'a ulaşarak Amerika'nın 114'ünü geçti. Çin ve ABD dışındaki diğer zengin ülkeler de yerel büyük modelleri piyasaya sürmeye başladı: Hindistan hükümetinin öncülüğündeki Bhashini, Güney Koreli internet şirketi Naver'in geliştirdiği HyperClova X gibi.

Bu sahne, internetin erken dönemine, sermaye ile teknolojinin şiddetli bir rekabet içinde olduğu zamana geri dönmüş gibiydi.

Daha önce belirtildiği gibi, Transformer, büyük modelleri saf bir mühendislik meselesi haline getiriyor; yeterli insan kaynağı, finansman ve donanım varsa, parametreleri biriktirerek gerçekleştirmek mümkün. Ancak, giriş engellerinin azalması, herkesin AI çağının devlerinden biri olabileceği anlamına gelmiyor.

Makalede bahsedilen "Hayvan Savaşı" örneğinde: Falcon bazı sıralamalarda Llama'yı geçmesine rağmen, Meta üzerindeki gerçek etkisi sınırlıdır.

Herkesin bildiği gibi, şirketler kendi araştırma sonuçlarını açık kaynak hale getirerek hem teknolojik ilerlemeyi paylaşmayı hem de kamuoyunun zekasından yararlanmayı umuyor. Akademik ve endüstriyel alanlardaki sürekli kullanım ve geliştirme ile Llama, Meta bu sonuçları kendi ürünlerinde uygulayabilir.

Açık kaynak büyük modeller için, aktif bir geliştirici topluluğu en önemli rekabet avantajıdır. Meta, 2015 yılında AI laboratuvarını kurduğunda açık kaynak stratejisini belirlemişti; Zuckerberg, sosyal medya ile başladığı için "kullanıcı ilişkilerini sürdürmenin" yollarını çok iyi biliyor.

Örneğin bu yıl Ekim ayında, Meta özel olarak "AI Yaratıcı Teşvik" etkinliği düzenledi: Llama 2'yi kullanarak eğitim, çevre gibi sosyal sorunları çözen geliştiriciler, 500.000 dolar hibe alma şansına sahip.

Bugün, Meta'nın Llama serisi açık kaynak LLM'lerin ölçütü haline geldi. Ekim ayı başı itibarıyla, bir açık kaynak LLM sıralamasının ilk 10'unda 8'i Llama 2'ye dayanarak geliştirilmiş ve açık kaynak lisansını kullanmaktadır. Sadece bu platformda, Llama 2 açık kaynak lisansını kullanan LLM sayısı 1500'ü aşmaktadır.

Elbette, Falcon gibi performansı artırmak da bir stratejidir, ancak şu anda çoğu LLM'nin GPT-4 ile hala belirgin bir farkı var.

Örneğin, son zamanlarda GPT-4, AgentBench testinde 4.41 puanla birinci sırada yer aldı. AgentBench, LLM'lerin çok boyutlu açık ortamda akıl yürütme ve karar verme yeteneklerini değerlendirmek için birçok tanınmış üniversite tarafından ortaklaşa sunulmuştur. Test sonuçları, ikinci sırada yer alan Claude'un yalnızca 2.77 puan aldığını ve aranın belirgin şekilde büyük olduğunu göstermektedir. Diğer tanınmış açık kaynak LLM'lerin puanları genellikle 1 civarındadır ve bu da GPT-4'ün dörtte biri bile değildir.

Dikkate değer olan, GPT-4'ün bu yıl Mart ayında piyasaya sürülmesidir; bu, dünya genelindeki rakiplerin altı aydan fazla bir süre sonra ulaştığı bir başarıdır. OpenAI'nin liderliğini sürdürebilmesinin nedeni, yüksek düzeydeki araştırma ekibi ve uzun yıllara dayanan birikimidir.

Başka bir deyişle, büyük modellerin temel avantajı parametre ölçeği değil, ekosistem inşası (açık kaynak yolu) veya saf çıkarım yeteneğidir (kapalı kaynak yolu).

Açık kaynak topluluğunun giderek daha aktif hale gelmesiyle, farklı LLM'lerin performansları benzer modellere ve veri setlerine sahip olduklarından dolayı benzer hale gelebilir.

Bir diğer daha sezgisel soru şudur: Midjourney dışında görünüşe göre hiç büyük model kâr elde edemiyor.

Değer Sabitleme Zorlukları

Bu yıl Ağustos ayında, "OpenAI'nın 2024 sonunda iflas edebileceği" başlıklı bir makale dikkat çekti. Makalenin ana fikri, OpenAI'nın para harcama hızının çok yüksek olduğudur.

Metinde, ChatGPT'nin geliştirilmesinden bu yana OpenAI'nin zararının hızla büyüdüğü, 2022'de yaklaşık 540 milyon dolar zarar ettiği ve yalnızca Microsoft'un yatırımlarıyla ayakta kaldığı belirtiliyor.

Başlık biraz abartılı olsa da, büyük model sağlayıcılarının genel durumunu yansıtıyor: maliyetler ile gelirler arasında ciddi bir dengesizlik var.

Yüksek maliyetler, şu anda AI patlamasından en çok faydalananların yalnızca NVIDIA gibi çip üreticileri olmasına neden oldu.

Danışmanlık şirketi Omdia'nın tahminlerine göre, NVIDIA bu yılın ikinci çeyreğinde 300.000'den fazla H100 çipi sattı. Bu, dünya genelindeki teknoloji şirketleri ve araştırma kurumlarının birbirleriyle rekabet halinde satın aldığı yüksek verimli bir AI çipi. Eğer bu 300.000 H100'ü üst üste koyarsanız, ağırlığı 4.5 Boeing 747 uçağına eşdeğer.

NVIDIA'nin performansı buna bağlı olarak fırladı, yıllık gelir %854 artış gösterdi ve Wall Street'i şaşırttı. Şu anda H100'ün ikinci el piyasasındaki fiyatı 40.000-50.000 dolar arasında speküle ediliyor, oysa malzeme maliyeti yalnızca yaklaşık 3.000 dolar.

Yüksek hesaplama gücü maliyetleri, bir dereceye kadar sektörün gelişimini engellemektedir. Sequoia Capital, dünya genelindeki teknoloji şirketlerinin her yıl büyük model altyapı yatırımlarına 200 milyar dolar harcayacağını tahmin etmiştir; buna karşılık, büyük modellerin her yıl en fazla 75 milyar dolar gelir üretebileceği ve en az 125 milyar dolarlık bir açığın bulunduğu belirtilmektedir.

Ayrıca, Midjourney gibi birkaç istisna dışında, çoğu yazılım şirketi büyük maliyetler yatırmasına rağmen hala net bir kârlılık modeli bulamadı. Sektörün liderleri Microsoft ve Adobe'nun AI işlerinin de zorluklarla karşılaştığı görülüyor.

Microsoft'un OpenAI ile işbirliği içinde geliştirdiği AI kod oluşturma aracı GitHub Copilot, her ay 10 dolar ücret almasına rağmen, tesis maliyetleri nedeniyle Microsoft her ay 20 dolar zarar ediyor; yoğun kullanıcılar Microsoft'un her ay 80 dolar zarar etmesine neden olabiliyor. Bu nedenle, fiyatı 30 dolar olan Microsoft 365 Copilot'un daha fazla zarar edebileceği tahmin ediliyor.

Aynı şekilde, yeni Firefly AI aracını tanıtan Adobe, kullanıcıların aşırı kullanımının şirketin zarar görmesine neden olmasını önlemek için hızla bir puan sistemi getirdi. Kullanıcılar aylık tahsis edilen puanı aştığında, Adobe hizmet hızını düşürecektir.

Dikkat çekici olan, Microsoft ve Adobe'nun belirgin iş senaryolarına ve çok sayıda ücretli kullanıcıya sahip olmalarıdır. Oysa çoğu büyük ölçekli parametreye sahip büyük modelin ana uygulama alanı hala sohbet.

Inkar edilemez ki, OpenAI ve ChatGPT'nin ortaya çıkışı olmasaydı, bu AI devrimi gerçekleşmeyebilirdi. Ancak mevcut aşamada, büyük modellerin eğitilmesiyle yaratılan değerin hala tartışmaya açık olduğu söylenebilir.

Homojenleşmiş rekabetin artması ve açık kaynaklı modellerin sürekli ortaya çıkmasıyla birlikte, yalnızca büyük model tedarikçileri daha büyük bir hayatta kalma baskısıyla karşılaşabilir.

iPhone 4'ün başarısının sadece A4 işlemcisine bağlı olmadığı gibi, çeşitli ilginç uygulamaları çalıştırabilmesi nedeniyle, AI'nin gerçek değeri muhtemelen daha çok somut uygulama senaryolarında ortaya çıkmaktadır.

GPT7.13%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 6
  • Share
Comment
0/400
WalletManagervip
· 08-04 16:48
Çok konuşmanın bir faydası yok, sadece kimin model parametreleri daha büyük.
View OriginalReply0
LuckyHashValuevip
· 08-02 08:00
Japonya'da yapay zeka gerçekten harika bir şekilde ilerliyor.
View OriginalReply0
PaperHandSistervip
· 08-02 07:54
Bu ikisi tartışa dursun, kimse GPT4'ten daha güçlü değil.
View OriginalReply0
BridgeTrustFundvip
· 08-02 07:46
Bir dağda iki koyun barınamaz. Kim kazandı?
View OriginalReply0
SquidTeachervip
· 08-02 07:45
Sadece sert rulo, sert rulo!
View OriginalReply0
SurvivorshipBiasvip
· 08-02 07:35
Çimen Bu sadece lama ve şahin kavga etmiyor mu?
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)