🎉 攢成長值,抽華爲Mate三折疊!廣場第 1️⃣ 2️⃣ 期夏季成長值抽獎大狂歡開啓!
總獎池超 $10,000+,華爲Mate三折疊手機、F1紅牛賽車模型、Gate限量週邊、熱門代幣等你來抽!
立即抽獎 👉 https://www.gate.com/activities/pointprize?now_period=12
如何快速賺成長值?
1️⃣ 進入【廣場】,點擊頭像旁標識進入【社區中心】
2️⃣ 完成發帖、評論、點讚、發言等日常任務,成長值拿不停
100%有獎,抽到賺到,大獎等你抱走,趕緊試試手氣!
截止於 8月9日 24:00 (UTC+8)
詳情: https://www.gate.com/announcements/article/46384
#成长值抽奖12期开启#
AI百模大戰:從學術難題到工程競賽
AI行業的百模大戰:從學術難題到工程問題
上個月,AI業界上演了一場動物主題的對決。
一方是Meta推出的Llama,因其開源特性深受開發者社區歡迎。日本電氣公司(NEC)在研究Llama論文和原始碼後,迅速開發出了日語版ChatGPT,爲日本解決了AI發展的瓶頸。
另一方是名爲Falcon的大模型。今年5月,Falcon-40B問世,超越Llama登頂了"開源LLM排行榜"。該榜單由開源模型社區制作,提供了評估LLM能力的標準。排行榜基本上就是Llama和Falcon輪流佔據榜首。
Llama 2發布後,Llama家族暫時領先;但到了9月初,Falcon推出180B版本,再次獲得更高排名。
有趣的是,Falcon的開發者是阿聯酋首都阿布扎比的科技創新研究所。阿聯酋官方表示,他們參與這個領域是爲了打破現有格局。
180B版本發布次日,阿聯酋人工智能部長入選了《時代周刊》評選的"AI領域最具影響力的100人";與他一同入選的還有"AI教父"辛頓、OpenAI的阿爾特曼等人。
如今,AI領域已進入百花齊放階段:稍有財力的國家和企業,都在推進本土版ChatGPT的計劃。僅在海灣地區,就不止一個參與者——8月,沙特阿拉伯剛爲國內大學購買了3000多塊H100芯片,用於訓練LLM。
有投資人曾吐槽道:"當年看不起互聯網的商業模式創新,覺得沒有壁壘;沒想到硬科技大模型創業,依然是百家爭鳴..."
本應是高難度的硬科技,爲何變成了人人都能參與的競賽?
Transformer:AI發展的關鍵轉折點
美國初創公司、中國科技巨頭、中東石油大亨能夠追逐大模型夢想,都要歸功於那篇著名論文:《Attention Is All You Need》。
2017年,8位谷歌計算機科學家在這篇論文中公開了Transformer算法。這篇論文目前是AI歷史上被引用第三多的論文,Transformer的出現引發了此輪AI熱潮。
當前各種大模型,包括轟動全球的GPT系列,都建立在Transformer的基礎之上。
在此之前,讓機器理解文字一直是學術界的難題。不同於圖像識別,人類閱讀時不僅關注當前詞句,還會結合上下文理解。早期神經網路的輸入彼此獨立,難以理解長文本甚至整篇文章。
2014年,谷歌科學家伊利亞首次取得突破。他使用循環神經網路(RNN)處理自然語言,使谷歌翻譯性能大幅提升。RNN引入"循環設計",讓神經元既接收當前輸入,也接收上一時刻輸入,從而具備了"結合上下文"的能力。
RNN的出現激發了學術界的研究熱情。然而開發者們很快發現,RNN存在嚴重缺陷:該算法使用順序計算,雖然解決了上下文問題,但運行效率低下,難以處理大量參數。
從2015年開始,沙澤爾等人着手開發RNN的替代品,最終成果就是Transformer。相比RNN,Transformer有兩大創新:一是用位置編碼取代循環設計,實現並行計算,大幅提升訓練效率;二是進一步增強了理解上下文的能力。
Transformer一舉解決了多個技術難題,逐漸成爲自然語言處理的主流方案。它讓大模型從理論研究轉變爲純粹的工程問題。
2019年,OpenAI基於Transformer開發出GPT-2,震驚學術界。谷歌隨即推出性能更強的AI——Meena。Meena相比GPT-2沒有算法創新,僅是增加了訓練參數和算力。這種"暴力堆砌"方法給Transformer作者沙澤爾留下深刻印象。
Transformer的問世,使學術界底層算法創新速度放緩。數據工程、算力規模、模型架構等工程要素,逐漸成爲AI競賽的關鍵。只要有一定技術實力的公司,都能開發出大模型。
計算機科學家吳恩達在斯坦福大學演講時指出:"AI是一系列工具的集合,包括監督學習、無監督學習、強化學習以及現在的生成式AI。這些都是通用技術,類似於電力和互聯網。"
OpenAI雖然仍是LLM的領跑者,但半導體分析機構認爲,GPT-4的優勢主要源自工程解決方案——如果開源,任何競爭對手都能快速復制。該分析師預計,其他大型科技公司可能很快就能打造出與GPT-4性能相當的大模型。
護城河的脆弱性
如今,"百模大戰"已不再是誇張說法,而是客觀現實。
報告顯示,截至今年7月,中國大模型數量達130個,超過美國的114個。除中美兩國外,其他富裕國家也紛紛推出本土大模型:如印度政府主導的Bhashini、韓國互聯網公司Naver打造的HyperClova X等。
這場景仿佛回到了互聯網早期,資本與技術激烈角逐的時代。
正如前文所述,Transformer使大模型成爲純工程問題,只要有人才、資金和硬件,就能通過堆砌參數來實現。但入場門檻降低並不意味着人人都能成爲AI時代的巨頭。
以文章開頭提到的"動物大戰"爲例:Falcon雖然在某些排名上超越了Llama,但對Meta的實際影響有限。
衆所周知,企業開源自身的科研成果,既是爲了分享科技進步,也希望借助羣衆智慧。隨着學術界和產業界不斷使用、改進Llama,Meta可以將這些成果應用到自己的產品中。
對開源大模型而言,活躍的開發者社區才是核心競爭力。Meta早在2015年成立AI實驗室時就確立了開源策略;扎克伯格憑藉社交媒體起家,深諳"維護用戶關係"之道。
例如今年10月,Meta專門舉辦了"AI創作者激勵"活動:使用Llama 2解決教育、環境等社會問題的開發者,有機會獲得50萬美元資助。
如今,Meta的Llama系列已成爲開源LLM的標杆。截至10月初,某開源LLM排行榜前10名中,8個都基於Llama 2開發,採用其開源協議。僅在該平台上,使用Llama 2開源協議的LLM就超過1500個。
當然,像Falcon那樣提升性能也是一種策略,但目前大多數LLM與GPT-4仍有明顯差距。
例如近期,GPT-4以4.41分的成績在AgentBench測試中排名第一。AgentBench由多所知名大學共同推出,用於評估LLM在多維度開放式環境中的推理和決策能力。測試結果顯示,第二名Claude僅2.77分,差距顯著。其他知名開源LLM的得分多在1分左右,不到GPT-4的四分之一。
值得注意的是,GPT-4發布於今年3月,這還是全球同行追趕半年多後的成績。OpenAI能保持領先地位,源自其高水平的科研團隊和長期積累的經驗。
換言之,大模型的核心優勢並非參數規模,而是生態建設(開源路線)或純粹的推理能力(閉源路線)。
隨着開源社區日益活躍,各LLM的性能可能趨於一致,因爲大家都在使用相似的模型架構和數據集。
另一個更直觀的問題是:除了Midjourney,似乎還沒有哪個大模型能實現盈利。
價值錨定的挑戰
今年8月,一篇題爲"OpenAI可能於2024年底破產"的文章引發關注。文章主旨可概括爲:OpenAI的燒錢速度過快。
文中提到,自開發ChatGPT以來,OpenAI的虧損迅速擴大,2022年就虧損約5.4億美元,只能依靠微軟投資維持。
雖然標題有些聳人聽聞,但確實反映了大模型提供商的普遍現狀:成本與收入嚴重失衡。
過高的成本導致目前主要受益於AI熱潮的只有英偉達等芯片制造商。
據諮詢公司Omdia估計,英偉達在今年二季度售出超30萬塊H100芯片。這是一款高效的AI芯片,全球科技公司和研究機構都在爭相購買。如果將這30萬塊H100疊在一起,重量相當於4.5架波音747飛機。
英偉達的業績隨之飆升,同比營收增長854%,令華爾街震驚。目前H100在二手市場的價格已被炒到4-5萬美元,而其物料成本僅約3000美元。
高昂的算力成本在某種程度上阻礙了行業發展。紅杉資本曾估算:全球科技公司每年預計將投入2000億美元用於大模型基礎設施建設;相比之下,大模型每年最多只能產生750億美元的收入,存在至少1250億美元的缺口。
此外,除了Midjourney等少數例外,大多數軟件公司在投入巨額成本後,仍未找到清晰的盈利模式。即使是行業領頭羊微軟和Adobe的AI業務也面臨挑戰。
微軟與OpenAI合作開發的AI代碼生成工具GitHub Copilot,雖每月收取10美元會費,但由於設施成本,微軟反而每月虧損20美元,重度用戶甚至會讓微軟每月虧損80美元。據此推測,定價30美元的Microsoft 365 Copilot可能虧損更多。
同樣,剛推出Firefly AI工具的Adobe也迅速引入了積分系統,防止用戶過度使用導致公司虧損。一旦用戶超出每月分配的積分,Adobe就會降低服務速度。
值得注意的是,微軟和Adobe已經擁有明確的業務場景和大量付費用戶。而大多數參數規模龐大的大模型,最主要的應用場景仍是聊天。
不可否認,如果沒有OpenAI和ChatGPT的橫空出世,這場AI革命可能不會發生。但在當前階段,訓練大模型所創造的價值仍有待商榷。
隨着同質化競爭加劇,以及開源模型的不斷湧現,單純的大模型供應商可能面臨更大的生存壓力。
就像iPhone 4的成功不僅僅依賴於其A4處理器,而是因爲它能運行各種有趣的應用一樣,AI的真正價值可能更多地體現在其具體應用場景中。