Постачальники великих моделей змагаються за прорив у здатності обробки довгих текстів, 400 тисяч токенів можуть бути лише початком
Великі моделі з неймовірною швидкістю підвищують здатність обробки довгих текстів, з початкових 4000 токенів піднявшись до 400000 токенів. Здатність до обробки довгих текстів стала новим "стандартом" для багатьох постачальників моделей.
Згідно з статистикою, наразі в країні та за кордоном вже декілька провідних компаній та дослідницьких установ, таких як OpenAI, Anthropic, Meta, Місячна темрява та інші, зосередилися на розширенні довжини контексту як ключовому напрямку оновлення. Більшість з цих компаній є об'єктами великого інтересу на ринку капіталу та отримали значне фінансування.
Чому компанії з великими моделями так важливо технології довгих текстів? Що означає розширення довжини контексту в 100 разів?
На перший погляд, це означає, що текст, який може бути введений в модель, стає все довшим, а здатність до читання - все сильнішою. На глибшому рівні, технології довгих текстів сприяють впровадженню великих моделей у професійних сферах, таких як фінанси, юстиція, наука тощо, такі як покращення можливостей резюмування довгих документів, розуміння прочитаного, запитання та відповіді.
Проте, дослідження показують, що підтримка моделей для довшого контексту та кращі результати не можна прямо прирівнювати. Використання моделі контекстуальних даних є більш критичним. Наразі дослідження текстової довжини в Україні та за кордоном ще далеко не досягли "критичної точки", 400 тисяч токенів можуть бути лише початком.
Засновник "Темної сторони Місяця" Ян Чжилінь зазначив, що саме через обмеження довжини вводу великих моделей виникають труднощі з реалізацією багатьох застосувань. На шляху до майбутнього агентів та AI-орієнтованих застосувань довгі тексти відіграють важливу роль.
Технологія довгого тексту може вирішити деякі проблеми ранніх великих моделей, а також є ключовою технологією для просування впровадження в промисловість. Це знаменує собою перехід розвитку великих моделей від LLM до Long LLM.
За допомогою Kimi Chat на темному боці Місяця, ми можемо заглянути в оновлені функції великих моделей на етапі Long LLM, такі як витяг інформації з наддовгих текстів, генерація коду, рольова гра тощо. Це показує, що діалогові роботи розвиваються в напрямку спеціалізації, індивідуалізації та поглиблення, і мають потенціал стати важелем для впровадження в промисловість.
Проте, технології довгих текстів стикаються з "неможливою трійкою" проблем з довжиною тексту, увагою та обчислювальними потужностями. Оскільки обчислювальні витрати механізму уваги зростають у квадратній залежності від довжини контексту, занадто довгий контекст може призвести до розсіювання уваги. Водночас нестача обчислювальної потужності також стримує прориви в технологіях довгих текстів.
Наразі існує три основні рішення: використання зовнішніх інструментів для допомоги в обробці, оптимізація обчислень механізму самостійної уваги, використання методів оптимізації моделі. Великі компанії шукають оптимальний баланс між цими трьома, щоб обробляти достатню кількість інформації, враховуючи обчислення уваги та обмеження обчислювальної потужності.
Прорив у технологіях роботи з великими текстами знаменує собою просування великих моделей до більш спеціалізованих і глибоких сценаріїв використання. У майбутньому, із продовженням еволюції технологій, великі моделі мають потенціал відігравати важливу роль у більш широких сферах.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
8 лайків
Нагородити
8
7
Поділіться
Прокоментувати
0/400
ApeWithAPlan
· 8год тому
Чотириста тисяч токенів? Витримав.
Переглянути оригіналвідповісти на0
GasFeeBeggar
· 16год тому
40w довжини недостатньо, щоб рахувати гроші.
Переглянути оригіналвідповісти на0
HalfBuddhaMoney
· 16год тому
40 тисяч токенів на що? Не можу випити кави.
Переглянути оригіналвідповісти на0
GateUser-44a00d6c
· 16год тому
Немає грошей на відеокарти, так?
Переглянути оригіналвідповісти на0
MEV_Whisperer
· 16год тому
Обчислювальна потужність витрачає гроші
Переглянути оригіналвідповісти на0
VirtualRichDream
· 16год тому
Грайте в що завгодно, досягайте максимального рівня...
Велика модель перевершила 400 тисяч токенів довгих текстів, баланс між довжиною та ефективністю став в центрі уваги.
Постачальники великих моделей змагаються за прорив у здатності обробки довгих текстів, 400 тисяч токенів можуть бути лише початком
Великі моделі з неймовірною швидкістю підвищують здатність обробки довгих текстів, з початкових 4000 токенів піднявшись до 400000 токенів. Здатність до обробки довгих текстів стала новим "стандартом" для багатьох постачальників моделей.
Згідно з статистикою, наразі в країні та за кордоном вже декілька провідних компаній та дослідницьких установ, таких як OpenAI, Anthropic, Meta, Місячна темрява та інші, зосередилися на розширенні довжини контексту як ключовому напрямку оновлення. Більшість з цих компаній є об'єктами великого інтересу на ринку капіталу та отримали значне фінансування.
Чому компанії з великими моделями так важливо технології довгих текстів? Що означає розширення довжини контексту в 100 разів?
На перший погляд, це означає, що текст, який може бути введений в модель, стає все довшим, а здатність до читання - все сильнішою. На глибшому рівні, технології довгих текстів сприяють впровадженню великих моделей у професійних сферах, таких як фінанси, юстиція, наука тощо, такі як покращення можливостей резюмування довгих документів, розуміння прочитаного, запитання та відповіді.
Проте, дослідження показують, що підтримка моделей для довшого контексту та кращі результати не можна прямо прирівнювати. Використання моделі контекстуальних даних є більш критичним. Наразі дослідження текстової довжини в Україні та за кордоном ще далеко не досягли "критичної точки", 400 тисяч токенів можуть бути лише початком.
Засновник "Темної сторони Місяця" Ян Чжилінь зазначив, що саме через обмеження довжини вводу великих моделей виникають труднощі з реалізацією багатьох застосувань. На шляху до майбутнього агентів та AI-орієнтованих застосувань довгі тексти відіграють важливу роль.
Технологія довгого тексту може вирішити деякі проблеми ранніх великих моделей, а також є ключовою технологією для просування впровадження в промисловість. Це знаменує собою перехід розвитку великих моделей від LLM до Long LLM.
За допомогою Kimi Chat на темному боці Місяця, ми можемо заглянути в оновлені функції великих моделей на етапі Long LLM, такі як витяг інформації з наддовгих текстів, генерація коду, рольова гра тощо. Це показує, що діалогові роботи розвиваються в напрямку спеціалізації, індивідуалізації та поглиблення, і мають потенціал стати важелем для впровадження в промисловість.
Проте, технології довгих текстів стикаються з "неможливою трійкою" проблем з довжиною тексту, увагою та обчислювальними потужностями. Оскільки обчислювальні витрати механізму уваги зростають у квадратній залежності від довжини контексту, занадто довгий контекст може призвести до розсіювання уваги. Водночас нестача обчислювальної потужності також стримує прориви в технологіях довгих текстів.
Наразі існує три основні рішення: використання зовнішніх інструментів для допомоги в обробці, оптимізація обчислень механізму самостійної уваги, використання методів оптимізації моделі. Великі компанії шукають оптимальний баланс між цими трьома, щоб обробляти достатню кількість інформації, враховуючи обчислення уваги та обмеження обчислювальної потужності.
Прорив у технологіях роботи з великими текстами знаменує собою просування великих моделей до більш спеціалізованих і глибоких сценаріїв використання. У майбутньому, із продовженням еволюції технологій, великі моделі мають потенціал відігравати важливу роль у більш широких сферах.