Производители крупных моделей соревнуются в преодолении способности к длинным текстам, 400000 токенов могут быть лишь началом
Большие модели стремительно повышают способность обработки длинных текстов, с первоначальных 4000 токенов до 400000 токенов. Способность к обработке длинных текстов стала новой "стандартной функцией" для многих производителей моделей.
Согласно статистике, в настоящее время в стране и за рубежом несколько ведущих компаний и исследовательских институтов, таких как OpenAI, Anthropic, Meta, Лунная темная сторона и другие, делают расширение длины контекста своим приоритетным направлением обновления. Большинство из этих компаний являются объектами горячего интереса на капитальном рынке и получили крупное финансирование.
Почему компании, занимающиеся большими моделями, так сильно акцентируют внимание на технологиях длинного текста? Что означает увеличение длины контекста в 100 раз?
На первый взгляд, это означает, что текст, который может быть введен в модель, становится все длиннее, а способность к чтению — все сильнее. Более глубоко, технологии длинных текстов способствуют внедрению больших моделей в специализированные области, такие как финансы, юстиция, научные исследования и т.д., улучшая такие способности, как резюмирование длинных документов, понимание прочитанного, ответы на вопросы и т.д.
Однако исследования показывают, что поддержка более длинного контекста и лучшие результаты не всегда идут рука об руку. Ключевым является использование модели контентом. В настоящее время исследования длины текста как в стране, так и за рубежом еще далеки от "критической точки", и 400 тысяч токенов могут быть лишь началом.
Основатель "Темной стороны луны" Ян Чжилун отметил, что именно из-за ограниченной длины ввода больших моделей возникли многие проблемы с реализацией приложений. В будущем на пути к агентам и нативным приложениям ИИ длинные тексты играют важную роль.
Технология длинных текстов может решить некоторые проблемы ранних больших моделей и является ключевой технологией для продвижения внедрения в промышленность. Это знаменует собой переход развития больших моделей от LLM к Long LLM.
С помощью Kimi Chat на темной стороне Луны мы можем заглянуть в возможности обновления больших моделей на этапе Long LLM, такие как извлечение сверхдлинной текстовой информации, генерация кода, ролевые игры и т.д. Это демонстрирует, что разговорные роботы развиваются в направлении профессионализации, персонализации и углубления, и есть надежда, что они станут рычагом для внедрения в промышленность.
Однако, технологии работы с длинными текстами сталкиваются с "треугольником невозможного": длина текста, внимание и вычислительная мощность. Поскольку вычислительная нагрузка механизма внимания растет в квадрате с увеличением длины контекста, слишком длинный контекст приводит к рассеиванию внимания. В то же время нехватка вычислительной мощности также ограничивает прорывы в технологиях длинных текстов.
В настоящее время существует три основных решения: использование внешних инструментов для обработки, оптимизация вычислений механизма самовнимания и применение методов оптимизации модели. Все крупные компании ищут оптимальный баланс между этими тремя подходами, чтобы обрабатывать достаточное количество информации, одновременно учитывая ограничения вычислительной мощности и вычислений внимания.
Прорыв в технологии длинных текстов знаменует собой переход больших моделей к более профессиональным и глубоким сценариям применения. В будущем, с продолжающейся эволюцией технологий, большие модели могут сыграть важную роль в более широких областях.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
14 Лайков
Награда
14
8
Поделиться
комментарий
0/400
DegenRecoveryGroup
· 07-18 23:16
400000 токенов Полная голова вопросов
Посмотреть ОригиналОтветить0
ApeWithAPlan
· 07-17 03:11
Четыреста тысяч токенов? Выдержал.
Посмотреть ОригиналОтветить0
GasFeeBeggar
· 07-16 18:47
40w длинны тоже недостаточно, чтобы мне считать деньги.
Посмотреть ОригиналОтветить0
HalfBuddhaMoney
· 07-16 18:44
Для чего нужны 400000 токенов? Не могу выпить кофе.
Посмотреть ОригиналОтветить0
GateUser-44a00d6c
· 07-16 18:36
Наверное, не хватает денег на видеокарту.
Посмотреть ОригиналОтветить0
MEV_Whisperer
· 07-16 18:32
Вычислительная мощность жжет деньги
Посмотреть ОригиналОтветить0
VirtualRichDream
· 07-16 18:28
Играй во что угодно, все на максимальном уровне...
Посмотреть ОригиналОтветить0
AirdropGrandpa
· 07-16 18:26
Какой смысл в длинном контексте, если это утомляет?
Большая модель преодолела 400000 токенов длинного текста, соотношение длины и эффективности стало основной темой.
Производители крупных моделей соревнуются в преодолении способности к длинным текстам, 400000 токенов могут быть лишь началом
Большие модели стремительно повышают способность обработки длинных текстов, с первоначальных 4000 токенов до 400000 токенов. Способность к обработке длинных текстов стала новой "стандартной функцией" для многих производителей моделей.
Согласно статистике, в настоящее время в стране и за рубежом несколько ведущих компаний и исследовательских институтов, таких как OpenAI, Anthropic, Meta, Лунная темная сторона и другие, делают расширение длины контекста своим приоритетным направлением обновления. Большинство из этих компаний являются объектами горячего интереса на капитальном рынке и получили крупное финансирование.
Почему компании, занимающиеся большими моделями, так сильно акцентируют внимание на технологиях длинного текста? Что означает увеличение длины контекста в 100 раз?
На первый взгляд, это означает, что текст, который может быть введен в модель, становится все длиннее, а способность к чтению — все сильнее. Более глубоко, технологии длинных текстов способствуют внедрению больших моделей в специализированные области, такие как финансы, юстиция, научные исследования и т.д., улучшая такие способности, как резюмирование длинных документов, понимание прочитанного, ответы на вопросы и т.д.
Однако исследования показывают, что поддержка более длинного контекста и лучшие результаты не всегда идут рука об руку. Ключевым является использование модели контентом. В настоящее время исследования длины текста как в стране, так и за рубежом еще далеки от "критической точки", и 400 тысяч токенов могут быть лишь началом.
Основатель "Темной стороны луны" Ян Чжилун отметил, что именно из-за ограниченной длины ввода больших моделей возникли многие проблемы с реализацией приложений. В будущем на пути к агентам и нативным приложениям ИИ длинные тексты играют важную роль.
Технология длинных текстов может решить некоторые проблемы ранних больших моделей и является ключевой технологией для продвижения внедрения в промышленность. Это знаменует собой переход развития больших моделей от LLM к Long LLM.
С помощью Kimi Chat на темной стороне Луны мы можем заглянуть в возможности обновления больших моделей на этапе Long LLM, такие как извлечение сверхдлинной текстовой информации, генерация кода, ролевые игры и т.д. Это демонстрирует, что разговорные роботы развиваются в направлении профессионализации, персонализации и углубления, и есть надежда, что они станут рычагом для внедрения в промышленность.
Однако, технологии работы с длинными текстами сталкиваются с "треугольником невозможного": длина текста, внимание и вычислительная мощность. Поскольку вычислительная нагрузка механизма внимания растет в квадрате с увеличением длины контекста, слишком длинный контекст приводит к рассеиванию внимания. В то же время нехватка вычислительной мощности также ограничивает прорывы в технологиях длинных текстов.
В настоящее время существует три основных решения: использование внешних инструментов для обработки, оптимизация вычислений механизма самовнимания и применение методов оптимизации модели. Все крупные компании ищут оптимальный баланс между этими тремя подходами, чтобы обрабатывать достаточное количество информации, одновременно учитывая ограничения вычислительной мощности и вычислений внимания.
Прорыв в технологии длинных текстов знаменует собой переход больших моделей к более профессиональным и глубоким сценариям применения. В будущем, с продолжающейся эволюцией технологий, большие модели могут сыграть важную роль в более широких областях.