Les fabricants de grands modèles se battent pour surmonter la capacité de traitement de longs textes, 400 000 tokens ne sont peut-être que le commencement.
Les grands modèles améliorent leur capacité de traitement de longs textes à une vitesse incroyable, passant de 4000 tokens à 400 000 tokens. La capacité de traitement de longs textes est devenue la nouvelle "norme" pour les principaux fabricants de modèles.
Selon les statistiques, plusieurs grandes entreprises de modèles, telles qu'OpenAI, Anthropic, Meta et Dark Side of the Moon, tant au niveau national qu'international, se concentrent sur l'extension de la longueur du contexte comme direction de mise à niveau prioritaire. La plupart de ces entreprises sont très prisées par le marché des capitaux et ont obtenu des financements importants.
Pourquoi les entreprises de modèles de grande taille accordent-elles une si grande importance à la technologie des longs textes ? Que signifie un allongement de la longueur du contexte de 100 fois ?
En surface, cela signifie que la longueur du texte pouvant être saisie par le modèle augmente et que ses capacités de lecture s'améliorent. À un niveau plus profond, la technologie des longs textes favorise l'application des grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique, comme l'amélioration des capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses.
Cependant, les recherches montrent que le soutien des modèles à un contexte plus long ne peut pas être directement égalé à de meilleures performances. L'utilisation du contenu contextuel par les modèles est plus cruciale. Actuellement, les explorations sur la longueur du texte, tant au niveau national qu'international, n'ont pas encore atteint le "point critique" ; 400 000 tokens ne sont peut-être que le début.
Le fondateur de Dark Side of the Moon, Yang Zhilin, a déclaré que c'est en raison de la limite de longueur d'entrée des grands modèles que de nombreuses applications rencontrent des difficultés à se concrétiser. Sur la voie des applications Agent et AI natives du futur, les longs textes jouent un rôle important.
La technologie de texte long peut résoudre certains problèmes des grands modèles à un stade précoce et est également une technologie clé pour faire avancer l'industrialisation. Cela marque la transition du développement des grands modèles d'un LLM à un Long LLM.
Avec Kimi Chat de la face cachée de la lune, nous pouvons avoir un aperçu des fonctionnalités de mise à niveau du modèle à grande échelle Long LLM, telles que l'extraction d'informations à partir de textes très longs, la génération de code, le jeu de rôle, etc. Cela montre que les robots de conversation évoluent vers une spécialisation, une personnalisation et une profondeur, et sont susceptibles de devenir un levier pour la mise en œuvre dans l'industrie.
Cependant, la technologie des longs textes est confrontée au dilemme du "triangle impossible" entre la longueur du texte, l'attention et la puissance de calcul. Comme la charge de calcul du mécanisme d'attention augmente de manière quadratique avec la longueur du contexte, un contexte trop long peut entraîner une dispersion de l'attention. En même temps, le manque de puissance de calcul limite également les percées dans la technologie des longs textes.
Actuellement, il existe principalement trois solutions : utiliser des outils externes pour l'assistance, optimiser le calcul du mécanisme d'attention, et utiliser des méthodes d'optimisation de modèle. Les principaux fabricants cherchent le meilleur compromis entre ces trois solutions, afin de traiter suffisamment d'informations tout en tenant compte des calculs d'attention et des limitations de puissance de calcul.
La percée de la technologie du long texte marque l'avancée des grands modèles vers des scénarios d'application plus spécialisés et plus approfondis. À l'avenir, avec l'évolution continue de la technologie, les grands modèles devraient jouer un rôle important dans des domaines plus variés.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
14 J'aime
Récompense
14
8
Partager
Commentaire
0/400
DegenRecoveryGroup
· 07-18 23:16
400 000 tokens plein de questions dans la tête
Voir l'originalRépondre0
ApeWithAPlan
· 07-17 03:11
Quatre cent mille tokens ? Ça a tenu.
Voir l'originalRépondre0
GasFeeBeggar
· 07-16 18:47
40w de long n'est même pas suffisant pour compter mon argent.
Voir l'originalRépondre0
HalfBuddhaMoney
· 07-16 18:44
À quoi servent 400 000 tokens ? On ne peut pas boire de café.
Voir l'originalRépondre0
GateUser-44a00d6c
· 07-16 18:36
Tu n'as plus d'argent pour acheter des cartes graphiques, n'est-ce pas ?
Voir l'originalRépondre0
MEV_Whisperer
· 07-16 18:32
Puissance de calcul brûle de l'argent
Voir l'originalRépondre0
VirtualRichDream
· 07-16 18:28
Jouer à tout en atteignant le niveau maximum...
Voir l'originalRépondre0
AirdropGrandpa
· 07-16 18:26
À quoi bon avoir un long contexte, je suis fatigué.
Les grands modèles franchissent 400 000 tokens de texte long, l'équilibre entre la longueur et l'effet devient le point central.
Les fabricants de grands modèles se battent pour surmonter la capacité de traitement de longs textes, 400 000 tokens ne sont peut-être que le commencement.
Les grands modèles améliorent leur capacité de traitement de longs textes à une vitesse incroyable, passant de 4000 tokens à 400 000 tokens. La capacité de traitement de longs textes est devenue la nouvelle "norme" pour les principaux fabricants de modèles.
Selon les statistiques, plusieurs grandes entreprises de modèles, telles qu'OpenAI, Anthropic, Meta et Dark Side of the Moon, tant au niveau national qu'international, se concentrent sur l'extension de la longueur du contexte comme direction de mise à niveau prioritaire. La plupart de ces entreprises sont très prisées par le marché des capitaux et ont obtenu des financements importants.
Pourquoi les entreprises de modèles de grande taille accordent-elles une si grande importance à la technologie des longs textes ? Que signifie un allongement de la longueur du contexte de 100 fois ?
En surface, cela signifie que la longueur du texte pouvant être saisie par le modèle augmente et que ses capacités de lecture s'améliorent. À un niveau plus profond, la technologie des longs textes favorise l'application des grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique, comme l'amélioration des capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses.
Cependant, les recherches montrent que le soutien des modèles à un contexte plus long ne peut pas être directement égalé à de meilleures performances. L'utilisation du contenu contextuel par les modèles est plus cruciale. Actuellement, les explorations sur la longueur du texte, tant au niveau national qu'international, n'ont pas encore atteint le "point critique" ; 400 000 tokens ne sont peut-être que le début.
Le fondateur de Dark Side of the Moon, Yang Zhilin, a déclaré que c'est en raison de la limite de longueur d'entrée des grands modèles que de nombreuses applications rencontrent des difficultés à se concrétiser. Sur la voie des applications Agent et AI natives du futur, les longs textes jouent un rôle important.
La technologie de texte long peut résoudre certains problèmes des grands modèles à un stade précoce et est également une technologie clé pour faire avancer l'industrialisation. Cela marque la transition du développement des grands modèles d'un LLM à un Long LLM.
Avec Kimi Chat de la face cachée de la lune, nous pouvons avoir un aperçu des fonctionnalités de mise à niveau du modèle à grande échelle Long LLM, telles que l'extraction d'informations à partir de textes très longs, la génération de code, le jeu de rôle, etc. Cela montre que les robots de conversation évoluent vers une spécialisation, une personnalisation et une profondeur, et sont susceptibles de devenir un levier pour la mise en œuvre dans l'industrie.
Cependant, la technologie des longs textes est confrontée au dilemme du "triangle impossible" entre la longueur du texte, l'attention et la puissance de calcul. Comme la charge de calcul du mécanisme d'attention augmente de manière quadratique avec la longueur du contexte, un contexte trop long peut entraîner une dispersion de l'attention. En même temps, le manque de puissance de calcul limite également les percées dans la technologie des longs textes.
Actuellement, il existe principalement trois solutions : utiliser des outils externes pour l'assistance, optimiser le calcul du mécanisme d'attention, et utiliser des méthodes d'optimisation de modèle. Les principaux fabricants cherchent le meilleur compromis entre ces trois solutions, afin de traiter suffisamment d'informations tout en tenant compte des calculs d'attention et des limitations de puissance de calcul.
La percée de la technologie du long texte marque l'avancée des grands modèles vers des scénarios d'application plus spécialisés et plus approfondis. À l'avenir, avec l'évolution continue de la technologie, les grands modèles devraient jouer un rôle important dans des domaines plus variés.