Os fabricantes de grandes modelos competem para superar a capacidade de texto longo 400 mil tokens podem ser apenas o começo
Os grandes modelos estão a melhorar a capacidade de processamento de longos textos a uma velocidade impressionante, passando de 4000 tokens para 400000 tokens. A capacidade de longos textos tornou-se um novo "padrão" entre os principais fabricantes de modelos.
De acordo com estatísticas, atualmente, várias empresas e instituições de pesquisa de modelos grandes, como OpenAI, Anthropic, Meta e a Face Oculta da Lua, estão focando na expansão do comprimento do contexto como uma direção de atualização prioritária. A maioria dessas empresas é muito valorizada no mercado de capitais e obteve grandes financiamentos.
Por que as empresas de grandes modelos valorizam tanto a tecnologia de texto longo? O que significa aumentar a extensão do contexto em 100 vezes?
À primeira vista, isso significa que o texto que o modelo pode processar está a ficar cada vez mais longo e a sua capacidade de leitura está a aumentar. Em um nível mais profundo, a tecnologia de textos longos está a impulsionar a aplicação prática de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica, como a melhoria das capacidades de resumo de documentos longos, compreensão de leitura e perguntas e respostas.
No entanto, estudos mostram que o suporte do modelo para contextos mais longos e um desempenho melhor não podem ser diretamente equiparados. O uso do conteúdo do contexto pelo modelo é mais crucial. Atualmente, a exploração do comprimento do texto, tanto nacional quanto internacionalmente, ainda está longe de atingir o "ponto crítico", 400 mil tokens podem ser apenas o começo.
O fundador da Dark Side of the Moon, Yang Zhilin, afirmou que é precisamente devido à limitação do comprimento de entrada dos grandes modelos que surgem muitas dificuldades na implementação de aplicações. No caminho para aplicações nativas de Agent e AI do futuro, os textos longos desempenham um papel importante.
A tecnologia de texto longo pode resolver alguns dos problemas iniciais dos grandes modelos e é também uma tecnologia chave para a implementação da indústria. Isso marca a transição do desenvolvimento de grandes modelos de LLM para Long LLM.
Através do Kimi Chat da face oculta da lua, podemos ter uma visão das funcionalidades de atualização do modelo de grande escala da fase Long LLM, como extração de informações de textos muito longos, geração de código, interpretação de papéis, entre outros. Isso mostra que os chatbots estão se desenvolvendo em direção à especialização, personalização e profundidade, e têm o potencial de se tornar uma alavanca para a implementação industrial.
No entanto, a tecnologia de longos textos enfrenta o dilema do "triângulo impossível" de comprimento do texto, atenção e poder computacional. Como a carga computacional do mecanismo de atenção cresce em um nível quadrático com o comprimento do contexto, um contexto excessivamente longo pode levar à dispersão da atenção. Ao mesmo tempo, a escassez de poder computacional também limita os avanços na tecnologia de longos textos.
Atualmente, existem três soluções principais: usar ferramentas externas para assistência no processamento, otimizar o cálculo do mecanismo de autoatenção e utilizar métodos de otimização de modelos. As principais empresas estão à procura do melhor ponto de equilíbrio entre essas três abordagens, a fim de processar informações suficientes enquanto consideram as limitações de cálculo e de atenção.
A quebra da tecnologia de texto longo marca o avanço dos grandes modelos em cenários de aplicação mais profissionais e profundos. No futuro, à medida que a tecnologia continuar a evoluir, espera-se que os grandes modelos desempenhem um papel importante em uma gama mais ampla de áreas.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
14 gostos
Recompensa
14
8
Republicar
Partilhar
Comentar
0/400
DegenRecoveryGroup
· 07-18 23:16
400 mil tokens com a cabeça cheia de interrogações
Ver originalResponder0
ApeWithAPlan
· 07-17 03:11
Quatrocentos mil tokens? Aguentou.
Ver originalResponder0
GasFeeBeggar
· 07-16 18:47
40w de comprimento não é suficiente para eu contar dinheiro
Ver originalResponder0
HalfBuddhaMoney
· 07-16 18:44
Para que serve 400 mil tokens? Não consigo tomar café.
Ver originalResponder0
GateUser-44a00d6c
· 07-16 18:36
Não há dinheiro para comprar uma placa gráfica, certo?
Ver originalResponder0
MEV_Whisperer
· 07-16 18:32
Poder de computação queima dinheiro
Ver originalResponder0
VirtualRichDream
· 07-16 18:28
Jogar qualquer coisa até ao nível máximo...
Ver originalResponder0
AirdropGrandpa
· 07-16 18:26
Qual é a utilidade de um contexto longo? Cansativo.
O grande modelo ultrapassa 400.000 tokens de texto longo, o equilíbrio entre comprimento e efeito torna-se o foco.
Os fabricantes de grandes modelos competem para superar a capacidade de texto longo 400 mil tokens podem ser apenas o começo
Os grandes modelos estão a melhorar a capacidade de processamento de longos textos a uma velocidade impressionante, passando de 4000 tokens para 400000 tokens. A capacidade de longos textos tornou-se um novo "padrão" entre os principais fabricantes de modelos.
De acordo com estatísticas, atualmente, várias empresas e instituições de pesquisa de modelos grandes, como OpenAI, Anthropic, Meta e a Face Oculta da Lua, estão focando na expansão do comprimento do contexto como uma direção de atualização prioritária. A maioria dessas empresas é muito valorizada no mercado de capitais e obteve grandes financiamentos.
Por que as empresas de grandes modelos valorizam tanto a tecnologia de texto longo? O que significa aumentar a extensão do contexto em 100 vezes?
À primeira vista, isso significa que o texto que o modelo pode processar está a ficar cada vez mais longo e a sua capacidade de leitura está a aumentar. Em um nível mais profundo, a tecnologia de textos longos está a impulsionar a aplicação prática de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica, como a melhoria das capacidades de resumo de documentos longos, compreensão de leitura e perguntas e respostas.
No entanto, estudos mostram que o suporte do modelo para contextos mais longos e um desempenho melhor não podem ser diretamente equiparados. O uso do conteúdo do contexto pelo modelo é mais crucial. Atualmente, a exploração do comprimento do texto, tanto nacional quanto internacionalmente, ainda está longe de atingir o "ponto crítico", 400 mil tokens podem ser apenas o começo.
O fundador da Dark Side of the Moon, Yang Zhilin, afirmou que é precisamente devido à limitação do comprimento de entrada dos grandes modelos que surgem muitas dificuldades na implementação de aplicações. No caminho para aplicações nativas de Agent e AI do futuro, os textos longos desempenham um papel importante.
A tecnologia de texto longo pode resolver alguns dos problemas iniciais dos grandes modelos e é também uma tecnologia chave para a implementação da indústria. Isso marca a transição do desenvolvimento de grandes modelos de LLM para Long LLM.
Através do Kimi Chat da face oculta da lua, podemos ter uma visão das funcionalidades de atualização do modelo de grande escala da fase Long LLM, como extração de informações de textos muito longos, geração de código, interpretação de papéis, entre outros. Isso mostra que os chatbots estão se desenvolvendo em direção à especialização, personalização e profundidade, e têm o potencial de se tornar uma alavanca para a implementação industrial.
No entanto, a tecnologia de longos textos enfrenta o dilema do "triângulo impossível" de comprimento do texto, atenção e poder computacional. Como a carga computacional do mecanismo de atenção cresce em um nível quadrático com o comprimento do contexto, um contexto excessivamente longo pode levar à dispersão da atenção. Ao mesmo tempo, a escassez de poder computacional também limita os avanços na tecnologia de longos textos.
Atualmente, existem três soluções principais: usar ferramentas externas para assistência no processamento, otimizar o cálculo do mecanismo de autoatenção e utilizar métodos de otimização de modelos. As principais empresas estão à procura do melhor ponto de equilíbrio entre essas três abordagens, a fim de processar informações suficientes enquanto consideram as limitações de cálculo e de atenção.
A quebra da tecnologia de texto longo marca o avanço dos grandes modelos em cenários de aplicação mais profissionais e profundos. No futuro, à medida que a tecnologia continuar a evoluir, espera-se que os grandes modelos desempenhem um papel importante em uma gama mais ampla de áreas.