Huake Ali e outros criaram em conjunto a solução de vídeo TF-T2V, que elimina a necessidade de anotação de texto e reduz o custo de produção em massa de vídeo AI
Bit News Em comparação com a geração de imagens, a geração de vídeo ainda apresenta enormes desafios. Em primeiro lugar, a geração de vídeo precisa processar dados de maior dimensão, considerando os problemas de modelagem de séries temporais trazidos pela dimensão de tempo adicional, de modo que mais dados de par vídeo-texto são necessários para impulsionar o aprendizado da dinâmica de séries temporais. No entanto, a anotação de tempo precisa de vídeos é muito cara. Isso limita a escala dos conjuntos de dados de vídeo-texto, como o conjunto de dados de vídeo WebVid10M existente contendo 10,7 milhões de pares vídeo-texto, que está longe do conjunto de dados de imagem LAION-5B em termos de escala de dados, e restringe seriamente a escala dos modelos de geração de vídeo. Para abordar essas questões, uma equipe de pesquisa conjunta da Universidade de Ciência e Tecnologia de Huazhong, Alibaba Group, Zhejiang University e Ant Group lançou recentemente a solução de vídeo TF-T2V. Neste esquema, propomos a geração de vídeo com base em dados de vídeo anotados sem texto em grande escala, que podem aprender dinâmicas de movimento ricas.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Huake Ali e outros criaram em conjunto a solução de vídeo TF-T2V, que elimina a necessidade de anotação de texto e reduz o custo de produção em massa de vídeo AI
Bit News Em comparação com a geração de imagens, a geração de vídeo ainda apresenta enormes desafios. Em primeiro lugar, a geração de vídeo precisa processar dados de maior dimensão, considerando os problemas de modelagem de séries temporais trazidos pela dimensão de tempo adicional, de modo que mais dados de par vídeo-texto são necessários para impulsionar o aprendizado da dinâmica de séries temporais. No entanto, a anotação de tempo precisa de vídeos é muito cara. Isso limita a escala dos conjuntos de dados de vídeo-texto, como o conjunto de dados de vídeo WebVid10M existente contendo 10,7 milhões de pares vídeo-texto, que está longe do conjunto de dados de imagem LAION-5B em termos de escala de dados, e restringe seriamente a escala dos modelos de geração de vídeo. Para abordar essas questões, uma equipe de pesquisa conjunta da Universidade de Ciência e Tecnologia de Huazhong, Alibaba Group, Zhejiang University e Ant Group lançou recentemente a solução de vídeo TF-T2V. Neste esquema, propomos a geração de vídeo com base em dados de vídeo anotados sem texto em grande escala, que podem aprender dinâmicas de movimento ricas.