Em comparação com a geração de imagens, a geração de vídeo ainda apresenta desafios significativos. Em primeiro lugar, a geração de vídeo precisa processar dados de maior dimensão, considerando os problemas de modelagem de séries temporais trazidos pela dimensão de tempo adicional, de modo que mais dados de par vídeo-texto são necessários para impulsionar o aprendizado da dinâmica de séries temporais. No entanto, a anotação de tempo precisa de vídeos é muito cara. Isso limita a escala dos conjuntos de dados de vídeo-texto, como o conjunto de dados de vídeo WebVid10M existente contendo 10,7 milhões de pares vídeo-texto, que está longe do conjunto de dados de imagem LAION-5B em termos de escala de dados, e restringe seriamente a escala dos modelos de geração de vídeo. Para abordar essas questões, uma equipe de pesquisa conjunta da Universidade de Ciência e Tecnologia de Huazhong, Alibaba Group, Zhejiang University e Ant Group lançou recentemente a solução de vídeo TF-T2V. Neste esquema, propomos a geração de vídeo com base em dados de vídeo anotados sem texto em grande escala, que podem aprender dinâmicas de movimento ricas.