Character.AI revela tecnologia de vídeo AI em tempo real com TalkingMachines

Rebeca Moen

04 Jul 2025 04:27

Character.AI apresenta TalkingMachines, uma inovação na geração de vídeo AI em tempo real, utilizando modelos de difusão avançados para animação de personagens interativa e impulsionada por áudio.

A Character.AI anunciou um avanço significativo na geração de vídeo em tempo real com o lançamento do TalkingMachines, um modelo inovador de difusão autorregressiva. Esta nova tecnologia permite a criação de vídeos interativos, impulsionados por áudio, no estilo FaceTime, permitindo que os personagens conversem em tempo real em vários estilos e géneros, conforme reportado pelo Blog da Character.AI.

Revolucionando a Geração de Vídeo

TalkingMachines baseia-se no trabalho anterior da Character.AI, AvatarFX, que potencia a geração de vídeo na sua plataforma. Este novo modelo estabelece o cenário para interações visuais imersivas e em tempo real, impulsionadas por IA, e personagens animados. Ao utilizar apenas uma imagem e um sinal de voz, o modelo pode gerar conteúdo de vídeo dinâmico, abrindo novas possibilidades para entretenimento e media interativa.

A Tecnologia Por Trás das TalkingMachines

O modelo aproveita a arquitetura Diffusion Transformer (DiT), utilizando um método conhecido como destilação de conhecimento assimétrica. Esta abordagem transforma um modelo de vídeo bidirecional de alta qualidade em um gerador rápido e em tempo real. As principais características incluem:

  • Difusão com Fluxo Correspondente: Pré-treinada para gerenciar padrões de movimento complexos, desde expressões sutis a gestos dinâmicos.
  • Atenção Cruzada Driven por Áudio: Um módulo de áudio de 1,2B de parâmetros que alinha som e movimento de forma intrincada.
  • Atenção Causal Esparsa: Reduz a memória e a latência ao se concentrar em quadros passados relevantes.
  • Destilação Assimétrica: Utiliza um modelo de difusão rápido em duas etapas para geração de comprimento infinito sem perda de qualidade.

Implicações para o Futuro

Este avanço vai além da animação facial, abrindo caminho para personagens de IA audiovisuais interativos. Suporta uma ampla gama de estilos, desde fotorealistas a anime e avatares 3D, e está preparado para melhorar a transmissão com fases de fala e escuta naturais. Esta tecnologia estabelece as bases para interpretação de papéis, narração de histórias e construção de mundos interativos.

Avanço das Capacidades de IA

A pesquisa da Character.AI marca vários avanços, incluindo geração em tempo real, destilação eficiente e alta escalabilidade, com operações capazes de rodar em apenas duas GPUs. O sistema também suporta interações com múltiplos falantes, permitindo diálogos de personagens sem costura.

Perspectivas Futuras

Embora ainda não seja um lançamento de produto, este desenvolvimento é um marco crítico no roteiro da Character.AI. A empresa está trabalhando para integrar esta tecnologia em sua plataforma, com o objetivo de permitir experiências semelhantes ao FaceTime, streaming de personagens e construção de mundos visuais. O objetivo final é democratizar a criação e a interação com personagens audiovisuais imersivos.

A Character.AI investiu pesadamente em infraestrutura de treinamento e design de sistemas, utilizando mais de 1,5 milhão de clipes de vídeo curados e um pipeline de treinamento em três etapas. Esta abordagem exemplifica a precisão e o propósito da pesquisa de ponta em tecnologia de IA.

Fonte da imagem: Shutterstock

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)