• CloneX
  • Posts
  • Edição duzentos e sete

Edição duzentos e sete

A 207 é movimentada

Tempo de leitura: 1 min e 58 seg

INTELIGÊNCIA ARTIFICIAL

Google libera geração de vídeos com IA no Brasil

O Google lançou no Brasil o Veo 3, modelo de IA que cria vídeos com áudio, e o Flow, plataforma de edição visual sem código.

Com o combo, é possível descrever cenas e gerar vídeos com física realista, sincronia labial e trilha sonora integrada.

Usuários do plano Google AI Pro podem criar vídeos profissionais direto do celular, antes estava disponível apenas para USA.

Fonte: Google

Mais detalhes:

  • O plano custa US$ 19,99/mês, mesmo preço do ChatGPT Plus, e oferece 1 mês grátis para novos usuários.

  • Estudantes com e-mail institucional ganham 15 meses gratuitos, se ativarem até 30 de junho de 2025 nesse link. Se não for aceito, use esse link para enviar mensagem de suporte.

  • Inclui acesso ao AI Studio para testar APIs como Imagen 4 e Gemini 2.5, e publicar direto no Google Cloud.

TECNOLOGIA EXPLICADA

Como o Veo 3 gera vídeos com áudio sincronizado a partir de texto?

O processo começa com um modelo de linguagem, que interpreta o texto como roteiro, identificando personagens, ações, falas e emoções.

Depois, um modelo de difusão gera o vídeo quadro a quadro, mantendo continuidade visual e prevendo ações antes e depois de cada movimento.

Por fim, outro modelo gera a fala e os sons, sincronizando a voz com os lábios e adicionando ruídos ou música, conforme o contexto.

Fonte: CloneX

Mais detalhes:

  • O segredo está no alinhamento temporal: a IA detecta momentos de ação, fala ou movimento e gera pontos de ancoragem para sincronizar o áudio. Se um personagem vai falar, o modelo gera o movimento labial sincronizado com a voz, respeitando ritmo e tempo real.

  • O vídeo é gerado primeiro, com metadados que indicam eventos relevantes (como boca abrindo ou objeto colidindo). O modelo de áudio lê esses dados e decide quando inserir fala, som ambiente ou música, encaixando cada som no tempo certo.Ainda não testamos a nova versão, mas em breve traremos nossa avaliação.

  • A sincronia labial usa a técnica chamada visema-fonema alignment, que associa sons (fonemas) a formas de boca (visemas), garantindo que imagem e fala combinem.

CLONEX CLUB

Veo 3

Estamos testando a plataforma esta semana.

Vamos mostrar aqui e/ou no Instagram o que estamos fazendo e como estamos usando.

O modelo e a plataforma saíram semana passada, então ainda não há especialistas.

É uma chance de aprender uma habilidade absurdamente relevante.

Se criar algo legal, manda pra gente — estamos curiosos!

Bom dia. Até amanhã. Tchau.

Aqui você encontra os links que mostramos nos vídeos do Insta da CloneX.

Para acessar é só clicar no nome.

  • Y-Combinator: ideias para startups de agentes de IA.

  • Cluely: plataforma para "colar" em tudo.

  • Forms: sobre o interesse em implementar agentes de IA na sua empresa.