15/02/2024

Sora - OpenAI: geração de vídeos por meio de textos

Sora - OpenAI

Clique no link abaixo para ver os primeiros vídeos gerados por texto por meio da Inteligência Artificial.

https://openai.com/sora


No seguinte link você vai entender melhor os modelos de geração de vídeo como simuladores de mundo.
https://openai.com/research/video-generation-models-as-world-simulators


Estamos ensinando IA a compreender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exigem interação no mundo real.

Apresentando Sora, nosso modelo de texto para vídeo. Sora pode gerar vídeos de até um minuto, mantendo a qualidade visual e a aderência às instruções do usuário.

Hoje, Sora está se tornando disponível para os red teamers avaliarem áreas críticas em busca de danos ou riscos. Também estamos concedendo acesso a vários artistas visuais, designers e cineastas para obter feedback sobre como fazer com que o modelo seja mais útil para profissionais criativos.

Estamos compartilhando o progresso de nossa pesquisa antecipadamente para começar a trabalhar e obter feedback de pessoas fora da OpenAI e para dar ao público uma noção de quais recursos de IA estão no horizonte.

Sora é capaz de gerar cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo. O modelo entende não apenas o que o usuário pediu no prompt, mas também como essas coisas existem no mundo físico.

O modelo tem um profundo conhecimento da linguagem, o que lhe permite interpretar com precisão as instruções e gerar personagens atraentes que expressam emoções vibrantes. Sora também pode criar várias tomadas em um único vídeo gerado que persistem com precisão os personagens e o estilo visual.

O modelo atual tem pontos fracos. Pode ter dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito. Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida.

O modelo também pode confundir detalhes espaciais de um prompt, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.


Segurança

Tomaremos várias medidas de segurança importantes antes de disponibilizar o Sora nos produtos da OpenAI. Estamos trabalhando com red teamers – especialistas em áreas como desinformação, conteúdo de ódio e preconceito – que testarão o modelo de forma adversa.

Também estamos construindo ferramentas para ajudar a detectar conteúdo enganoso, como um classificador de detecção que pode dizer quando um vídeo foi gerado por Sora. Planejamos incluir metadados C2PA no futuro se implantarmos o modelo em um produto OpenAI.

Além de desenvolvermos novas técnicas para nos prepararmos para a implantação, estamos aproveitando os métodos de segurança existentes que construímos para nossos produtos que usam DALL·E 3, que também são aplicáveis ​​ao Sora.

Por exemplo, uma vez em um produto OpenAI, nosso classificador de texto verificará e rejeitará solicitações de entrada de texto que violem nossas políticas de uso, como aquelas que solicitam violência extrema, conteúdo sexual, imagens de ódio, semelhança de celebridades ou IP de terceiros. Também desenvolvemos classificadores de imagens robustos que são usados ​​para revisar os frames de cada vídeo gerado para ajudar a garantir que ele cumpra nossas políticas de uso, antes de ser mostrado ao usuário.

Iremos envolver decisores políticos, educadores e artistas de todo o mundo para compreender as suas preocupações e identificar casos de utilização positivos para esta nova tecnologia. Apesar de extensas pesquisas e testes, não podemos prever todas as formas benéficas como as pessoas utilizarão a nossa tecnologia, nem todas as formas como as pessoas irão abusar dela. É por isso que acreditamos que aprender com o uso no mundo real é um componente crítico para criar e lançar sistemas de IA cada vez mais seguros ao longo do tempo.


Técnicas de pesquisa

Sora é um modelo de difusão, que gera um vídeo começando com um que se parece com ruído estático e gradualmente o transforma removendo o ruído ao longo de várias etapas.

Sora é capaz de gerar vídeos inteiros de uma só vez ou estender os vídeos gerados para torná-los mais longos. Ao fornecer ao modelo a previsão de muitos quadros ao mesmo tempo, resolvemos um problema desafiador de garantir que um objeto permaneça o mesmo mesmo quando sai temporariamente de vista.

Semelhante aos modelos GPT, Sora usa uma arquitetura de transformador, desbloqueando desempenho de escalabilidade superior.

Representamos vídeos e imagens como coleções de unidades menores de dados chamadas patches, cada uma delas semelhante a um token no GPT. Ao unificar a forma como representamos os dados, podemos treinar transformadores de difusão em uma gama mais ampla de dados visuais do que era possível antes, abrangendo diferentes durações, resoluções e proporções de aspecto.

Sora baseia-se em pesquisas anteriores em modelos DALL·E e GPT. Utiliza a técnica de recaptação do DALL·E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual. Como resultado, o modelo é capaz de seguir com mais fidelidade as instruções de texto do usuário no vídeo gerado.

Além de poder gerar um vídeo apenas a partir de instruções de texto, o modelo é capaz de pegar uma imagem estática existente e gerar um vídeo a partir dela, animando o conteúdo da imagem com precisão e atenção aos pequenos detalhes. O modelo também pode pegar um vídeo existente e estendê-lo ou preencher os quadros ausentes. Saiba mais em nosso relatório técnico .

Sora serve de base para modelos que podem compreender e simular o mundo real, uma capacidade que acreditamos que será um marco importante para alcançar a AGI.



Nenhum comentário:

Postar um comentário