A Meta apresentou o novo Segment Anything Model 2 (SAM 2), um modelo unificado capaz de identificar quais são os pixels que pertencem a um objeto alvo numa imagem ou vídeo. O novo modelo de aprendizagem automática para segmentação de vídeos consegue identificar e acompanhar objetos em tempo real, explica a dona do Facebook e do Instagram.

Segmentar é identificar quais são os pixels da imagem que pertencem a determinado objeto, o que é uma ajuda na edição de fotografias, mas também na análise de imagens científicas. O SAM 2 consegue não só segmentar o objeto, como “segui-lo de forma consistente em todos os fotogramas de um vídeo em tempo real”, uma evolução face ao modelo inicial Segment Anything Model, apresentado há um ano.

Segundo a Meta, com o novo modelo abrem-se novas possibilidades de edição de vídeo e de criação de novas experiências de realidade mistas. Até agora, “os modelos existentes não conseguiram atingir este objetivo, uma vez que a segmentação em vídeo é significativamente mais difícil do que em imagens”, explica a Meta. Afinal, quando se filma, os objetos podem mover-se, mudar de cor devido a sombras, esconder-se momentaneamente por detrás de algo e até mudar de forma.

Nesta imagem o modelo acompanha a bola e a chuteira do futebolista.

SAM 2 - Segment Anything Model da META SAM 2 - Segment Anything Model da META

Entre os exemplos está o de um malabarista a lançar e apanhar três bolas. Enquanto cada bola segue para seu lado, há momentos em que os braços podem cruzar-se à frente das bolas, se as bolas forem de esponja podem ficar achatadas ou até pode passar uma nuvem que crie sombras inesperadas. O modelo pode, por exemplo, aprender a identificar as bolas, segui-las e posteriormente essas imagens podem ser editadas com uma nova cor ou um rasto.

Veja o vídeo

A Meta acredita que desta investigação, disponibilizada agora publicamente, podem nascer muitas novas soluções de edição e geração de vídeo mais fáceis, facilitando também a criação de experiências em realidade mista. Outra aplicação possível é na indústria dos veículos autónomos. Pode ser utilizado para seguir um objeto num vídeo, ajudando a anotar dados visuais para treinar sistemas de visão por computador.

Entretanto, muitos curiosos já descarregaram o modelo e começaram a partilhar as suas experiências nas redes sociais. Aqui o modelo acompanha um copo e neste exemplo segue uma bola e um cão e noutro momento segue o próprio Zuckerberg numa prancha na água.

O SAM original foi lançado no ano passado e inspirou a criação de novas ferramentas de edição de imagem com IA nas aplicações da multinacional, como os casos do Backdrop e do Cotouts no Instagram. Por exemplo, com o Backdrop os utilizadores podem alterar o fundo de uma fotografia para uma cor neutra ou inserir o objeto principal num qualquer cenário fictício com instruções como “ponha-me em frente a uma aurora boreal sublime” ou “rodeado de cachorrinhos”. Deste modo a ferramenta cria imagens do motivo principal em primeiro plano com o fundo que descreveu.

Na área da ciência e da medicina o SAM foi utilizado na investigação marinha para segmentar imagens de sonar e analisar recifes de coral, na análise de imagens de satélite para auxílio em catástrofes e no campo da medicina, segmentando imagens celulares e ajudando a detetar o cancro da pele.