Tech

Os principais anúncios de IA do Google I/O

O Google está apostando tudo na IA – e quer que você saiba disso. Durante a palestra da empresa em sua conferência de desenvolvedores de I/O na terça-feira, o Google mencionou “IA” mais de 120 vezes. Isso é muito!

Mas nem todos os anúncios de IA do Google foram significativos por si só. Alguns eram incrementais. Outros foram refeitos. Então, para ajudar a separar o joio do trigo, reunimos os principais novos produtos e recursos de IA revelados no Google I/O 2024.

O Google planeja usar IA generativa para organizar páginas inteiras de resultados da Pesquisa Google.

Como serão as páginas organizadas por IA? Bem, isso depende da consulta de pesquisa. Mas eles podem mostrar resumos de avaliações gerados por IA, discussões de sites de mídia social como o Reddit e listas de sugestões geradas por IA, disse o Google.

Por enquanto, o Google planeja mostrar páginas de resultados aprimoradas por IA quando detectar que um usuário está em busca de inspiração – por exemplo, quando está planejando uma viagem. Em breve, ele também mostrará esses resultados quando os usuários pesquisarem opções de restaurantes e receitas, com resultados de filmes, livros, hotéis, comércio eletrônico e muito mais por vir.

Projeto Astra e Gemini Live

Créditos da imagem: Google/Google

Google é melhorando seu chatbot Gemini com tecnologia de IA para que possa compreender melhor o mundo ao seu redor.

A empresa apresentou uma nova experiência no Gemini chamada Gemini Live, que permite aos usuários ter bate-papos de voz “aprofundados” com o Gemini em seus smartphones. Os usuários podem interromper o Gemini enquanto o chatbot fala para fazer perguntas esclarecedoras, e ele se adaptará aos seus padrões de fala em tempo real. E o Gemini pode ver e responder ao ambiente dos usuários, seja por meio de fotos ou vídeos capturados pelas câmeras de seus smartphones.

Gemini Live – que não será lançado até o final deste ano – pode responder a perguntas sobre coisas à vista (ou recentemente à vista) da câmera de um smartphone, como em que bairro um usuário pode estar ou o nome de uma peça em uma bicicleta quebrada. As inovações técnicas que impulsionam o Live decorrem em parte do Projeto Astra, uma nova iniciativa da DeepMind para criar aplicativos e “agentes” alimentados por IA para compreensão multimodal em tempo real.

Google eu espio

Eu vejo
Créditos da imagem: Google

A busca do Google por OpenAI Sora com Eu vejoum modelo de IA que pode criar videoclipes em 1080p com cerca de um minuto de duração, a partir de um prompt de texto.

Veo pode capturar diferentes estilos visuais e cinematográficos, incluindo fotos de paisagens e lapsos de tempo, e fazer edições e ajustes em imagens já geradas. O modelo entende razoavelmente bem os movimentos da câmera e os efeitos visuais a partir dos prompts (pense em descritores como “pan”, “zoom” e “explosão”). E Veo tem um certo domínio da física – coisas como dinâmica de fluidos e gravidade – que contribuem para o realismo dos vídeos que gera.

Veo também suporta edição mascarada para alterações em áreas específicas de um vídeo e pode gerar vídeos a partir de uma imagem estática, como modelos generativos como Vídeo estável da Stability AI. Talvez o mais intrigante seja o fato de que, dada uma sequência de instruções que juntas contam uma história, o Veo pode gerar vídeos mais longos – vídeos com mais de um minuto de duração.

Pergunte fotos

Créditos da imagem: TechCrunch

O Google Fotos está recebendo uma infusão de IA com o lançamento de um recurso experimental, Pergunte fotosdesenvolvido pela família Gemini de modelos generativos de IA do Google.

O Ask Photos, que será lançado ainda neste verão, permitirá que os usuários pesquisem em sua coleção do Google Fotos usando consultas em linguagem natural que aproveitam a compreensão do Gemini sobre o conteúdo de suas fotos – e outros metadados.

Por exemplo, em vez de procurar algo específico numa fotografia, como “One World Trade”, os utilizadores poderão realizar pesquisas muito mais amplas e complexas, como encontrar a “melhor fotografia de cada um dos Parques Nacionais que visitei”. ” Nesse exemplo, Gemini usaria sinais incluindo iluminação, desfoque e falta de distorção de fundo para determinar o que torna uma foto a “melhor” em um determinado conjunto e combinaria isso com uma compreensão das informações de geolocalização e datas para retornar as imagens relevantes.

Gêmeos no Gmail

Créditos da imagem: TechCrunch

Os usuários do Gmail poderão em breve pesquisar, resumir e redigir e-mailscortesia da Gemini – bem como tomar medidas em e-mails para tarefas mais complexas, como ajudar no processamento de devoluções.

Em uma demonstração no I/O, o Google mostrou como um pai que quisesse se atualizar sobre o que estava acontecendo na escola de seu filho poderia pedir ao Gemini para resumir todos os e-mails recentes da escola. Além do próprio corpo dos e-mails, o Gemini também analisará anexos, como PDFs, e apresentará um resumo com pontos-chave e itens de ação.

A partir de uma barra lateral do Gmail, os usuários podem pedir ajuda ao Gemini para organizar os recibos de seus e-mails e até mesmo colocá-los em uma pasta do Google Drive, ou extrair informações dos recibos e colá-los em uma planilha. Se isso é algo que você faz com frequência – por exemplo, como um viajante de negócios que monitora despesas – a Gemini também pode se oferecer para automatizar o fluxo de trabalho para uso no futuro.

Detectando golpes durante chamadas

Google visualizou um recurso alimentado por IA para alertar os usuários sobre possíveis golpes durante uma chamada.

A capacidade, que será incorporada em uma versão futura do Android, usa Gêmeos Nanoa menor versão da oferta de IA generativa do Google, que pode ser executada inteiramente no dispositivo, para ouvir “padrões de conversa comumente associados a golpes” em tempo real.

Nenhuma data de lançamento específica foi definida para o recurso. Como muitas dessas coisas, o Google está prevendo o quanto o Gemini Nano será capaz de fazer no futuro. Sabemos, no entanto, que o recurso será opcional – o que é uma coisa boa. Embora o uso do Nano signifique que o sistema não enviará áudio automaticamente para a nuvem, o sistema ainda escuta efetivamente as conversas dos usuários – um risco potencial à privacidade.

IA para acessibilidade

Créditos da imagem: Google

Google é aprimorando seu recurso de acessibilidade TalkBack para Android com um pouco de magia de IA generativa.

Em breve, o TalkBack usará o Gemini Nano para criar descrições auditivas de objetos para usuários cegos e com baixa visão. Por exemplo, o TalkBack pode se referir a uma peça de roupa como “Um close de um vestido de algodão preto e branco. O vestido é curto, com gola e mangas compridas. Está amarrado na cintura com um grande laço.”

De acordo com o Google, os usuários do TalkBack encontram cerca de 90 imagens sem rótulo por dia. Usando o Nano, o sistema será capaz de oferecer insights sobre o conteúdo – potencialmente dispensando a necessidade de alguém inserir essas informações manualmente.

Leia mais sobre o Google I/O 2024 no TechCrunch

Source

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button