Anunciamos o pré-lançamento do Gemma 3n: IA poderosa, eficiente e feita para dispositivos móveis

20 DE MAIO DE 2025

Lucas Gonzalez Product Manager

Rakesh Shivanna Principal Software Engineer

Após os lançamentos significativos do Gemma 3 e do Gemma 3 QAT, nossa família de modelos de ponta capazes de operar em um mesmo acelerador de nuvem ou computador, estamos avançando ainda mais em nossa visão de tornar a IA mais acessível. O Gemma 3 trouxe recursos robustos para desenvolvedores, e agora estamos ampliando essa visão para incluir uma IA altamente capaz e em tempo real, operando diretamente nos dispositivos que você usa todos os dias: seus celulares, tablets e laptops.

Para viabilizar a próxima geração de IA no dispositivo e dar suporte a uma ampla série de aplicativos, incluindo melhorias nos recursos do Gemini Nano, desenvolvemos uma nova arquitetura altamente avançada. Essa infraestrutura de última geração foi criada em estreita colaboração com líderes em hardware para dispositivos móveis, como Qualcomm Technologies, MediaTek e Samsung System LSI, sendo otimizada para IA multimodal ultrarrápida, possibilitando experiências privadas e verdadeiramente personalizadas diretamente no dispositivo do usuário.

O Gemma 3n é nosso primeiro modelo aberto construído com essa arquitetura compartilhada pioneira, permitindo que os desenvolvedores comecem a explorá-lo hoje, em um pré-lançamento antecipado. Essa mesma arquitetura avançada também impulsiona a próxima geração do Gemini Nano, que traz uma série de funcionalidades em Google apps e em nosso ecossistema no dispositivo, será disponibilizado ainda este ano. O Gemma 3n permite que você comece a desenvolver sobre essa estrutura, que será integrada às principais plataformas, como o Android e o Chrome.

Este gráfico classifica os modelos de IA com base nas pontuações Elo da Chatbot Arena; pontuações mais altas (números no topo) indicam maior preferência dos usuários. O Gemma 3n se destaca tanto entre os modelos abertos quanto os proprietários mais populares.

O Gemma 3n utiliza uma inovação da Google DeepMind chamada Per-Layer Embeddings (PLE), que proporciona uma redução considerável no uso de memória RAM. Embora o número bruto de parâmetros seja de 5 bilhões e 8 bilhões, essa inovação permite executar modelos maiores em dispositivos móveis ou transmiti-los em tempo real a partir da nuvem, com um overhead de memória comparável à de modelos de 2 bilhões e 4 bilhões de parâmetros, o que significa que os modelos podem operar com um uso dinâmico de memória de apenas 2 GB e 3 GB. Saiba mais em nossa documentação.

Ao explorar o Gemma 3n, os desenvolvedores têm acesso ao pré-lançamento antecipado dos principais recursos do modelo aberto e das inovações arquitetônicas com foco em dispositivos móveis, que estarão disponíveis no Android e no Chrome por meio do Gemini Nano.

Nesta postagem, vamos apresentar os novos recursos do Gemma 3n, nossa abordagem para um desenvolvimento responsável e como você pode acessar o pré-lançamento a partir de hoje.

Recursos chave do Gemma 3n

Projetado para oferecer experiências de IA rápidas e com baixo consumo de recursos, executadas localmente, o Gemma 3n oferece:

Desempenho otimizado no dispositivo e Eficiência: o Gemma 3n começa a responder cerca de 1,5 vez mais rápido em dispositivos móveis, com qualidade consideravelmente superior (em comparação com o Gemma 3 4B) e menor uso de memória, graças a inovações como incorporações por camadas, compartilhamento de KVC e quantização avançada de ativações.

Flexibilidade “many-in-1”: um modelo com memória ativa de 4 bilhões de parâmetros que inclui, nativamente, um submodelo aninhado de 2 bilhões de parâmetros com arquitetura de ponta (resultado do treinamento com MatFormer). Isso oferece flexibilidade para alternar dinamicamente entre desempenho e qualidade em tempo real, sem a necessidade de carregar modelos separados. Além disso, o Gemma 3n introduz a funcionalidade mix’n’match, que permite criar submodelos sob demanda a partir do modelo de 4B, ajustando-os de forma ideal ao seu caso de uso específico — equilibrando qualidade e latência. Mais detalhes sobre essa pesquisa estarão disponíveis em nosso próximo relatório técnico.

Privacidade em primeiro lugar e Pronto para uso off-line: a execução local possibilita funcionalidades que respeitam a privacidade do usuário e operam de forma confiável, mesmo sem conexão com a internet.

Compreensão multimodal expandida com suporte a áudio: o Gemma 3n é capaz de entender e processar áudio, texto e imagens, com melhorias consideráveis na compreensão de vídeo. Seus recursos de áudio permitem realizar reconhecimento automático de fala (transcrição) e tradução (fala para texto traduzido) com alta qualidade. Além disso, o modelo aceita entradas intercaladas entre diferentes modalidades, possibilitando a interpretação de interações multimodais complexas. (Implementação pública em breve)

Capacidades multilíngues aprimoradas: desempenho multilíngue aprimorado, com avanços notáveis especialmente em japonês, alemão, coreano, espanhol e francês. O desempenho robusto se reflete em benchmarks multilíngues, como 50,1% no WMT24++ (ChrF).

Este gráfico apresenta o desempenho no MMLU em relação ao tamanho do modelo na funcionalidade mix-n-match (pré-treinada) do Gemma 3n.

Viabilizando novas experiências em movimento

O Gemma 3n vai impulsionar uma nova geração de aplicativos inteligentes e móveis, permitindo que desenvolvedores possam:

Criar experiências interativas em tempo real que compreendem e respondem a sinais visuais e sonoros do ambiente do usuário.

2. Potencializar uma compreensão mais profunda e a geração de texto contextual a partir da combinação de entradas de áudio, imagem, vídeo e texto — tudo processado de forma privada, diretamente no dispositivo.

3. Desenvolver aplicativos avançados com foco em áudio, incluindo transcrição de fala em tempo real, tradução e interações por voz mais ricas e naturais.

Veja a seguir uma visão geral e os tipos de experiências que você pode criar:

Link to Youtube Video (visible only when JS is disabled)

Desenvolvendo com responsabilidade, juntos

Nosso compromisso com o desenvolvimento de IA responsável é fundamental. O Gemma 3n, assim como todos os modelos da família Gemma, passou por rigorosas avaliações de segurança, governança de dados e ajustes finos alinhados às nossas políticas de segurança. Adotamos uma abordagem cautelosa na liberação de modelos abertos, com avaliações contínuas de risco e aprimoramento constante de nossas práticas, à medida que o cenário da IA evolui.

Primeiros passos: teste o pré-lançamento do Gemma 3n hoje mesmo

Estamos entusiasmados em disponibilizar o pré-lançamento do Gemma 3n para você a partir de hoje:

Acesso inicial (disponível agora):

Exploração na nuvem com o Google AI Studio: experimente o Gemma 3n diretamente no seu navegador pelo Google AI Studio – sem necessidade de configuração. Explore imediatamente seus recursos de entrada de texto.

Desenvolvimento no dispositivo com o Google AI Edge: para desenvolvedores que desejam integrar o Gemma 3n localmente, o Google AI Edge oferece ferramentas e bibliotecas. Já é possível começar a utilizar os recursos de compreensão e geração de texto e imagem agora mesmo.

O Gemma 3n representa o próximo passo na democratização do acesso a uma IA de ponta e eficiente. Estamos muito entusiasmados para ver o que você vai desenvolver à medida que disponibilizamos essa tecnologia, começando pelo pré-lançamento de hoje.

Explore este anúncio e todas as atualizações do Google I/O 2025 no io.google a partir de 22 de maio.