Google, oggi, non sta più inseguendo. Sta dettando il passo. Dopo anni trascorsi all’ombra di ChatGPT e della corsa imposta da OpenAI, l’azienda di Mountain View arriva a Google I/O con un messaggio diverso: l’ecosistema è maturo, la macchina è ormai lanciata, e l’intelligenza artificiale non è più un laboratorio sperimentale ma il centro di gravità dell’intera strategia industriale. Sundar Pichai lo lascia intendere senza bisogno di proclami enfatici. Parla con la freddezza dei numeri, e i numeri, in questo momento, raccontano una potenza quasi difficile da afferrare.
Il linguaggio scelto è quello dei token, i mattoni invisibili su cui si regge il funzionamento dei modelli generativi. Due anni fa i sistemi di Google elaboravano 9,7 trilioni di token al mese. Lo scorso anno erano già arrivati a 480 trilioni. Oggi hanno superato quota 3,2 quadrilioni mensili. Una crescita che non somiglia a un progresso lineare, ma a un salto di scala. Lo stesso vale per l’ecosistema degli sviluppatori: più di 8,5 milioni di persone costruiscono applicazioni sui modelli Google ogni mese, mentre le API del gruppo macinano circa 19 miliardi di token al minuto. È una misura della forza tecnica, certo. Ma anche della profondità con cui l’AI è stata ormai intrecciata nei prodotti e nei processi dell’azienda.
La parte più evidente di questa trasformazione, però, è quella che passa dall’utente finale. Google oggi conta 13 prodotti sopra il miliardo di utenti e cinque sopra i 3 miliardi. Non è solo una questione di scala. È una base installata che nessun concorrente può ignorare. E Gemini, il volto pubblico di questa nuova fase, è diventato il simbolo più chiaro della svolta: l’app dedicata è passata da 400 milioni di utenti attivi a oltre 900 milioni in un solo anno, con le richieste giornaliere moltiplicate per sette. Anche sul terreno creativo la crescita è impressionante. I modelli di generazione immagini chiamati Nano Banana hanno già prodotto oltre 50 miliardi di immagini. La sensazione è netta: l’AI non è più una promessa, ma un’abitudine di massa.
Dietro questa espansione c’è però un costo gigantesco. E Google non lo nasconde. Se nel 2022 la spesa in conto capitale si fermava a 31 miliardi di dollari, quest’anno l’azienda prevede un investimento tra i 180 e i 190 miliardi. Un balzo colossale, che racconta quanto sia diventata strategica l’infrastruttura fisica dell’intelligenza artificiale: data center, server, potenza di calcolo, reti. Tutto ciò che non si vede, ma che rende possibile ogni risposta, ogni immagine, ogni video, ogni agente digitale. È questa la base materiale della nuova corsa. E senza questa base, il resto non esisterebbe.
Su queste fondamenta si innesta la novità più interessante di questo Google I/O: Gemini Omni Flash, il primo modello della nuova famiglia Omni. Il nome dice già molto. Non si tratta soltanto di un sistema capace di comprendere più formati, ma di un modello nativamente multimodale, progettato per fondere ragionamento e creazione. Testo, immagini, audio, video: tutto può diventare input, tutto può essere rielaborato in un flusso unico. La promessa è ambiziosa. Un utente può generare un video ad alta definizione partendo da materiali diversi e poi continuare a lavorarci dentro, semplicemente conversando con il modello. Cambiare lo sfondo, inserire nuovi personaggi, modificare il tono visivo, applicare un’estetica cinematografica, intervenire sull’azione. Non come in un software di montaggio tradizionale, ma in un dialogo continuo con l’AI.
Qui Google cerca il punto di equilibrio tra potenza creativa e coerenza fisica. I movimenti restano credibili, la gravità si comporta come dovrebbe, i fluidi seguono una logica visiva più stabile rispetto ai modelli precedenti. È un dettaglio tecnico, ma decisivo. Perché la vera sfida non è solo produrre contenuti: è produrli senza perdere consistenza. E in questo terreno Google vuole mostrare di aver superato la fase del semplice stupore per entrare in quella della qualità controllata.
Tra le funzioni più suggestive c’è la possibilità di creare video con il proprio avatar digitale, capace di parlare con una voce fedele a quella dell’utente. È una funzione che apre scenari enormi. E, inevitabilmente, anche domande pesanti. Chi parla davvero in un video generato così? Quanto è verificabile l’origine di ciò che vediamo? Google risponde con una soluzione pensata per la tracciabilità: ogni clip sarà marchiata automaticamente con SynthID, il watermark digitale che resta invisibile all’occhio ma consente di riconoscere la provenienza del contenuto tramite Gemini o Chrome. Una scelta che segnala una consapevolezza nuova: quando l’AI diventa abbastanza potente da imitare quasi tutto, la fiducia non può più dipendere solo dalla qualità dell’immagine. Deve poggiare anche su meccanismi di autenticazione.
Ed è forse qui che si capisce meglio il senso di questo Google I/O. Non siamo davanti a una semplice sfilata di funzioni nuove, ma alla definizione di una fase. Google sta costruendo un ambiente in cui assistenza, creatività e automazione convergono verso quella che chiama, di fatto, l’era degli agenti. Un’era in cui i modelli non si limitano a rispondere, ma eseguono, trasformano, assemblano, ottimizzano. L’azienda sembra avere finalmente trovato la propria grammatica dell’AI. E, almeno per ora, la sta scrivendo con una sicurezza che non mostra più alcuna esitazione.







