Non tutte le svolte tecnologiche arrivano con il rumore delle rivoluzioni annunciate. Alcune entrano nel dibattito pubblico in forma laterale, dentro un paper specialistico, attraverso grafici, mappe corticali, dataset, confronti tra modelli, formule e nomi che sembrano destinati soltanto agli addetti ai lavori. Eppure, se lette con attenzione, dicono qualcosa che riguarda non solo la scienza, ma il modo in cui una società democratica pensa la libertà, la persona e il potere.
È il caso di A foundation model of vision, audition, and language for in-silico neuroscience, il lavoro di Stéphane d’Ascoli e colleghi dedicato a TRIBE v2, un modello fondazionale tri-modale sviluppato per predire l’attività cerebrale umana registrata tramite fMRI a partire da tre grandi dimensioni dell’esperienza: video, audio e linguaggio. Non si tratta di un nuovo chatbot, né di un generatore di immagini, né di uno strumento pensato per produrre contenuti. Il movimento è diverso: l’intelligenza artificiale viene utilizzata per modellare la relazione tra stimoli audiovisivi e linguistici e risposta cerebrale.
Il punto merita di essere colto con precisione, evitando sia l’entusiasmo ingenuo sia l’allarmismo spettacolare. TRIBE v2 non “legge il pensiero”. La risonanza magnetica funzionale non fotografa intenzioni, desideri o rappresentazioni coscienti; misura variazioni del segnale emodinamico, cioè modificazioni indirette legate all’attività cerebrale. Inoltre, gli stessi autori riconoscono limiti importanti: la fMRI ha una risoluzione temporale troppo lenta per catturare la dinamica millisecondo per millisecondo dell’attività neuronale; il modello non include tutte le modalità sensoriali; soprattutto, considera ancora il cervello come un sistema che riceve stimoli, non come un agente incarnato che agisce, interpreta, decide e trasforma il mondo.
Proprio per questo il paper è interessante. Non perché apra la porta a fantasie sulla mente trasparente, ma perché mostra una soglia più concreta: alcune relazioni tra percezione, linguaggio, attenzione e attività cerebrale diventano modellabili in forma computazionale. Non la persona nella sua interezza, non il soggetto morale e biografico, non l’esperienza vissuta in prima persona. Ma abbastanza da obbligarci a pensare una nuova fase del rapporto tra intelligenza artificiale, neuroscienze e spazio pubblico.
L’ambizione scientifica dichiarata dagli autori è superare la frammentazione storica delle neuroscienze cognitive. Per decenni lo studio del cervello ha proceduto isolando funzioni e paradigmi: la percezione dei volti, il riconoscimento delle parole scritte, l’elaborazione del linguaggio, la risposta a stimoli visivi, la comprensione di frasi, la distinzione tra suoni e parlato. Questo approccio ha prodotto risultati fondamentali. Ha permesso, per esempio, di localizzare aree particolarmente coinvolte nel riconoscimento dei volti, dei luoghi, dei corpi o delle parole. Ma ha anche generato una mappa frammentata: tanti modelli specializzati, spesso costruiti per singoli compiti, singoli soggetti, singole condizioni sperimentali.
TRIBE v2 prova a fare un passo ulteriore. Gli autori lo addestrano e lo valutano su un insieme molto ampio di dati: oltre mille ore di registrazioni fMRI, 720 soggetti, stimoli naturalistici come film, podcast e racconti, ma anche condizioni sperimentali più controllate. Il modello integra rappresentazioni tratte da sistemi di intelligenza artificiale già addestrati su testo, audio e video; poi usa queste rappresentazioni per predire l’attività cerebrale. In termini meno tecnici: prende ciò che un sistema artificiale “estrae” da una scena, da una voce o da una frase, e prova a collegarlo a ciò che accade, in modo misurabile, nel cervello umano esposto a quello stimolo.
Il passaggio è importante perché sposta il rapporto tra AI e cervello su un terreno nuovo. Da anni sappiamo che alcune reti neurali artificiali presentano analogie parziali con l’organizzazione del sistema visivo o con alcune rappresentazioni linguistiche. La letteratura su deep learning e neuroscienze ha mostrato, con crescente forza, che i modelli artificiali possono essere strumenti utili per studiare il cervello, non perché siano “uguali” al cervello, ma perché permettono confronti, predizioni, ipotesi. TRIBE v2 radicalizza questa traiettoria: non propone un modello limitato a immagini isolate, a parole o a una singola modalità sensoriale, ma cerca di integrare video, audio e linguaggio dentro un’unica architettura predittiva.
È qui che il paper comincia a parlare anche a chi si occupa di democrazia, comunicazione politica e cultura pubblica. La nostra esperienza del mondo non è fatta di frasi separate da immagini, o di immagini separate da suoni. È multimodale. Guardiamo volti, ascoltiamo voci, leggiamo parole, riconosciamo intonazioni, interpretiamo gesti, collochiamo ciò che vediamo dentro narrazioni. Una campagna elettorale, un telegiornale, un comizio, un video su TikTok, una diretta Instagram, un manifesto, una conferenza stampa non sono mai soltanto “contenuti”. Sono configurazioni percettive. Producono un ambiente fatto di ritmo, volto, lessico, musica, montaggio, ripetizione, memoria e aspettativa.
TRIBE v2, nel suo campo specifico, mostra quanto sia cruciale questa integrazione. Le diverse modalità contribuiscono in modo differente alla predizione delle risposte cerebrali: il video pesa maggiormente sulle aree visive, l’audio su quelle uditive, il testo e il linguaggio sulle reti semantiche e associative. Ma il dato più interessante è che l’integrazione multimodale migliora la capacità predittiva in alcune regioni, soprattutto nelle aree in cui il cervello combina informazioni provenienti da canali diversi. Questo significa che un modello più vicino alla struttura reale dell’esperienza deve abbandonare l’idea del messaggio come unità astratta e considerare invece la scena complessiva in cui il messaggio viene percepito.
La propaganda lo ha sempre saputo, anche senza fMRI. La propaganda novecentesca non era mai soltanto una dottrina: era radio, cinema, architettura, marcia, simbolo, divisa, slogan, musica, immagine del capo, folla. Non si limitava a trasmettere concetti; costruiva ambienti emotivi e percettivi. La novità contemporanea è che questi ambienti non sono più soltanto prodotti da apparati politici centralizzati, ma da piattaforme digitali capaci di misurare in tempo reale reazioni, permanenza, condivisioni, scorrimenti, abbandoni, ritorni, micro-preferenze. La comunicazione pubblica diventa un flusso sperimentale continuo, nel quale ogni contenuto è anche un test.
Il primo articolo di questa serie non intende ancora entrare nel dettaglio della propaganda digitale; sarà il tema del secondo intervento. Ma il collegamento nasce già qui. Se la cognizione è multimodale, e se i sistemi artificiali diventano sempre più capaci di modellare le risposte a stimoli multimodali, allora la politica non può più essere pensata soltanto come confronto tra argomenti. Naturalmente gli argomenti restano decisivi. Una democrazia senza argomentazione pubblica muore. Ma gli argomenti non circolano nel vuoto: prendono forma dentro infrastrutture attentive, piattaforme, interfacce, algoritmi di raccomandazione, dispositivi audiovisivi. La libertà di opinione non dipende solo dal fatto che si possa formalmente parlare; dipende anche dalle condizioni cognitive in cui si ascolta, si comprende, si ricorda, si giudica.
Qui la riflessione sul paper incontra una questione politica più ampia. Il potere computazionale non coincide più soltanto con la raccolta di dati personali. Certo, la profilazione resta centrale. Il capitalismo digitale ha costruito una parte enorme della propria forza sulla trasformazione del comportamento in dato: click, acquisti, ricerche, geolocalizzazioni, like, tempi di permanenza, interazioni. Ma la direzione più profonda non è soltanto sapere che cosa abbiamo fatto. È anticipare che cosa potremmo fare; e, ancora di più, costruire ambienti in cui alcune risposte diventino più probabili di altre.
In questo senso, il passaggio dalla profilazione comportamentale alla modellizzazione cognitiva è politicamente delicato. Non perché un singolo modello neuroscientifico venga domani usato per manipolare direttamente gli elettori. Sarebbe una scorciatoia sensazionalistica. Il problema è più strutturale: la ricerca scientifica, l’AI, le piattaforme e la comunicazione politica convergono tutte verso una maggiore conoscenza dei meccanismi dell’attenzione, della percezione e dell’elaborazione del linguaggio. Ognuno di questi campi ha finalità diverse. La neuroscienza vuole comprendere; il mercato vuole vendere; la politica vuole persuadere; le piattaforme vogliono trattenere. Ma la materia su cui operano è sempre più la stessa: il soggetto umano come sistema sensibile, linguistico, affettivo, prevedibile almeno in alcune sue regolarità.
Da qui nasce una domanda costituzionale, non solo etica. La nostra Costituzione non immagina la persona come un profilo predittivo né come un aggregato di preferenze istantanee. La pensa come soggetto titolare di diritti inviolabili, situato in formazioni sociali, capace di partecipare alla vita comune. L’articolo 3 parla di pieno sviluppo della persona umana; l’articolo 21 tutela la manifestazione del pensiero; l’intero impianto democratico presuppone cittadini in grado di formarsi opinioni, accedere a informazioni, discutere, dissentire, cambiare idea. Ma che cosa accade se gli ostacoli alla libertà non sono più soltanto economici, sociali o culturali, ma anche attentivi e cognitivi? Che cosa accade se lo spazio in cui il pensiero si forma viene organizzato da infrastrutture opache, proprietarie, ottimizzate per massimizzare reazione, dipendenza, polarizzazione?
Non si tratta di attribuire a TRIBE v2 responsabilità che non ha. Il paper è un lavoro di ricerca, e come tale va discusso con rigore. Anzi, uno degli elementi più interessanti è proprio la sua trasparenza scientifica: codice, pesi e demo sono resi disponibili, aprendo alla verifica e all’uso da parte della comunità di ricerca. Ma la questione di fondo resta: chi governa le tecnologie capaci di modellare aspetti sempre più profondi della relazione tra mondo, cervello e comportamento? Con quali dati vengono addestrate? In quali contesti saranno applicate? Quale controllo pubblico esiste sulle infrastrutture computazionali che rendono possibile questa ricerca?
Il rischio non è la scienza. Il rischio è la separazione tra potenza scientifica e cultura democratica dei limiti. Una società libera non deve bloccare modelli come TRIBE v2; deve comprenderli, discuterli, inserirli in un quadro di responsabilità pubblica. Questi strumenti possono migliorare la progettazione degli esperimenti neuroscientifici, ridurre tempi e costi della ricerca, aiutare a studiare linguaggio, percezione, disturbi cognitivi, patologie neuropsichiatriche. Possono perfino rafforzare la conoscenza dell’umano. Ma ogni avanzamento che aumenta la capacità predittiva sull’uomo deve essere accompagnato da una riflessione altrettanto forte sulla dignità della persona e sulla non riducibilità del soggetto ai suoi correlati misurabili.
Il paper stesso offre un punto di equilibrio prezioso. Da un lato mostra risultati notevoli: TRIBE v2 supera modelli lineari tradizionali, generalizza a nuovi soggetti e nuovi protocolli, replica in silico esperimenti classici di neuroscienze visive e linguistiche. Riesce a recuperare, per esempio, pattern associati al riconoscimento di volti, luoghi, corpi, parole scritte; nei compiti linguistici riproduce differenze tra parlato e non parlato, tra frasi e liste di parole, tra strutture sintattiche semplici e complesse. Dall’altro lato, non pretende di esaurire la mente. Non cattura il corpo nella sua interezza, non modella ancora l’azione, non include lo sviluppo, la patologia, la storia sociale, la relazione. È un modello potente, non una teoria totale della persona.
Questa distinzione è decisiva. La democrazia deve temere meno i modelli dichiaratamente parziali che le ideologie della totalità. Un modello scientifico è utile quando sa di essere una riduzione. Diventa pericoloso quando la riduzione viene scambiata per l’intero. La persona non coincide con il suo dato cerebrale, così come non coincide con il suo profilo digitale, con la sua storia clinica, con il suo comportamento elettorale, con la sua probabilità di cliccare o acquistare. Ogni descrizione illumina qualcosa e lascia fuori qualcos’altro. La politica democratica comincia proprio dal riconoscimento di questa eccedenza.
Per questo il tema dei cosiddetti neurodiritti, pur ancora controverso, non può essere liquidato come moda giuridica. Autori come Nita Farahany hanno sostenuto la necessità di difendere la libertà cognitiva e la privacy mentale nell’epoca delle neurotecnologie. TRIBE v2 non è un dispositivo commerciale indossabile, né un sistema invasivo di monitoraggio individuale. Ma appartiene allo stesso orizzonte storico: quello in cui attività cerebrale, comportamento, linguaggio e decisione diventano oggetti sempre più integrati di misurazione e previsione. Aspettare che questi strumenti siano già incorporati nel mercato, nella sicurezza, nel lavoro o nella propaganda significherebbe arrivare tardi, come spesso è accaduto con le piattaforme digitali.
La questione, allora, non è opporre umanesimo e tecnologia. È una contrapposizione sterile, buona per editoriali nostalgici ma incapace di governare il presente. Occorre piuttosto un umanesimo tecnologicamente competente: capace di leggere un paper come quello su TRIBE v2 senza cedere né al feticismo dell’innovazione né al rifiuto pregiudiziale della scienza. Un umanesimo che sappia dire due cose insieme: la modellizzazione computazionale del cervello è una conquista conoscitiva straordinaria; proprio per questo non può essere lasciata fuori dal dibattito democratico.
Questo primo articolo si ferma qui, sulla soglia. TRIBE v2 segnala il passaggio dall’intelligenza artificiale che genera contenuti all’intelligenza artificiale che contribuisce a costruire modelli predittivi della risposta cerebrale a contenuti audiovisivi e linguistici. Nel secondo intervento, questa soglia dovrà essere attraversata dal lato della comunicazione politica: che cosa cambia quando propaganda, piattaforme e modelli cognitivi si incontrano? Nel terzo, bisognerà tornare al punto filosofico più radicale: predire non significa comprendere, e nessuna mappa cerebrale può esaurire il significato vissuto dell’esperienza; sì, dedicherò tre interventi a questo lavoro che trovo miliare per il nostro tempo.
Per ora basta riconoscere il dato fondamentale. La nuova frontiera democratica non riguarda soltanto la protezione dei dati personali. Riguarda le condizioni cognitive della libertà: attenzione, linguaggio, tempo del giudizio, possibilità di comprendere, capacità di sottrarsi alla pura sollecitazione. La mente non è un territorio neutro. È uno dei luoghi centrali del conflitto politico contemporaneo.
A fondamento di questo articolo: Stéphane d’Ascoli, Jérémy Rapin, Yohann Benchetrit, Teon Brookes, Katelyn Begany, Joséphine Raugel, Hubert Banville, Jean-Rémi King, A foundation model of vision, audition, and language for in-silico neuroscience, arXiv, 2026: https://arxiv.org/abs/2605.04326
Bibliografia essenziale
d’Ascoli, S., Rapin, J., Benchetrit, Y., Brookes, T., Begany, K., Raugel, J., Banville, H., & King, J.-R. (2026). A foundation model of vision, audition, and language for in-silico neuroscience. arXiv preprint arXiv:2605.04326. https://arxiv.org/abs/2605.04326
Caucheteux, C., & King, J.-R. (2022). Brains and algorithms partially converge in natural language processing. Communications Biology, 5, 134.
Farahany, N. A. (2023). The Battle for Your Brain: Defending the Right to Think Freely in the Age of Neurotechnology. St. Martin’s Press.
Floridi, L. (2017). La quarta rivoluzione. Come l’infosfera sta trasformando il mondo. Raffaello Cortina.
Foucault, M. (1976). Sorvegliare e punire. Nascita della prigione. Einaudi.
Huth, A. G., de Heer, W. A., Griffiths, T. L., Theunissen, F. E., & Gallant, J. L. (2016). Natural speech reveals the semantic maps that tile human cerebral cortex. Nature, 532, 453–458.
Kriegeskorte, N. (2015). Deep neural networks: a new framework for modeling biological vision and brain information processing. Annual Review of Vision Science, 1, 417–446.
Poldrack, R. A., Baker, C. I., Durnez, J., Gorgolewski, K. J., Matthews, P. M., Munafò, M. R., et al. (2017). Scanning the horizon: towards transparent and reproducible neuroimaging research. Nature Reviews Neuroscience, 18, 115–126.
Richards, B. A., Lillicrap, T. P., Beaudoin, P., Bengio, Y., Bogacz, R., Christensen, A., et al. (2019). A deep learning framework for neuroscience. Nature Neuroscience, 22, 1761–1770.
Zuboff, S. (2019). Il capitalismo della sorveglianza. Il futuro dell’umanità nell’era dei nuovi poteri. Luiss University Press.

