Secondo di tre articoli all’incrocio tra neuroscienze computazionali, intelligenza artificiale e teoria della democrazia.
Questo è il secondo di tre articoli che muovono da un lavoro recente di neuroscienze computazionali — A foundation model of vision, audition, and language for in-silico neuroscience, firmato da Stéphane d’Ascoli, Jean-Rémi King e colleghi del laboratorio FAIR di Meta — per interrogare la comunicazione politica del nostro tempo. Nel primo intervento ho cercato di mostrare il senso generale di quel modello, chiamato TRIBE v2: l’intelligenza artificiale non serve più soltanto a generare contenuti, ma a costruire modelli predittivi della relazione tra stimoli audiovisivi, linguaggio e attività cerebrale. Qui vorrei compiere un passo laterale, e forse più scomodo. Che cosa può insegnare un modello di neuroscienze computazionali a chi studia la formazione del consenso?
La risposta non sta nell’immaginare un’applicazione diretta di TRIBE v2 alla politica. Sarebbe una forzatura, e una cattiva divulgazione. Il paper non promette lo spot perfetto costruito leggendo il cervello degli elettori, né autorizza fantasie sulla manipolazione totale della mente; tra l’altro, come vedremo, dichiara apertamente i propri limiti. Dice però qualcosa di più sottile, e per noi più utile: la nostra esperienza del mondo è multimodale. Non comprendiamo un messaggio separando in modo ordinato parole, suoni e immagini. Li riceviamo insieme, dentro una scena. Un volto non è un’immagine: è postura, espressione, memoria. Una voce non è un canale acustico: è ritmo, esitazione, autorità, distanza, minaccia o cura. Una frase non è una sequenza di parole: cambia senso a seconda di chi la pronuncia, dove, con quale tono, dopo quale immagine.
TRIBE v2 interessa chi studia la comunicazione politica proprio perché assume questa struttura integrata dell’esperienza. Lavora su video, audio e linguaggio; mostra che modalità diverse rendono conto di regioni cerebrali diverse, e soprattutto mostra che l’integrazione tra le modalità non è un ornamento, ma migliora la capacità predittiva del modello. Gli autori osservano che i guadagni maggiori si concentrano intorno alla giunzione temporo-parieto-occipitale (una delle sedi classiche dell’integrazione multisensoriale) e, in misura minore, nella corteccia prefrontale. Tradotto fuori dal gergo: l’essere umano non riceve “contenuti” in astratto, piuttosto abita ambienti, sensoriali e semantici insieme.
La propaganda lo ha sempre saputo, molto prima del deep learning, della risonanza magnetica funzionale e dei sistemi di raccomandazione. La politica di massa ha capito presto che il consenso non si costruisce solo con gli argomenti. Le grandi liturgie del Novecento non erano fatte di soli programmi: erano piazze e radio, cinema e fotografia, inni, simboli, divise, una coreografia del corpo collettivo. Il discorso del leader era un frammento dentro una messa in scena più ampia, e diventava efficace quando una scenografia, una ripetizione, un ritmo trasformavano l’ascoltatore in partecipante.
Nelle democrazie contemporanee questa dimensione non è scomparsa: ha cambiato infrastruttura. La piazza non è stata sostituita dallo schermo, ma scomposta in una pluralità di schermi privati — feed, notifiche, clip, dirette, commenti, reazioni. La propaganda non ha più bisogno di un centro unico che trasmetta lo stesso messaggio a milioni di persone nello stesso istante. Funziona per adattamento e micro-variazione, per prova continua. Un contenuto viene pubblicato, misurato, corretto, rilanciato. Una frase televisiva si taglia per i social; un passaggio parlamentare diventa reel; un volto adirato viene isolato dal suo contesto; un errore dell’avversario diventa meme; una proposta complessa si riduce a una formula emotivamente più maneggevole.
In questo ambiente la politica non compete soltanto per convincere. Compete per essere percepita.
La differenza è decisiva. Convincere mantiene, almeno in parte, un rapporto con ragioni, prove, valori, interessi. Essere percepiti significa anzitutto entrare nel campo dell’attenzione: vincere la soglia dello scroll, superare l’indifferenza, imporre una presenza. Buona parte della comunicazione politica di oggi nasce qui: non dalla domanda «che cosa dobbiamo argomentare?», ma da «che cosa tratterrà l’utente due secondi in più?». Due secondi sembrano nulla. Dentro l’economia dell’attenzione sono già un’unità di misura politica.
Il problema non riguarda i soli partiti populisti o le campagne più aggressive. Riguarda l’intero spazio pubblico. Anche una comunicazione istituzionale e sobria, per essere vista, deve misurarsi con ambienti progettati per premiare intensità, conflitto, semplificazione, riconoscimento immediato. Un post che spiega un provvedimento complesso parte svantaggiato rispetto a uno che indica un colpevole, promette una soluzione istantanea o accende una paura. Il ragionamento chiede tempo; l’immagine che polarizza agisce subito. La democrazia vive di mediazione, ma le piattaforme tendono a premiare la disintermediazione emotiva.
Non è il destino naturale della comunicazione: è un effetto dell’infrastruttura. I sistemi di raccomandazione non sono neutrali. Ordinano il visibile — decidono non solo quali contenuti circolano, ma quali forme espressive hanno più probabilità di sopravvivere. Alla lunga questo riscrive anche il linguaggio politico, perché chi comunica impara ad assomigliare all’ambiente che lo ospita. Se l’ambiente premia l’indignazione, l’indignazione diventa stile; se premia la brevità brutale, la brutalità si fa efficiente; se premia il volto a scapito del processo, il leaderismo si rafforza.
È qui che il paper su TRIBE v2 torna utile come lente. Insistendo sull’integrazione tra testo, audio e video, ci aiuta a leggere la comunicazione politica non come scambio di messaggi, ma come costruzione di ambienti cognitivi. Una campagna non è solo ciò che dice. È il modo in cui organizza l’esperienza percettiva del cittadino: quali immagini accosta a un problema, con quale tono nomina l’avversario, quale ritmo imprime alla paura, quale volto assegna alla sicurezza o alla crisi, quali parole ripete fino a renderle familiari, quali scene scarta perché disturbano la narrazione.
Si prenda l’immigrazione. I dati raccontano una realtà intricata: numeri, cause geopolitiche, lavoro, diritto internazionale, demografia, integrazione, sfruttamento. La comunicazione politica lavora di rado solo su quel piano. Mostra barconi, confini, file, periferie, divise, sirene, e parole come «invasione», «emergenza», «degrado». Oppure, sul versante opposto, mostra bambini, storie individuali, salvataggi, scuole, legami, cura. In entrambi i casi non si tratta soltanto di informare, ma di disporre una costellazione percettiva e morale. Prima ancora di formulare un giudizio, l’elettore viene collocato dentro un paesaggio emotivo.
Lo stesso vale per la crisi climatica. Una cosa è parlare di parti per milione di CO₂, soglie di temperatura, eventi estremi, responsabilità storiche, transizione. Un’altra è mostrare incendi e alluvioni, ghiacciai che crollano, ragazzi nelle piazze, attivisti trascinati via, ma anche operai in ansia per la chiusura di un impianto, bollette, pale eoliche, campi fotovoltaici, paesaggi che cambiano. Ogni immagine porta con sé un mondo; ogni scelta visiva e verbale seleziona un conflitto — futuro contro presente, ambiente contro lavoro, scienza contro negazione, élite contro popolo. La comunicazione non riveste la realtà dall’esterno: concorre a stabilire come quella realtà diventa pensabile.
Niente di tutto ciò significa che tutto sia manipolazione: sarebbe una conclusione pigra. Ogni politica ha bisogno di simboli, racconti, emozioni. Non esiste una democrazia puramente razionale, popolata di cittadini disincarnati che valutano programmi come algoritmi morali. La vita democratica si nutre anche di passioni pubbliche — indignazione davanti all’ingiustizia, speranza, riconoscimento, appartenenza, solidarietà. Il problema nasce quando l’emozione non accompagna il giudizio ma lo sostituisce; quando il linguaggio non apre il mondo ma lo chiude; quando la comunicazione non aiuta a vedere la complessità ma addestra a reagire sempre allo stesso modo.
Vista così, la propaganda contemporanea non è anzitutto menzogna. È, più spesso, una tecnica di impoverimento della percezione. Non deve dire il falso: può selezionare una porzione di vero, ripeterla, legarla a un’immagine, caricarla di minaccia, sottrarla al contesto. Può procedere con materiali formalmente corretti, persino con dati reali. Il risultato è una realtà più stretta, in cui alcune connessioni diventano automatiche — immigrazione e insicurezza, tasse e furto, Europa e vincolo, competenza ed élite, dissenso e tradimento. La forza di queste associazioni non dipende dalla loro tenuta logica, ma dalla loro sedimentazione percettiva. È qui, e non solo sul terreno dei fatti, che si gioca buona parte della partita.
La comunicazione democratica dovrebbe muoversi nella direzione contraria: allargare il campo dell’esperienza invece di restringerlo. Non opporre slogan a slogan, frame a frame, ma rendere visibili le mediazioni, restituire contesto, mostrare alternative, far convivere dati e storie, ragione e immaginazione. È molto più difficile, perché chiede tempo, ed è proprio il tempo ciò che l’economia dell’attenzione comprime.
Si apre qui la responsabilità delle piattaforme. Per anni le abbiamo descritte come strumenti neutri: contano gli usi, buoni o cattivi, non il mezzo. È una semplificazione. Le piattaforme sono ambienti governati da architetture tecniche, incentivi economici, criteri di visibilità, metriche di successo: non ospitano il discorso pubblico, lo formano. Premiare un contenuto perché genera molte reazioni non è una scelta neutra: trasforma la reattività in valore. Privilegiare il video breve sul testo lungo non asseconda soltanto i gusti degli utenti: modifica le forme della comprensione. Personalizzare di continuo il feed non offre solo libertà di scelta: può generare mondi informativi divergenti, in cui cittadini della stessa democrazia abitano realtà emotivamente incompatibili.
In questo quadro l’intelligenza artificiale generativa aggiunge un’accelerazione. Il problema non sono solo i contenuti falsi o i deepfake, che pure pesano. È soprattutto l’abbondanza: testi, immagini, varianti, slogan, sintesi, risposte, campagne automatizzate, micro-contenuti tarati su pubblici diversi. La propaganda non ha più bisogno di un messaggio unico da imprimere nella massa; può produrre sciami, occupare lo spazio, saturare l’attenzione, simulare consenso, moltiplicare versioni compatibili con sensibilità opposte. La risorsa scarsa non è più il contenuto. È la capacità umana di orientarsi.
Per questo la difesa della democrazia non può ridursi alla lotta contro le fake news. Verificare i fatti resta necessario, ma non basta. Una democrazia può essere danneggiata anche da contenuti veri disposti in modo tossico, da mezze verità organizzate per polarizzare, da racconti che rendono impossibile ogni fiducia condivisa. La posta in gioco non è solo epistemica: è ecologica. Riguarda la qualità dell’ambiente cognitivo in cui le persone si formano le proprie convinzioni, in parole povere l’aria che respira il giudizio, prima ancora dei singoli giudizi.
A questo punto il legame con TRIBE v2 si chiarisce, e proprio nei suoi limiti. Il paper non parla di propaganda; ci ricorda però che il cervello integra in modo distribuito informazioni visive, uditive e linguistiche. Se la politica digitale opera esattamente su quei canali, allora la questione democratica non riguarda solo «che cosa» viene detto, ma «come» una società organizza le condizioni percettive del proprio dibattito. C’è di più. Gli stessi autori riconoscono che il loro modello tratta il cervello come osservatore passivo di stimoli naturalistici: non lo modella ancora come agente che produce comportamento, che sceglie, che agisce. È un’ammissione tecnica, ma dice molto. Il modello cattura bene il versante recettivo dell’esperienza e lascia fuori il soggetto che valuta, resiste, reinterpreta. È in quello scarto che vive la libertà politica.
Conviene allora correggere un’idea diffusa. La libertà di espressione non è minacciata soltanto quando qualcuno impedisce di parlare. Può essere erosa anche quando tutti parlano, ma dentro ambienti che premiano in modo sistematico l’urlo, l’istantaneo, la semplificazione, la dipendenza. La censura sottrae voci; l’architettura dell’attenzione può svuotare di senso il fatto stesso di averle.
Non è nostalgia per un’età dell’oro mai esistita. La comunicazione politica è sempre stata conflittuale, interessata, simbolica, spesso manipolativa. A cambiare sono la scala, la velocità, la misurabilità. Mai come oggi è stato possibile testare di continuo le reazioni del pubblico, adattare i messaggi, segmentare le platee, produrre a costi irrisori e distribuire attraverso infrastrutture private globali. La propaganda non è più un contenuto calato dall’alto: è un processo adattivo dentro un ambiente computazionale.
Ne nasce una sfida per le forze democratiche e costituzionali. Non basta comunicare «meglio» nel senso superficiale del termine (essere più presenti, fare video più brevi, usare parole più semplici, inseguire l’algoritmo). Sul piano tattico può servire; il problema resta. Una cultura democratica deve costruire forme comunicative capaci di stare nell’ambiente digitale senza esserne interamente plasmate: parlare chiaro senza impoverire il reale, usare immagini senza ridurre ogni questione a spettacolo, mobilitare emozioni senza educare al risentimento, costruire appartenenza senza fabbricare nemici assoluti.
È un equilibrio arduo e decisivo. La democrazia non si difende con una comunicazione che disprezza la percezione, il corpo, le emozioni, la memoria: sarebbe astratta, incapace di parlare a persone reali. Ma non può nemmeno consegnarsi alle sole tecniche di cattura dell’attenzione. La forma del messaggio è parte della sua sostanza etica. Una politica che comunica solo attraverso la paura finirà per governare attraverso la paura. Una politica che abitua alla complessità può perdere qualcosa nell’immediato, ma conserva la possibilità di formare cittadini, e non soltanto pubblici reattivi.
Il secondo passo della serie si chiude qui: dal cervello in silico siamo arrivati alla propaganda come ambiente percettivo. Il terzo dovrà affrontare il limite filosofico più profondo. I modelli possono predire, correlare, simulare; possono aiutarci a cogliere regolarità dell’attività cerebrale e della comunicazione. Ma predire non è comprendere. E una persona non coincide con la somma delle risposte che un modello riesce ad anticipare. È da questa differenza, tra previsione e comprensione, che ripartiremo.
Breve bibliografia
d’Ascoli, S., Rapin, J., Benchetrit, Y., Brooks, T., Begany, K., Raugel, J., Banville, H., & King, J.-R. (2026). A foundation model of vision, audition, and language for in-silico neuroscience. arXiv:2605.04326 (FAIR, Meta AI).
Caucheteux, C., & King, J.-R. (2022). Brains and algorithms partially converge in natural language processing. Communications Biology, 5, 134.
Castells, M. (2009). Comunicazione e potere. Milano, Università Bocconi Editore.
Chadwick, A. (2013). The Hybrid Media System: Politics and Power. Oxford, Oxford University Press.
Kahneman, D. (2011). Pensieri lenti e veloci. Milano, Mondadori.
Lakoff, G. (2004). Non pensare all’elefante!. Roma, Fusi Orari.
Sunstein, C. R. (2017). #Republic. Divided Democracy in the Age of Social Media. Princeton, Princeton University Press.
Tufekci, Z. (2017). Twitter and Tear Gas: The Power and Fragility of Networked Protest. New Haven, Yale University Press.
Zuboff, S. (2019). Il capitalismo della sorveglianza. Il futuro dell’umanità nell’era dei nuovi poteri. Roma, Luiss University Press.

