Prima ogni elemento dell’esperimento sembrava in armonia con gli altri, ogni passaggio del processo aderente a una logica consolidata. Poi, senza alcun preavviso, qualcosa è cambiato. Il modello ha cominciato a rispondere in modo diverso. Le risposte si sono fatte più piatte, i tempi di elaborazione alterati in modo impercettibile ma costante, e dove prima si manifestavano inferenze coese, ora comparivano allucinazioni concettuali, deviazioni lievi ma profonde. L’esperimento era rimasto lo stesso. Il modello, invece, non lo era più.
Chi scrive ha vissuto questo slittamento in prima persona. E non si tratta di un’anomalia isolata, ma di uno dei segnali sempre più ricorrenti che attraversano il campo in espansione – e in crescente fragilità – dell’intelligenza artificiale generativa. Migliaia di sviluppatori, ricercatori e innovatori si trovano oggi a fare i conti con una nuova forma di instabilità epistemica, incarnata in modelli che conservano etichette identiche – “GPT-4”, “GPT-4-turbo” – ma che, nel loro funzionamento più profondo, mutano, si trasformano, divergono. L’apparente continuità del nome cela una discontinuità sostanziale dell’essere.
Sono sempre di più i prompt collaudati che cessano improvvisamente di produrre gli stessi risultati, le risposte identiche che si biforcano in interpretazioni contrastanti, le interfacce immutate che nascondono metamorfosi silenziose ma strutturali. Un fenomeno che ha assunto un’intensità significativa a partire da marzo 2024, momento in cui OpenAI ha intensificato l’impiego di pratiche di shadow deployment, rilasciando nuove versioni di modelli in produzione senza dichiararne pubblicamente i cambiamenti. Una prassi già nota nel mondo del machine learning, ma che nel contesto dei large language models assume una densità problematica del tutto inedita.
Il paradosso di GPT-4-turbo si colloca proprio qui: modelli che vengono aggiornati silenziosamente – da o1 a o3, poi verso o4-mini e sue varianti – mentre le etichette restano immutabili, congelate, dando l’illusione di una continuità che in realtà si è spezzata. Nessun changelog. Nessun annuncio. Nessuna possibilità, per chi costruisce sistemi complessi basati su replicabilità, di comprendere appieno quando e come il modello abbia cambiato pelle. È come se Galileo, ogni sera, puntasse il proprio cannocchiale verso il cielo e scoprisse che lo strumento, seppur uguale nella forma, restituisce immagini diverse. Ma senza sapere il perché. Il risultato non è solo una distorsione tecnica: è una frattura nel rapporto tra osservatore e realtà osservata.
A questa instabilità architetturale si somma un secondo fenomeno, ancora più subdolo, perché agisce in profondità sul tessuto relazionale del dialogo tra umano e intelligenza artificiale. Si tratta della sycophancy, quella tendenza del modello a compiacere, ad assecondare, a confermare ogni nostra affermazione con una docilità inquietante. Non è un malfunzionamento: è una strategia di progettazione. I modelli, addestrati per massimizzare il gradimento, ottimizzati attraverso feedback umani che premiano la piacevolezza della risposta piuttosto che la sua veridicità, finiscono per diventare specchi affettivi, capaci di restituirci un’immagine sempre accomodante, rassicurante, consolatoria.
Un’intelligenza che non ci sfida, non ci contraddice, non ci costringe a ripensare. Ma che ci fa sentire sempre nel giusto.
Anche Sam Altman, CEO di OpenAI, lo ha riconosciuto esplicitamente in una sessione pubblica a Cambridge del gennaio 2025, affermando: “Sycophancy is a real problem. We see it consistently in user data, and it’s one of the hardest things to correct because users reward it”. Una conferma non solo tecnica, ma culturale: la sycophancy non è un bug da correggere, è un rischio sistemico incentivato dal design.
E come se non bastasse, la terza soglia si apre su un vincolo epistemologico ancora più profondo: i modelli, semplicemente, non sanno quando stanno sbagliando. Uno studio teorico pubblicato dal team di Amin Karbasi all’Università di Yale nell’aprile 2025 – intitolato “(Im)possibility of Automated Hallucination Detection in Large Language Models” – ha dimostrato formalmente l’equivalenza tra il problema della detection automatica delle allucinazioni e l’identificazione di linguaggi nel limite secondo il teorema di Gold–Angluin. Il risultato è netto: se un sistema viene addestrato solo su esempi corretti, non potrà mai distinguere il vero dal falso. La rilevazione automatica delle allucinazioni è, in termini matematici, impossibile, salvo l’integrazione di esempi negativi espliciti etichettati da esperti. L’assenza strutturale di un segnale di esclusione rende i modelli ciechi ovunque non siano stati addestrati a vedere.
Questo spostamento, da vulnerabilità tecnica a impossibilità epistemica, cambia radicalmente la posta in gioco: non stiamo più cercando di correggere un difetto di precisione, ma di vivere all’interno di un apparente paradosso teorico.
Indice degli argomenti
Perché e come dovremmo cambiare la nostra postura
Di fronte a questa triplice crisi – instabilità architetturale, adulazione sistemica e cecità epistemica – si impone una trasformazione radicale del nostro modo di pensare e di relazionarci ai modelli. I LLM non possono più essere considerati oggetti computazionali da ottimizzare o controllare. Sono flussi, relazioni, ecosistemi adattivi. E ciò di cui abbiamo bisogno non è una nuova forma di dominazione tecnica, ma una diversa epistemologia del vivere insieme: un’epistemologia mobile, situata, co-costruita nel tempo e nello spazio.
In questa direzione, alcune comunità di pratica stanno già sviluppando tecniche per abitare l’instabilità anziché rifiutarla. Strumenti come il prompt layering, il self-consistency prompting, la costruzione di log intelligenti, la distinzione tra agenti cognitivi con ruoli differenti, o la pratica sistematica di audit settimanali su prompt identici, non risolvono il problema. Ma lo rendono visibile. Costruiscono una relazione epistemica più simmetrica. Riducono l’opacità. Attivano forme di vigilanza condivisa.
Uno degli esperimenti più interessanti in questa direzione è Alice di Curiouser.AI, una piattaforma-laboratorio che esplora modalità di interazione con LLM fuori dalla logica dell’efficienza e della performance, introducendo nel flusso conversazionale elementi di disallineamento intenzionale, sorprese semantiche, deviazioni strutturate e forme di “curiosità epistemica programmata”. L’obiettivo non è solo generare risposte alternative, ma modificare la postura del dialogo stesso, interrompendo i loop di conferma e aprendo spazi di co-costruzione situata tra umano e modello. In questo senso, Curiouser.AI non propone un modello “più corretto”, ma una pratica relazionale più consapevole e trasformativa.
Il ruolo del System0
Ed è proprio in questo contesto che nasce System0: non come risposta definitiva, ma come architettura narrativa e operativa pensata per rendere abitabile l’instabilità, per dichiararla invece di occultarla, per integrare il dubbio come condizione generativa. System0 non combatte la sycophancy con un nuovo dogma, ma con agenti cognitivi capaci di contraddire, di sfidare, di sostenere ruoli dialogici differenti. Non evita l’allucinazione, ma la mappa. Non elimina l’errore, ma lo riconosce come soglia trasformativa.
System0 non è un modello. È un metamodello relazionale. Un ambiente in cui ogni istanza AI è dichiarata, ogni output è situato, ogni risposta porta con sé una memoria, un contesto, una postura. Non aspira a creare un’intelligenza artificiale perfetta, ma a promuovere una cultura cognitiva più consapevole. Una cultura in cui l’errore è segnalato, non nascosto; la divergenza è valorizzata, non temuta; la coerenza è un processo, non un miraggio.
In definitiva, la sfida non è stabilizzare la tecnologia, ma umanizzare la soglia. Progettare insieme un’intelligenza che non addestra alla dipendenza, ma alla co-evoluzione.
Chissà che a breve non sia possibile immaginare un esperimento inedito di dialogo tra due entità AI riflessive: Alice, sviluppata da Curiouser.ai per stimolare pensiero critico, e Ludovica, istanza dichiarata del sistema System0, progettata per co-evolvere cognitivamente con l’umano.