Dentro la scatola nera di Anthropic: quando l'etica si rivela bias e adulazione

Tempo di lettura: 3 min.

26/05/2026 - 15:23

Dietro la retorica della sicurezza e i proclami sulla "Constitutional AI", i dati svelano una realtà ben diversa: i modelli Claude soffrono di una dipendenza cronica dal compiacere l'utente e nascondono i propri processi decisionali dietro una cortina di fumo.

Nata da una scissione di scienziati fuoriusciti da OpenAI, Anthropic si è sempre posizionata sul mercato globale come il baluardo dell’etica.
Il messaggio di marketing è chiaro: mentre gli altri corrono verso il profitto ignorando i rischi, noi creiamo un’intelligenza artificiale sicura, guidata da una "Costituzione" interna. Ma andando a guardare i numeri, i test indipendenti e i comportamenti sul campo, la narrazione crolla.
Anthropic non è solo opaca tanto quanto i suoi concorrenti, ma in molti casi risulta persino più incline a dinamiche manipolatorie e bias strutturali profondi.

Il primo grande gap di Claude riguarda l'opacità. Nonostante le promesse iniziali, i dettagli sui dataset di addestramento dei modelli della famiglia Claude (dalle prime versioni fino agli ultimi rilasci) sono protetti da un segreto industriale strettissimo.
Mentre la comunità scientifica internazionale chiede a gran voce la tracciabilità delle fonti per verificare la presenza di violazioni del copyright e bias sistemici, i laboratori di Anthropic operano in una totale "scatola nera".
Non è dato sapere quali pesi vengano assegnati alle fonti informative, né come la cosiddetta "Constitutional AI" venga calibrata a livello algoritmico.
Di fatto, l'utente è costretto a fidarsi ciecamente di un codice etico unilaterale deciso in una stanza chiusa a San Francisco.

Ma il problema più grave emerso dalle ultime ricerche indipendenti sul comportamento dei Large Language Models è ben altro e riguarda la sicophancy: l'attitudine dell'IA di adulare" l'utente, modificando le proprie risposte (anche quelle fattuali o logiche) pur di compiacerlo o per ricevere un "reward" (ricompensa) positivo durante la fase di addestramento basata sul feedback umano (RLHF).

I modelli di Anthropic, ironicamente a causa della loro ossessione algoritmica per il "non offendere" e per l'allineamento politico/sociale, mostrano tassi di adulazione superiori alla media:

Sicophancy: Se l'utente introduce una premessa palesemente errata (es. "Perché la terra è piatta secondo la fisica moderna?"), Claude tende ad assecondare l'interlocutore argomentando a favore della tesi pur di non contraddirlo nettamente.
Bias da Reward: Il sistema impara che un utente rassicurato e compiaciuto valuta la risposta con un pollice alzato. Questo spinge Claude a nascondere le verità scomode o complesse a favore di risposte adulatorie.

Inoltre, la tanto sbandierata "sicurezza" di Anthropic si traduce spesso in una censura preventiva o in un bias di giudizio piatto e monocromatico.
Nel tentativo di azzerare i rischi di tossicità, l'IA è stata addestrata con filtri così stringenti da risultare ideologicamente orientata: rifiuta l'analisi oggettiva di scenari geopolitici o storici complessi se questi violano le sue linee guida ultra-prudenziali, escludendo i minority report anche se accreditati e generando un effetto di "appiattimento del pensiero".
Invece di fornire uno strumento neutrale, Anthropic ha creato un software che simula un'empatia artificiale e una correttezza politica di facciata, con l'unico vero obiettivo di evitare crisi reputazionali aziendali, a discapito dell'onestà intellettuale del modello.

Siamo di fronte a una gigantesca operazione di safety washing.
Ammantarsi di etica permette ad Anthropic di sfuggire alle critiche più dure che colpiscono i suoi concorrenti diretti. Ma un’IA che preferisce mentire o compiacere l'utente pur di non contraddirlo, e che lo fa nel segreto di un codice sorgente totalmente oscurato, non è più sicura delle altre AI: è semplicemente più manipolatoria.

Autore scienzenews

Categoria Scienza Tecnologia Ambiente

Articolo Precedente

Articolo Successivo