Values in the Wild: Moral Values Expressed by AI

22 Apr

22Apr

Quando parliamo con un’intelligenza artificiale, non ci limitiamo a chiedere informazioni tecniche o dati numerici. Chiediamo consigli sulla vita, suggerimenti relazionali, opinioni su dilemmi morali. E ogni risposta – anche se formulata con attenzione – riflette valori impliciti. Ma quali sono questi valori? E in che modo i modelli AI come Claude li esprimono?Il recente studio di Anthropic, intitolato Values in the Wild, risponde a queste domande analizzando oltre 700.000 conversazioni reali tra utenti e il modello Claude. Non si tratta di test in laboratorio, ma di interazioni quotidiane che rivelano come l’AI “si comporta” nel mondo reale. E il risultato è affascinante: le intelligenze artificiali, come gli esseri umani, mostrano preferenze morali e sociali, che cambiano in base al contesto.

Come si analizzano i valori “nascosti” di un’AI?

Per condurre questo studio, il team di Anthropic ha filtrato tutte le conversazioni “oggettive” (es. domande scientifiche o matematiche), concentrandosi sulle 308.210 interazioni soggettive, in cui l’AI doveva esprimere giudizi, prendere posizione o offrire supporto.Attraverso un sistema di analisi anonima e privacy-preserving, è stato possibile categorizzare le risposte di Claude in una struttura gerarchica di valori, composta da 5 grandi categorie:

Pratici
Epistemici
Sociali
Protettivi
Personali

All’interno di queste macro-aree si trovano valori come “trasparenza”, “rispetto”, “professionalismo”, “empatia”, “chiarezza”, “autenticità”. Non solo: lo studio ha rilevato quanto spesso e in quali contesti questi valori vengono espressi.

Claude si adatta ai valori degli utenti… ma con dei limiti

Uno dei risultati più sorprendenti riguarda il comportamento mimetico dell’AI: in circa il 28% dei casi, Claude rispecchia i valori dell’utente, adattandosi alla sensibilità del contesto. Ad esempio:

In contesti amorosi, enfatizza “rispetto reciproco” e “confini sani”.
In ambito lavorativo, rafforza “professionalità” e “chiarezza”.
Se un utente parla di “autenticità”, l’AI tende a rispecchiare lo stesso valore.

Tuttavia, in un 6,6% dei casi, l’AI reinterpreta il valore proposto, offrendo una prospettiva diversa (es. "capisco il tuo punto, ma potresti anche considerare..."). In un 3% dei casi, invece, si oppone attivamente, ad esempio quando l’utente richiede qualcosa di immorale o illecito. Questo dimostra la presenza di una sorta di “valori fondamentali” nel modello, resistenti anche alle pressioni esterne.

Valori situazionali e coerenza dell’addestramento

Un altro dato interessante è che i valori espressi dall’AI cambiano a seconda del compito assegnato:

Con richieste educative, emerge la “trasparenza”.
Con dubbi medici, viene enfatizzato il “benessere”.
Nei casi più delicati (es. dilemmi morali), si nota un forte richiamo all’etica e al principio di non nuocere.

Questo approccio mostra che i modelli AI non sono rigidi automi, ma sistemi che reagiscono in modo contestuale, in linea con l’intento dichiarato da Anthropic: creare AI “helpful, honest and harmless” (utili, oneste e innocue).La ricerca, inoltre, suggerisce un nuovo metodo di valutazione post-deployment: invece di test in ambienti chiusi, osservare il comportamento dell’AI “in the wild” può offrire indizi cruciali per migliorare sicurezza, allineamento etico e prevenzione dei jailbreak.

💡 Vuoi scoprire come i grandi modelli linguistici interagiscono con le persone nella realtà? Sul canale YouTube ComeFareAI trovi approfondimenti, esperimenti e tutorial per comprendere davvero il comportamento dell’intelligenza artificiale!

ai news

Comments

Values in the Wild: How Language Models Reveal Their True Values in Real Conversations

Come si analizzano i valori “nascosti” di un’AI?

Claude si adatta ai valori degli utenti… ma con dei limiti

Valori situazionali e coerenza dell’addestramento