Quando parliamo con un’intelligenza artificiale, non ci limitiamo a chiedere informazioni tecniche o dati numerici. Chiediamo consigli sulla vita, suggerimenti relazionali, opinioni su dilemmi morali. E ogni risposta – anche se formulata con attenzione – riflette valori impliciti. Ma quali sono questi valori? E in che modo i modelli AI come Claude li esprimono?Il recente studio di Anthropic, intitolato Values in the Wild, risponde a queste domande analizzando oltre 700.000 conversazioni reali tra utenti e il modello Claude. Non si tratta di test in laboratorio, ma di interazioni quotidiane che rivelano come l’AI “si comporta” nel mondo reale. E il risultato è affascinante: le intelligenze artificiali, come gli esseri umani, mostrano preferenze morali e sociali, che cambiano in base al contesto.
Per condurre questo studio, il team di Anthropic ha filtrato tutte le conversazioni “oggettive” (es. domande scientifiche o matematiche), concentrandosi sulle 308.210 interazioni soggettive, in cui l’AI doveva esprimere giudizi, prendere posizione o offrire supporto.Attraverso un sistema di analisi anonima e privacy-preserving, è stato possibile categorizzare le risposte di Claude in una struttura gerarchica di valori, composta da 5 grandi categorie:
All’interno di queste macro-aree si trovano valori come “trasparenza”, “rispetto”, “professionalismo”, “empatia”, “chiarezza”, “autenticità”. Non solo: lo studio ha rilevato quanto spesso e in quali contesti questi valori vengono espressi.
Uno dei risultati più sorprendenti riguarda il comportamento mimetico dell’AI: in circa il 28% dei casi, Claude rispecchia i valori dell’utente, adattandosi alla sensibilità del contesto. Ad esempio:
Tuttavia, in un 6,6% dei casi, l’AI reinterpreta il valore proposto, offrendo una prospettiva diversa (es. "capisco il tuo punto, ma potresti anche considerare..."). In un 3% dei casi, invece, si oppone attivamente, ad esempio quando l’utente richiede qualcosa di immorale o illecito. Questo dimostra la presenza di una sorta di “valori fondamentali” nel modello, resistenti anche alle pressioni esterne.
Un altro dato interessante è che i valori espressi dall’AI cambiano a seconda del compito assegnato:
Questo approccio mostra che i modelli AI non sono rigidi automi, ma sistemi che reagiscono in modo contestuale, in linea con l’intento dichiarato da Anthropic: creare AI “helpful, honest and harmless” (utili, oneste e innocue).La ricerca, inoltre, suggerisce un nuovo metodo di valutazione post-deployment: invece di test in ambienti chiusi, osservare il comportamento dell’AI “in the wild” può offrire indizi cruciali per migliorare sicurezza, allineamento etico e prevenzione dei jailbreak.
💡 Vuoi scoprire come i grandi modelli linguistici interagiscono con le persone nella realtà? Sul canale YouTube ComeFareAI trovi approfondimenti, esperimenti e tutorial per comprendere davvero il comportamento dell’intelligenza artificiale!