Emerge lo strumento di “umanizzazione” dell’intelligenza artificiale, sfruttando la guida di rilevamento di Wikipedia

7

Un nuovo plug-in open source chiamato “Humanizer” consente ai modelli di intelligenza artificiale come Claude di Anthropic di evitare di scrivere come un’intelligenza artificiale. Lo strumento funziona istruendo il modello a non utilizzare gli stessi modelli identificati dagli editori di Wikipedia come segni rivelatori del testo generato dall’intelligenza artificiale. Ciò è ironico, poiché il plug-in si basa direttamente su un elenco compilato da esseri umani che cercano di individuare contenuti scritti da una macchina.

Il plug-in, creato dall’imprenditore tecnologico Siqi Chen, fornisce a Claude un elenco curato di 24 peculiarità linguistiche – frasi eccessivamente formali, aggettivi eccessivi e strutture di frasi ripetitive – che WikiProject AI Cleanup di Wikipedia ha contrassegnato come comuni nella scrittura AI. Chen ha pubblicato lo strumento su GitHub, dove ha rapidamente guadagnato terreno con oltre 1.600 stelle.

Il contesto: perché è importante
L’ascesa della scrittura basata sull’intelligenza artificiale ha portato a uno sforzo parallelo per rilevarla. Gli editori di Wikipedia hanno iniziato a identificare sistematicamente gli articoli generati dall’intelligenza artificiale alla fine del 2023, pubblicando un elenco formale di modelli nell’agosto 2024. Ora, proprio quell’elenco viene utilizzato per eludere il rilevamento. Ciò evidenzia il gioco del gatto e del topo tra la generazione di intelligenza artificiale e gli strumenti di rilevamento. Sottolinea anche un problema chiave: l’intelligenza artificiale può essere indotta a imitare gli stili di scrittura umani, rendendo sempre più difficile il rilevamento affidabile.

Come funziona l’Umanizzatore

Lo strumento non è una bacchetta magica. È un “file delle abilità” per Claude Code, l’assistente di codifica di Anthropic. Ciò significa che aggiunge istruzioni specifiche formattate in modo che l’intelligenza artificiale sia progettata per interpretarle con precisione. A differenza dei semplici prompt di sistema, i file delle abilità sono standardizzati per una migliore esecuzione. Tuttavia, i modelli linguistici non sono sempre perfetti, quindi l’Umanizzatore non garantisce risultati impeccabili.

I test mostrano che lo strumento rende l’output dell’intelligenza artificiale meno preciso e più casuale, ma non migliora la fattualità. In alcuni casi, potrebbe persino danneggiare la capacità di codifica. Una delle istruzioni, ad esempio, dice all’IA di “avere opinioni” invece di limitarsi a riportare i fatti – un suggerimento controproducente per la documentazione tecnica.

Come appare la scrittura AI (secondo Wikipedia)

La guida di Wikipedia fornisce esempi concreti. La scrittura sull’intelligenza artificiale utilizza spesso un linguaggio esagerato: “segna un momento cruciale” invece di “accadde nel 1989”. Predilige le descrizioni delle brochure turistiche (“panorami mozzafiato”, “immerso in regioni panoramiche”). Aggiunge anche frasi inutili come “simboleggiano l’impegno della regione per l’innovazione”. Lo strumento Humanizer tenta di sostituire questi modelli con fatti semplici.

Ad esempio, l’IA riscriverebbe:

Prima: “L’Istituto di Statistica della Catalogna è stato ufficialmente istituito nel 1989, segnando un momento cruciale nell’evoluzione delle statistiche regionali in Spagna.”

Dopo: “L’Istituto di Statistica della Catalogna è stato fondato nel 1989 per raccogliere e pubblicare statistiche regionali.”

Il problema con il rilevamento dell’intelligenza artificiale

Anche con regole dettagliate, i rilevatori di scrittura AI sono inaffidabili. Non esiste un modo infallibile per distinguere il testo generato dall’uomo da quello generato dalla macchina. Ai modelli di intelligenza artificiale può essere richiesto di evitare modelli specifici, come dimostra l’Umanizzatore. OpenAI, ad esempio, ha lottato per anni per impedire all’intelligenza artificiale di utilizzare il trattino, uno schema facilmente evitabile con le giuste istruzioni.

Il problema di fondo è che l’intelligenza artificiale può imparare a imitare gli stili di scrittura umani, rendendo il rilevamento sempre più inaffidabile.

Lo strumento Humanizer è un sintomo di questa corsa agli armamenti: i metodi di rilevamento creano nuove vulnerabilità che possono essere sfruttate per rendere la scrittura dell’IA più convincente. Ciò probabilmente continuerà man mano che i modelli di intelligenza artificiale diventeranno più sofisticati.