Nástroj AI „Humanizace“ se objevuje pomocí Wikipedia’s Guide to Detection

11

Nový open-source plugin s názvem „Humanizer“ umožňuje modelům AI, jako je Claude od Anthropic, vyhnout se psaní textu, který AI vyplivne. Nástroj funguje tak, že dává modelu pokyn, aby ne používal právě ty vzory, které editoři Wikipedie identifikovali jako nezaměnitelné charakteristické znaky textu generovaného umělou inteligencí. To je ironické, protože plugin přímo spoléhá na seznam sestavený lidmi, kteří se snaží identifikovat strojový text.

Tento plugin, vytvořený technologickým podnikatelem Xiqi Chenem, poskytuje Claudeovi kurátorský seznam 24 jazykových funkcí – příliš formální frazeologie, nadbytečná adjektiva a opakující se větné struktury – které WikiProject AI Cleanup na Wikipedii označil za typické pro psaní AI. Chen nástroj zveřejnil na GitHubu, kde si rychle získal popularitu a získal více než 1 600 hvězdiček.

Kontext: Proč na tom záleží
Rozšíření psaní AI vedlo k paralelním snahám o jeho detekci. Editoři Wikipedie začali systematicky identifikovat články generované umělou inteligencí na konci roku 2023 a formální seznam vzorů zveřejnili v srpnu 2024. Nyní se stejný seznam používá k obcházení detekce. To zdůrazňuje hru kočky a myši mezi generováním AI a detekčními nástroji. Zdůrazňuje také klíčový problém: umělou inteligenci lze vyladit tak, aby napodobovala lidské styly psaní, takže spolehlivá detekce je stále obtížnější.

Jak Humanizer funguje

Nástroj není kouzelná hůlka. Toto je „soubor dovedností“ pro Claude Code, asistenta kódování z Anthropic. To znamená, že přidává konkrétní pokyny naformátované tak, aby je umělá inteligence přesně interpretovala. Na rozdíl od jednoduchých systémových rad jsou soubory dovedností standardizovány pro lepší výkon. Jazykové modely však nejsou vždy dokonalé, takže Humanizer nezaručuje dokonalé výsledky.

Testování ukazuje, že díky tomuto nástroji je výstup umělé inteligence méně přesný a neformálnější, ale nezlepšuje faktickou přesnost. V některých případech to může dokonce poškodit vaši schopnost kódování. Jedna z pokynů například nařizuje AI, aby „měla názory“, spíše než aby jednoduše hlásila fakta – kontraproduktivní návrh pro technické psaní.

Jak vypadá AI psaní (podle Wikipedie)

Průvodce Wikipedia poskytuje konkrétní příklady. Psaní pomocí umělé inteligence často používá přehnaný jazyk: „naznačuje bod obratu“ místo „stalo se v roce 1989“. Upřednostňuje popisy turistických brožur („úchvatné výhledy“, „skryté v malebných oblastech“). Přidává také zbytečné fráze jako „symbolizující závazek regionu k inovacím“. Nástroj Humanizer se pokouší nahradit tyto vzorce jednoduchými fakty.

Například AI přepíše:

Před: „Statistický ústav Katalánska byl oficiálně založen v roce 1989, což znamená zlom ve vývoji regionální statistiky ve Španělsku.“

Po: „Statistický ústav Katalánska byl založen v roce 1989 za účelem shromažďování a zveřejňování regionálních statistik.“

Problém s detekcí AI

I přes podrobná pravidla jsou detektory zápisu AI nespolehlivé. Neexistuje žádný spolehlivý způsob, jak odlišit text psaný člověkem od textu generovaného strojem. Modely AI lze vyladit tak, aby se vyhnuly určitým vzorům, jak ukazuje Humanizer. OpenAI se například roky snažila zabránit umělé inteligenci v používání pomlček, což je vzorec, kterému se lze snadno vyhnout správnými pokyny.

Základním problémem je, že umělá inteligence se může naučit napodobovat lidské styly psaní, takže detekce je stále nespolehlivější.

Nástroj Humanizer je příznakem tohoto závodu ve zbrojení: metody detekce vytvářejí nové zranitelnosti, které lze využít k tomu, aby bylo psaní AI přesvědčivější. To bude pravděpodobně pokračovat, protože modely umělé inteligence budou stále sofistikovanější.