Pojawia się narzędzie AI do „humanizacji” korzystając z przewodnika Wikipedii dotyczącego wykrywania

5

Nowa wtyczka typu open source o nazwie „Humanizer” pozwala modelom sztucznej inteligencji, takim jak Claude firmy Anthropic, uniknąć pisania tekstu wypluwanego przez sztuczną inteligencję. Narzędzie działa w ten sposób, że instruuje model nie, aby korzystał z tych samych wzorców, które redaktorzy Wikipedii zidentyfikowali jako jednoznaczne cechy charakterystyczne tekstu generowanego przez sztuczną inteligencję. To ironia losu, ponieważ wtyczka bezpośrednio opiera się na liście sporządzonej przez osoby próbujące zidentyfikować tekst maszynowy.

Wtyczka, stworzona przez przedsiębiorcę technologicznego Xiqi Chena, zapewnia Claude’owi wyselekcjonowaną listę 24 funkcji językowych — zbyt formalnej frazeologii, zbędnych przymiotników i powtarzających się struktur zdań — które WikiProject AI Cleanup w Wikipedii określiło jako typowe dla pisania sztucznej inteligencji. Chen opublikował narzędzie na GitHubie, gdzie szybko zyskało popularność, otrzymując ponad 1600 gwiazdek.

Kontekst: Dlaczego to ma znaczenie
Rozpowszechnianie się pisma opartego na sztucznej inteligencji doprowadziło do równoległych wysiłków mających na celu jego wykrycie. Redaktorzy Wikipedii zaczęli systematycznie identyfikować artykuły generowane przez sztuczną inteligencję pod koniec 2023 r., publikując formalną listę wzorców w sierpniu 2024 r. Obecnie ta sama lista jest używana do ominięcia wykrywania. To podkreśla grę w kotka i myszkę pomiędzy narzędziami do generowania sztucznej inteligencji i jej wykrywania. Podkreśla również kluczową kwestię: sztuczną inteligencję można dostroić tak, aby naśladowała ludzki styl pisania, co znacznie utrudnia niezawodne wykrywanie.

Jak działa humanizator

Narzędzie to nie magiczna różdżka. To jest „plik umiejętności” Claude’a Code, asystenta kodowania z firmy Anthropic. Oznacza to, że dodaje konkretne instrukcje, sformatowane w taki sposób, aby sztuczna inteligencja trafnie je zinterpretowała. W przeciwieństwie do prostych wskazówek systemowych, pliki umiejętności są ujednolicone w celu zapewnienia lepszej wydajności. Jednak modele językowe nie zawsze są idealne, dlatego Humanizer nie gwarantuje doskonałych wyników.

Testy pokazują, że narzędzie sprawia, że ​​wyniki AI są mniej dokładne i bardziej swobodne, ale nie poprawiają dokładności faktów. W niektórych przypadkach może to nawet zaszkodzić umiejętnościom kodowania. Na przykład jedna z wytycznych instruuje sztuczną inteligencję, aby „posiadała opinie”, a nie po prostu zgłaszała fakty – co jest sugestią przynoszącą efekt przeciwny do zamierzonego w przypadku tekstów technicznych.

Jak wygląda pisanie AI (według Wikipedii)

Przewodnik po Wikipedii zawiera konkretne przykłady. W pismach AI często używa się przesadnego języka: „wskazuje punkt zwrotny” zamiast „wydarzyło się w 1989 r.”. Preferuje opisy z broszur turystycznych („zapierające dech w piersiach widoki”, „ukryte w malowniczych rejonach”). Dodaje także niepotrzebne sformułowania, takie jak „symbolizujące zaangażowanie regionu w innowacje”. Narzędzie Humanizer próbuje zastąpić te wzorce prostymi faktami.

Na przykład sztuczna inteligencja przepisze:

Wcześniej: „Instytut Statystyczny Katalonii został oficjalnie założony w 1989 r., co stanowiło punkt zwrotny w rozwoju statystyki regionalnej w Hiszpanii”.

Po: „Instytut Statystyczny Katalonii został założony w 1989 r. w celu gromadzenia i publikowania statystyk regionalnych.”

Problem z wykrywaniem AI

Nawet przy szczegółowych zasadach detektory pisma AI są zawodne. Nie ma niezawodnego sposobu na odróżnienie tekstu pisanego przez człowieka od tekstu wygenerowanego maszynowo. Jak pokazuje Humanizer, modele AI można dostroić, aby uniknąć pewnych wzorców. Na przykład OpenAI od lat stara się uniemożliwić sztucznej inteligencji używanie myślników, czego można łatwo uniknąć, stosując odpowiednie instrukcje.

Podstawowy problem polega na tym, że sztuczna inteligencja może nauczyć się naśladować ludzki styl pisania, przez co wykrywanie staje się coraz bardziej zawodne.

Narzędzie Humanizer jest symptomem tego wyścigu zbrojeń: metody wykrywania tworzą nowe luki w zabezpieczeniach, które można wykorzystać, aby uczynić pisanie AI bardziej przekonującym. Sytuacja ta prawdopodobnie będzie się utrzymywać w miarę jak modele sztucznej inteligencji staną się bardziej wyrafinowane.