Инструмент «Очеловечивания» ИИ Появился, Используя Руководство Википедии по Обнаружению

3

Новый плагин с открытым исходным кодом под названием «Humanizer» позволяет таким моделям ИИ, как Anthropic’s Claude, избегать написания текста, который выдает ИИ. Инструмент работает, инструктируя модель не использовать те самые шаблоны, которые редакторы Википедии определили как безошибочные признаки текста, сгенерированного ИИ. Это иронично, поскольку плагин напрямую опирается на список, составленный людьми, пытающимися выявить машинный текст.

Плагин, созданный технологическим предпринимателем Сици Чен, предоставляет Claude курированный список из 24 языковых особенностей — чрезмерно формальной фразеологии, избыточных прилагательных и повторяющихся структур предложений — которые WikiProject AI Cleanup в Википедии выявил как типичные для ИИ-писательства. Чен опубликовал инструмент на GitHub, где он быстро набрал популярность, получив более 1600 звезд.

Контекст: Почему Это Важно
Распространение ИИ-писательства привело к параллельным усилиям по его обнаружению. Редакторы Википедии начали систематически выявлять статьи, сгенерированные ИИ, в конце 2023 года, опубликовав формальный список шаблонов в августе 2024 года. Теперь этот же список используется для обхода обнаружения. Это подчеркивает игру в кошки-мышки между генерацией ИИ и инструментами обнаружения. Это также подчеркивает ключевую проблему: ИИ можно настроить на имитацию человеческих стилей письма, что делает надежное обнаружение все более сложным.

Как Работает Humanizer

Инструмент — не волшебная палочка. Это «файл навыков» для Claude Code, кодирующего помощника от Anthropic. Это означает, что он добавляет конкретные инструкции, отформатированные таким образом, чтобы ИИ интерпретировал их точно. В отличие от простых системных подсказок, файлы навыков стандартизированы для лучшего исполнения. Однако языковые модели не всегда безупречны, поэтому Humanizer не гарантирует идеальные результаты.

Тестирование показывает, что инструмент делает вывод ИИ менее точным и более непринужденным, но не улучшает фактическую достоверность. В некоторых случаях это даже может навредить способности к кодированию. Например, одна из инструкций предписывает ИИ «иметь мнения», а не просто сообщать факты — что является контрпродуктивным предложением для технической документации.

Как Выглядит ИИ-Письмо (По мнению Википедии)

Руководство Википедии предоставляет конкретные примеры. ИИ-письмо часто использует преувеличенный язык: «обозначая поворотный момент» вместо «произошло в 1989 году». Оно отдает предпочтение описаниям туристических брошюр («захватывающие дух виды», «скрытые в живописных регионах»). Оно также добавляет ненужные фразы, такие как «символизируя приверженность региона инновациям». Инструмент Humanizer пытается заменить эти шаблоны простыми фактами.

Например, ИИ перепишет:

До: «Статистический институт Каталонии был официально учрежден в 1989 году, что стало поворотным моментом в развитии региональной статистики в Испании».

После: «Статистический институт Каталонии был учрежден в 1989 году для сбора и публикации региональной статистики».

Проблема с Обнаружением ИИ

Даже с подробными правилами детекторы ИИ-писательства ненадежны. Не существует надежного способа отличить текст, написанный человеком, от текста, сгенерированного машиной. ИИ-модели можно настроить на избежание определенных шаблонов, как демонстрирует Humanizer. Например, OpenAI годами боролась с тем, чтобы предотвратить использование ИИ тире — шаблона, которого легко избежать с правильными инструкциями.

Базовая проблема заключается в том, что ИИ может научиться имитировать человеческие стили письма, что делает обнаружение все более ненадежным.

Инструмент Humanizer — симптом этой гонки вооружений: методы обнаружения создают новые уязвимости, которые можно использовать, чтобы сделать ИИ-писательство более убедительным. Вероятно, это будет продолжаться по мере того, как ИИ-модели становятся более сложными.