На первый взгляд кажется, что проверка текста на заимствования и проверка на использование искусственного интеллекта — похожие процессы, ведь в обоих случаях мы ищем что-то «не своё» в тексте. На самом деле принципы работы такого поиска и его цели радикально отличаются.
Проверка на присутствие ИИ в тексте и проверка на плагиат — принципиально разные технологии. Если коротко: определители заимствований занимаются обнаружением копий, а ИИ-детекторы ищут присущий машинным алгоритмам специфический «почерк» в тексте.
Классическая проверка на заимствования устроена относительно просто. У системы есть огромная база текстов — научные статьи, книги, интернет-ресурсы, архивы публикаций и так далее. Алгоритм сравнивает проверяемый документ с файлами в этой базе и указывает, какие фрагменты текста совпадают с уже опубликованными материалами. Причём сервисом подсвечиваются не только повторяющиеся слова или фрагменты, но и указывается источник, где именно встречался тот же текст, кто его автор, когда и где он был опубликован.
«Работа антиплагиата — это не просто констатация факта заимствования, — поясняет эксперт, — а полная привязка к конкретному источнику. Если совпадение найдено, его можно легко проверить и подтвердить».
С обнаружением ИИ-текстов всё гораздо сложнее. Здесь нет базы данных, с которой можно напрямую сравнить работу. Даже если бы мы собрали миллионы сгенерированных текстов, их разнообразие и скорость обновления сделали бы сравнение бессмысленным.
Поэтому алгоритмы детекции работают иначе: они анализируют сам текст и ищут в нём статистические и стилистические признаки, характерные для машинной генерации. Это может быть избыточная однообразность, повторяющиеся конструкции, логические разрывы, слишком «гладкий» стиль без ошибок и шероховатостей, присущих живым авторам.
«В отличие от плагиата, здесь нельзя указать, что „этот фрагмент взят из такого-то источника“, — комментирует Чехович. — Детектор ИИ лишь говорит: с большой вероятностью этот текст сгенерирован. То есть речь идёт не об объективной констатации, а о вероятностной оценке».
Проверка на плагиат — поиск совпадений
Проверка на ИИ — поиск «нечеловеческих» признаков
Использование ИИ не является плагиатом в классическом смысле. Когда автор выдаёт заимствованный текст, написанный другим человеком за свой — это всегда можно проверить по источникам.
В случае с ИИ текст каждый раз создаётся заново. Формально это новый продукт, но искусственного происхождения. Поэтому корректнее говорить о двух разных типах проверки: антиплагиат отвечает за честность по отношению к чужим текстам, а ИИ-детекция — за прозрачность в отношении инструментов, которые использовал автор.
«Сервисы по поиску плагиата можно считать более объективными инструментами, — объясняет эксперт, — совпадение либо есть, либо его нет. Но всегда можно показать источник. Детекторы ИИ пока что работают на уровне вероятности и склонны ошибаться: они даже могут принять текст известного писателя за сгенерированный или, наоборот, пропустить ИИ-контент».
Можно ли приравнивать использование ИИ к плагиату?
Одна из главных проблем современным систем детекции искусственного интеллекта — их ненадёжность. Алгоритмы часто дают ложные срабатывания. Поэтому студентам стоит готовиться к таким ситуациям заранее. Лучший способ — сохранять черновики, заметки и промежуточные версии диплома. Когда видно, как работа развивалась от плана и первых набросков до финального текста, это серьёзный аргумент в пользу автора. Особенно полезны облачные сервисы вроде Google Docs: они фиксируют каждую правку и дату, создавая своего рода цифровой дневник работы над текстом.
Другой важный индикатор подлинности — список литературы. В автоматически сгенерированных текстах нередко встречаются фиктивные или «битые» ссылки. Тщательно составленный и проверенный список источников — весомое доказательство самостоятельной работы.
«По сути, вся сопроводительная документация (заметки, черновики, ссылки, исходные материалы) формирует цифровой след, — объясняет Юрий Чехович. — И он в случае чего сработает в защиту студента. Мы, например, сейчас разрабатываем плагин, который будет фиксировать весь процесс подготовки работы шаг за шагом — по сути, он станет цифровым паспортом работы».
Проверяющим лицам стоит помнить — современные детекторы ИИ во многом устарели. Проверки выдают вердикт «сгенерировано» или «написано человеком», но не объясняют, в чём именно слабость текста, а потому такая отметка почти ничего не значит. Гораздо полезнее, если система указывает объективные недостатки: логические ошибки, слабую аргументацию, повторы. Это те критерии, которые помогают и автору, и проверяющему.
Сегодня отчислять студента или отказывать в защите диплома только потому, что детектор отметил работу как «сгенерированную», неразумно. Веским основанием может стать только несоответствие теме, отсутствие собственных результатов или очевидный плагиат. А пометку «сгенерировано ИИ» стоит рассматривать лишь как сигнал для более внимательной проверки отдельных фрагментов текста и, собственно, проверки знаний автора.
Может ли университет отказать в защите диплома только из-за ИИ?
Может показаться, что обе системы работают по схожему принципу: алгоритм анализирует текст и ищет в нём «подозрительные» участки. На деле задачи и механика сервисов сильно различаются. Проверка на плагиат ищет совпадения по уже опубликованным источникам, а детектор ИИ пытается определить, был ли текст создан алгоритмом.
«Системы проверки на плагиат в целом точнее, чем детекторы ИИ, — говорит Чехович. — Но даже здесь нельзя говорить о стопроцентной надёжности. Разработчики обоих типов программ заявляют о „99% точности“, однако эти цифры нельзя считать объективными. Всё зависит от того, как именно оценивается качество работы алгоритма. В научной среде уже есть публикации, где подробно объясняется, почему такие методы оценки считаются невалидными: они часто проверяют алгоритм на заранее известных примерах, а не на реальных студенческих или научных текстах».
Системы проверок на заимствования ошибаются иначе. Во-первых, они склонны отмечать как заимствования шаблонные, общеупотребительные фразы — например, названия организаций, устойчивые выражения или формулировки из методичек. В отчётах такие фразы создают «мусорный» процент совпадений, и он может занимать до трети всего текста. Из-за этого автор может получить высокую «долю заимствований», хотя фактически плагиата нет. Поэтому при оценке работы важна человеческая экспертиза: проверяющий должен уметь «смотреть сквозь отчёт» и отделять технические совпадения от реальных заимствований.
Есть и другая проблема — ложноотрицательные результаты или парафраз. Они встречаются в тех случаях, когда студенты и исследователи используют нейросети для рерайта чужих текстов. Система антиплагиата не видит совпадений, ведь текст действительно новый по форме, хотя по сути повторяет исходную работу. Более того, современные детекторы ИИ тоже не всегда распознают такие тексты как машинные.
Проверка на плагиат и проверка на ИИ: у каких сервисов выше точность?
Важно понимать, что плагиат — это присвоение чужих результатов. Ещё это нарушение авторских прав и академической этики, которое подрывает доверие к исследователю. Для научной среды это один из самых серьёзных проступков, не имеющий оправданий.
Использование искусственного интеллекта — другое дело. Сам факт применения генеративных инструментов не делает работу неэтичной, всё зависит от цели. Например, машинный перевод с одного языка на другой — это тоже форма генерации текста, но если автор честно указал источник и не присвоил чужие результаты, нарушений нет.
«Сегодня крупные научные издательства требуют декларировать использование инструментов ИИ, — комментирует эксперт. — Если в статье применялись генеративные модели, переводчики или текстовые помощники, это нужно указать в сопроводительном письме. Нарушение этого требования может привести к отклонению статьи, но не к дисквалификации автора, так как это вопрос прозрачности, а не научной добросовестности»
Что хуже для науки — плагиат или использование ИИ?
Сегодня многие авторы тратят время не на саму исследовательскую работу, а на попытки обойти проверяющие системы. И это не столько проблема отдельных людей, сколько симптом устройства современной науки.
«Корень ситуации — в индустриализации научной деятельности, — объясняет Чехович. — Раньше учёный мог несколько лет работать над одной темой без обнародования промежуточных этапов. А финальная публикация становилась итогом многолетнего исследования — серьёзным событием, а не формальностью. Теперь правила изменились. В академической среде действует негласный принцип „публикуйся или исчезни“. В ряде дисциплин успешные исследователи выпускают по 10–20 статей в год, и это считается нормой. При таких темпах фокус неизбежно смещается с качества и глубины исследования на количество публикаций».
В таких условиях системы проверки становятся барьером, который авторы вынуждены «обходить», чтобы просто успевать выполнять формальные требования. Поэтому дело не только в технологиях, а в самих критериях оценки научной работы. Пока от исследователя ждут максимальной продуктивности в короткие сроки, внимание к содержанию и оригинальности будет отходить на второй план. Чтобы вернуть акцент на качество, нужен пересмотр системы требований в сторону более гибкой и справедливой оценки научного вклада, а не количества строк в отчёте.
Можно ли вернуть смысл в научную работу?
Детекторы плагиата и ИИ-контента, скорее всего, будут развиваться параллельно, но в тесной связке. Эти направления уже пересекаются во многих задачах и технологиях, и в будущем они наверняка будут дополнять друг друга.
Детекция ИИ — более молодая область, и потому темпы её развития выше: базовые алгоритмы здесь только формируются, появляются новые подходы к анализу текста, стиля и структуры. Проверка на плагиат — напротив, технология довольно зрелая. Она прошла путь от простого поиска совпадений до сложных систем анализа. Тем не менее и для её развития есть потенциал.
«Сегодня я бы выделил три направления для развития систем проверки на заимствования, — подытоживает Юрий Чехович. — Это распознавание перефразирования, анализ нетекстовых объектов и улучшение интерпретации отчётов».
Таким образом, обе технологии движутся к интеграции: детекторы плагиата учатся «понимать» тексты глубже, а детекторы ИИ — объяснять свои решения понятным человеку образом. А во что выльется это объединение — узнаем в ближайшее десятилетие.
Интервью сделано для IT World
Будущее систем проверки