На первый взгляд, задачи выявления заимствований и определения наличия машино сгенерированных фрагментов в тексте кажутся близкими — в обоих случаях мы пытаемся найти в тексте неавторские элементы. Однако принципы, заложенные в основу этих проверок, и их конечные цели кардинально различны. Разберем эти вопросы с Чеховичем Юрием Викторовичем, основателем компании Думейт.
Определение текста, созданного искусственным интеллектом, и обнаружение плагиата — это принципиально разные технологические процессы. Если говорить упрощённо, антиплагиат-системы ищут прямые копии, в то время как ИИ-детектор анализирует текст на предмет специфических паттернов, свойственных «машине».
Классическая система проверки на заимствования работает по достаточно прозрачному алгоритму. В её основе лежит обширная база данных, включающая научные работы, литературные источники, интернет-публикации и другие доступные материалы. Программа сопоставляет представленный документ с этим массивом информации и фиксирует все фрагменты, совпадающие с существующими текстами. Сервис не только выделяет заимствованные части, но и предоставляет прямую ссылку на первоисточник: авторство, дату и место публикации.
«Функция антиплагиата выходит за рамки простой констатации факта копирования, — комментирует эксперт. — Она обеспечивает прямую привязку к конкретному источнику. Обнаруженное совпадение всегда можно проверить и подтвердить».
С задачей выявления ИИ-генерации всё значительно сложнее. Здесь невозможно опереться на единую базу для прямого сравнения. Даже гипотетическое хранилище из миллионов сгенерированных текстов быстро утратило бы актуальность: модели обновляются, а тексты отличаются слишком высокой вариативностью.
Поэтому алгоритмы детекции построены иначе: они изучают внутренние характеристики текста, выискивая статистические и лингвистические маркеры, типичные для машинной генерации. Среди них — неестественная однородность, шаблонные синтаксические конструкции, смысловые неувязки, излишне «отполированный» стиль без свойственных человеку лексических шероховатостей и ошибок.
«В случае с ИИ нельзя сказать: “этот абзац заимствован отсюда”, — отмечает Чехович. — Детектор лишь оценивает вероятность того, что текст был создан машиной. Это не факт, а статистическое заключение».
Выявление текстовых совпадений
ИИ-детектор: анализ вероятностных паттернов
Применение искусственного интеллекта само по себе не тождественно плагиату в его традиционном понимании. Классический плагиат возникает тогда, когда автор присваивает себе чужой текст, созданный другим человеком, — и такое заимствование почти всегда можно выявить, сопоставив работу с конкретными источниками.
В случае с применением ИИ инструментов ситуация иная: текст генерируется заново при каждом запросе. Формально это оригинальный продукт, но созданный не человеком. Следовательно, корректно говорить о двух отдельных задачах: антиплагиат отвечает за добросовестное цитирование, а ИИ-детекция — за раскрытие методов, использованных при создании текста.
«Системы поиска заимствований можно назвать более строгими и объективными, — отмечает эксперт. — Совпадение либо зафиксировано, либо нет, и всегда можно указать первоисточник. ИИ-детекторы же оперируют вероятностями и пока нередко ошибаются: они способны принять авторский текст за машинный или, наоборот, не распознать сгенерированный контент».
Является ли использование ИИ плагиатом?
Ключевая проблема современных детекторов ИИ — их недостаточная точность и частые ложные срабатывания. Студентам, как и любым авторам, важно заранее подстраховаться. Наиболее действенная стратегия — сохранять все этапы работы: планы, черновые версии, заметки и правки. Когда можно проследить эволюцию текста от первых идей до финального варианта, это становится серьёзным аргументом в пользу самостоятельного авторства. Особенно ценны облачные редакторы вроде Google Docs, где автоматически фиксируется история изменений и временные метки — своего рода цифровая хроника работы.
Не менее важным признаком добросовестности остаётся библиография. В автоматически созданных текстах часто встречаются несуществующие публикации или некорректные ссылки. Аккуратно оформленный и проверенный список литературы служит весомым подтверждением того, что автор действительно работал с источниками.
«Фактически все сопутствующие материалы — заметки, черновики, ссылки, исходные данные — образуют цифровой след, — поясняет Юрий Чехович. — И при необходимости он играет в пользу студента. Мы, например, сейчас разрабатываем плагин Domate, который будет пошагово фиксировать процесс подготовки работы — по сути, цифровой паспорт текстового документа».
При этом проверяющим важно учитывать, что многие ИИ-детекторы уже не соответствуют текущему уровню технологий. Они выдают упрощённый вердикт — “написано человеком” или “сгенерировано”, — не поясняя, какие именно признаки вызвали сомнения. Такая метка сама по себе малоинформативна. Куда полезнее, когда система указывает на объективные проблемы текста: логические несостыковки, повторы, слабую аргументацию. Эти критерии понятны и автору, и эксперту.
На сегодняшний день отчисление или отказ в защите диплома исключительно на основании пометки «сгенерировано ИИ» выглядит необоснованным. Реальными основаниями могут служить лишь несоответствие теме, отсутствие самостоятельных выводов или явные заимствования. А сигнал от ИИ-детектора стоит рассматривать скорее как повод для более внимательного анализа отдельных фрагментов и проверки реальных знаний автора.
Может ли вуз не допустить к защите из-за подозрений в использовании ИИ?
На первый взгляд может показаться, что оба типа проверок устроены одинаково: алгоритм читает текст и отмечает потенциально проблемные фрагменты. Однако на практике цели и логика работы этих систем существенно различаются. Антиплагиат сопоставляет документ с уже существующими публикациями, тогда как ИИ-детекция пытается установить сам факт машинного происхождения текста.
«В целом сервисы поиска заимствований показывают более стабильные результаты, чем детекторы ИИ, — отмечает Чехович. — Но и здесь нельзя говорить об абсолютной точности. Заявления о “99% достоверности” звучат убедительно, однако на практике эти данные не стоит воспринимать как абсолютные. Всё зависит от методики оценки: нередко алгоритмы тестируют на заранее подготовленных и известных примерах, а не на реальных студенческих или научных работах. В научной среде уже неоднократно разбирались подобные кейсы и можно найти статьи, объясняющие, почему такие подходы считаются некорректными».
При этом системы антиплагиата совершают ошибки по-своему. Одна из распространённых проблем — фиксация шаблонных и общеязыковых формулировок: названий организаций, стандартных оборотов, фрагментов из методических рекомендаций. В отчётах такие элементы формируют «технический» процент совпадений, который иногда достигает значительной части текста. В результате работа может выглядеть как сильно заимствованная, хотя реального плагиата в ней нет. Именно поэтому итоговая оценка невозможна без участия эксперта: проверяющий должен уметь интерпретировать отчёт, отделяя формальные совпадения от действительно некорректных заимствований.
Существует и противоположная проблема — пропущенные нарушения. Она возникает, когда авторы используют нейросети для глубокого перефразирования чужих текстов. Формально совпадений нет: структура и формулировки изменены, но смысл полностью воспроизводит исходную работу. В таких случаях антиплагиат может «не увидеть» заимствование, а ИИ-детекторы — не распознать текст как машинный.
Плагиат и ИИ-детекция: какие сервисы работают точнее?
Принципиально важно различать эти явления. Плагиат означает присвоение чужих идей и результатов. Это одновременно нарушение авторского права и академических норм, которое напрямую подрывает доверие к исследователю. В научной среде подобные действия считаются одним из самых серьёзных проступков, которому нет оправданий.
Использование же искусственного интеллекта — вопрос иного порядка. Само по себе применение генеративных инструментов не делает работу неэтичной: всё определяется контекстом и целями. Например, автоматический перевод текста с одного языка на другой тоже является формой машинной генерации, но при корректном указании источников и отсутствии присвоения чужих результатов никаких нарушений не возникает.
«Сегодня многие крупные научные издатели требуют раскрывать факт использования ИИ, — поясняет эксперт. — Если в процессе подготовки статьи применялись генеративные модели, переводчики или текстовые ассистенты, это должно быть отражено в сопроводительных материалах. Несоблюдение этого правила может привести к отклонению публикации, но речь идёт именно о прозрачности, а не о подрыве научной добросовестности».
Что опаснее для науки — плагиат или ИИ?
Сегодня значительная часть усилий многих авторов уходит не на само исследование, а на попытки приспособиться к проверяющим системам. Это не столько личная проблема отдельных исследователей, сколько отражение того, как устроена современная академическая среда.
«Причина кроется в превращении науки в конвейер, — поясняет Чехович. — Раньше учёный мог годами разрабатывать одну тему, не отчитываясь о каждом промежуточном шаге. Итоговая публикация становилась результатом долгой работы и воспринималась как значимое событие, а не как формальное требование. Сегодня правила игры другие. В научной среде фактически действует принцип “публикуйся или исчезни”. В некоторых областях нормой считается выпуск десятка статей в год, и при таком ритме неизбежно страдает глубина. Фокус смещается с содержания и новизны на количественные показатели».
В такой парадигме системы проверки превращаются в очередной административный барьер, который необходимо преодолеть для соблюдения формальностей. Следовательно, вопрос лежит глубже технологических решений — он упирается в сами принципы оценки научного труда. Пока главным мерилом успеха остаются количественные показатели в сжатые сроки, содержательная составляющая будет страдать. Смещение фокуса обратно на качество требует пересмотра критериев в сторону более взвешенной и содержательной оценки реального вклада, а не статистики публикаций.
Как вернуть ценность научному исследованию?
Сервисы поиска заимствований и детекции ИИ, по всей видимости, будут развиваться параллельно, всё теснее переплетаясь между собой. Уже сегодня эти направления используют схожие подходы и решают пересекающиеся задачи, а в перспективе будут взаимно усиливать друг друга.
Детекция ИИ — область молодая и поэтому более динамичная: её базовые алгоритмы находятся в стадии активного формирования, появляются новые методы анализа текста, стилистики и структуры. Проверка на заимствования, напротив, — технология зрелая, прошедшая путь от поиска совпадений до комплексного анализа текстового документа. Однако и здесь сохраняется потенциал для роста.
«Сегодня я бы выделил три направления для развития систем проверки на заимствования, — резюмирует Юрий Чехович. — Это распознавание перефразирования, анализ нетекстовых объектов и улучшение интерпретации отчётов».
В итоге обе технологии постепенно сближаются: системы поиска заимствований учатся глубже анализировать смысл, а ИИ-детекторы — понятнее объяснять логику своих выводов. Во что выльется это объединение, станет ясно уже в ближайшие десять лет.
Статья написана по материалам интервью с Чеховичем Юрием Викторовичем, кандидатом физико-математических наук, экспертом в области академической этики, машинного обучения и ИИ, заведующим лабораторией №42 в ИПУ РАН и основателем сервиса интеллектуальной проверки академических работ «Думейт».
Перспективы развития систем проверки