В академической и образовательной среде всё чаще поднимается вопрос о слишком формальном подходе к оценке оригинальности текстов. Проверка на заимствования стала обязательным этапом контроля качества работ, однако числовые показатели таких сервисов нередко воспринимаются слишком прямолинейно. Действительно ли высокий процент оригинальности — цель, к которой стоит стремиться любой ценой? Поговорили об этом с основателем сервиса Думейт, Чеховичем Юрием.
Для многих процент оригинальности выглядит универсальным индикатором качества текста, хотя на практике он почти ничего не говорит о ценности самого исследования. Ограниченность цифровых коллекций, устойчивые научные формулировки, правила цитирования, технические сбои алгоритмов и даже формат загруженного файла способны существенно повлиять на итоговую цифру. Чтобы научная работа не сводилась к погоне за показателями, авторам и проверяющим важно смотреть шире — учитывать природу совпадений и оценивать содержание, а не только метрики.
Получив отчёт системы проверки, преподавателю или редактору важно не останавливаться на анализе числовых показателей. Сам по себе процент оригинальности малоинформативен — куда важнее понять, с какими источниками обнаружены совпадения и какого они характера. Если речь идёт о научных публикациях или материалах из открытых источников, первым шагом стоит проверить, присутствуют ли корректные ссылки в списке литературы. При правильном оформлении цитат такие совпадения не являются плагиатом.
Более неоднозначной ситуация становится тогда, когда источником совпадений оказывается другая студенческая работа, размещённая в открытом доступе. Здесь необходимо разобраться, по какой причине система зафиксировала пересечения: они могут быть следствием некорректного заимствования, а могут возникать из-за использования типовых формулировок или описания стандартных методик.
Именно поэтому совпадения, выявленные системой, не стоит воспринимать как окончательный вердикт. Скорее это сигнал к дополнительному разбору и диалогу с автором, в ходе которого становится возможным прояснить причины и контекст обнаруженных фрагментов.
Проверяющему в целом полезно принять простой факт: не каждое заимствование автоматически означает плагиат. Работа может опираться на существующие исследования и корректно их цитировать — а может содержать некорректно заимствованные фрагменты. В обоих случаях система выделит совпадения, но их смысл и допустимость определяются уже экспертной интерпретацией отчёта.
Отдельная задача эксперта — понять, в каких именно частях текста обнаружены пересечения с другими источниками. Совпадения в обзоре литературы или в описании методологии чаще всего допустимы и ожидаемы. Это особенно характерно для технических, инженерных и медицинских работ, где используются унифицированные описания процедур и подходов.
Совсем иначе следует относиться к совпадениям в разделах, посвящённых результатам исследования: здесь любое пересечение требует повышенного внимания. Отдельный частный случай — совпадения с предыдущими публикациями самого автора, например статьями или материалами конференций. Такие пересечения не являются плагиатом, если источники указаны корректно. Да, на собственные работы тоже необходимо ссылаться — ровно так же, как и на чужие.
Все эти примеры показывают, что при работе с отчётами о заимствованиях важно видеть не только проценты, но и понимать контекст: где именно обнаружены совпадения и по каким причинам они возникли.
Состоялась конференция разработчиков высоконагруженных систем Saint HighLoad++ 2025
Есть ли смысл стремиться к стопроцентной уникальности?
При подготовке научной публикации ключевая задача автора очевидна: обеспечить исследованию содержательную значимость, прозрачность работы с источниками и корректное цитирование. Именно такой подход позволяет создавать качественные академические тексты. Если следовать устоявшимся нормам научной этики, сформировавшимся за столетия, необходимости специально «накручивать» оригинальность, по сути, не возникает. Может ли естественная оригинальность быть высокой? По моим наблюдениям — вряд ли. Корректные заимствования, определения используемых понятий, описания общепринятых методик и стандартные формулировки неизбежно составляют заметную и при этом оправданную часть научного текста.
Тем не менее в практике нередко встречаются работы с чрезвычайно высокими показателями оригинальности, и именно такие результаты вызывают наибольшее недоверие. Значения выше 95% требуют особенно внимательного разбора: чаще всего либо система сработала некорректно (например, не смогла корректно распознать текст файла), либо проблемы кроются уже в самой работе.
Важно отметить, что стремление к абсолютной уникальности обычно исходит не от самих авторов, а навязывается требованиями вузов, редакций или диссертационных советов. При этом ориентация на максимально высокий процент оригинальности зачастую наносит ущерб качеству научных текстов. Возникает искусственный разрыв преемственности: авторы начинают избегать цитирования — включая ссылки на собственные публикации, — перефразируют базовые определения и тем самым размывают смысловые связи между исследованиями.
А ведь именно на этих связях и держится наука. Эту мысль точно выразил Бернар Шартрский, сравнив учёных с карликами, стоящими на плечах гигантов: «Мы будто карлики, взобравшиеся на плечи гигантов. Мы видим больше и дальше, чем они, не потому, что взгляд у нас острее и сами мы выше, но потому, что они подняли нас вверх и воздвигли на свою гигантскую высоту». Когда система фактически поощряет сокрытие источников, научная коммуникация теряет фундамент — контекст и накопленное знание. Поэтому завышенные нормативы оригинальности всё чаще воспринимаются исследовательским сообществом как практика, подрывающая саму логику научного развития.
Оценка работы исключительно по проценту оригинальности — методологическая ошибка, способная привести к ложным выводам о её качестве. Сам показатель ничего не говорит о сути исследования: текст с высокой оригинальностью может содержать серьёзные концептуальные или методологические изъяны, тогда как работа с низким процентом совпадений может быть корректно оформленной и научно добросовестной.
Фактически есть лишь один случай, когда процент оригинальности действительно уместен как ориентир, — это оценка исследовательских статей, предназначенных для публикации в научных журналах. В этом жанре принципиально важно, чтобы значительная часть текста представляла собой новые результаты и авторские выводы. Поэтому редакции вправе устанавливать минимальные пороги оригинальности, и такая практика считается этически оправданной.
Согласно исследованию, проведённому нашей командой, в большинстве научных журналов допустимый уровень оригинальности находится в диапазоне от 55 до 90%. Существенных различий между гуманитарными и естественно-научными изданиями при этом выявлено не было. Около трети журналов в России и за рубежом открыто публикуют требования к заимствованиям или сообщают их авторам на этапе подачи статьи. Остальные предпочитают не фиксировать конкретные цифры, полагаясь на экспертную оценку содержания.
Во всех прочих случаях — будь то выпускные квалификационные работы, диссертации, обзоры, отчёты, методические материалы или учебники — процент оригинальности не может служить универсальным критерием. Здесь куда важнее корректность оформления заимствований, логика изложения и наличие собственных аналитических элементов. Механическое измерение качества научного текста через процент уникальности не отражает его реальной ценности. Эксперт должен анализировать не цифры, а содержание: источники совпадений, их контекст и структуру работы в целом.
Как бы ни выглядела ситуация в теории, на практике проверяющие по-прежнему слишком часто ориентируются на один-единственный показатель — процент оригинальности, рассчитанный системой детекции заимствований. В результате авторам приходится учитывать это обстоятельство заранее и адаптировать процесс написания под будущую формальную оценку, несмотря на очевидную ограниченность и некорректность такого подхода.
Как ошибаются сервисы проверки
Любая система анализа текстов неизбежно сталкивается с ограничениями и алгоритмическими сбоями. Ни один инструмент проверки не застрахован от неточностей: одни плохо работают с отдельными форматами файлов, другие испытывают сложности на этапе извлечения текста для последующего анализа. Так, устаревший формат .doc нередко приводит к искажениям при обработке, тогда как более современные .docx и .pdf обычно обеспечивают более стабильный результат.
Ошибки также часто возникают из-за переносов слов, дефектов распознавания, а также наличия формул, таблиц и изображений с текстовым содержимым. Все эти элементы затрудняют корректное чтение документа и напрямую влияют на точность проверки. Дополнительную проблему представляют числовые данные: системам сложно распознавать эквивалентность формулировок вроде «в XX веке», «в 20 веке» и «в двадцатом веке» — алгоритмы нередко воспринимают их как разные выражения, хотя по смыслу они идентичны.
Важно учитывать и то, что сервисы проверки могут подсвечивать фрагменты, которые не являются плагиатом в строгом смысле слова. Например, детекторы заимствований часто ошибочно выделяют устойчивые обороты речи и типовые терминологические конструкции. В научных текстах, где подобные формулировки используются регулярно, доля таких совпадений особенно высока.
Подобные искажения принято называть «мусорным плагиатом» (junk plagiarism). Он возникает потому, что алгоритмы ориентируются на формальное сходство последовательностей слов и не способны учитывать контекст или смысл высказывания. В результате даже корректные, общепринятые выражения могут быть ошибочно интерпретированы как заимствования.
В отдельных случаях система способна отнести к плагиату до трети текста, несмотря на отсутствие реальных содержательных заимствований. При профессиональной экспертизе такие совпадения, как правило, исключаются из анализа, и работа признаётся оригинальной. Однако формализованный подход, при котором проверяющий опирается исключительно на числовые показатели отчёта, приводит к искажённым выводам — и именно эта проблема остаётся одной из ключевых для всей сферы автоматической проверки заимствований.
Как автору интерпретировать отчёт проверки
Полезный отчёт о заимствованиях легко отличить от формального по его содержанию и прикладной ценности. Качественный анализ не сводится к набору процентов и списку найденных источников, а даёт автору понятные ориентиры: где необходимо добавить корректную ссылку, в каких местах стоит сократить объём прямого цитирования или заменить его пересказом, а где важно обозначить, что использован переводной фрагмент.
Именно к такому формату сегодня стремятся современные системы проверки. Так, сервис {do}mate (Domate, «Думейт») изначально ориентирован не на простую фиксацию совпадений, а на помощь авторам в работе — он показывает, какие части текста требуют внимания и почему.
Безусловно, алгоритмы способны выявлять типовые ошибки: отсутствие ссылок на собственные публикации, избыточные заимствования, некорректное оформление цитат. В этом качестве автоматическая проверка является полезным инструментом. Однако итоговая оценка научной работы должна оставаться за человеком. Научный руководитель или эксперт, в отличие от системы, способен учитывать контекст, жанр и смысл текста, а не только формальные показатели.
Поэтому ключевая задача разработчиков сервисов проверки сегодня заключается в том, чтобы максимально приблизить алгоритмы к такому уровню понимания текста, при котором они смогут не просто находить совпадения, но и предлагать осмысленные рекомендации по улучшению работы — сначала на уровне ассистента эксперта, а со временем, возможно, и более точного и последовательного помощника, чем человек.
Статья написана по материалам интервью с Чеховичем Юрием Викторовичем, кандидатом физико-математических наук, экспертом в области академической этики, машинного обучения и ИИ, заведующим лабораторией №42 в ИПУ РАН и основателем сервиса интеллектуальной проверки академических работ «Думейт».Проверено в ТГ-боте
@DomateAI_bot: оригинальность: 98.27% | совпадения: 0.00% | цитирования: 1.73% | самоцитирования: 0.00% | ИИ-текст: 0.00%
Маскировки: не обнаружены