Чи точні АІ-детектори? Правда про інструменти

Кожен інструмент виявлення ШІ, з яким ви стикаєтеся сьогодні, може сміливо заявити про свою точність > 95%. Деякі навіть кажуть, що вони надійні на 100%!

Але чи точні датчики зі штучним інтелектом? Справді?

Моделі штучного інтелекту постійно оновлюються. Наприклад, поточна версія ChatGPT набагато більш нюансована і контекстно-орієнтована, ніж та, яку ми бачили у 2022 році.

Тому цілком природно, що багатьом детекторам ШІ буде складно точно позначити свій текст як згенерований штучним інтелектом.

Тим не менш, деякі інструменти, безперечно, працюють краще за інші. Але щоб з'ясувати, які з них справді відповідають заявленим характеристикам, потрібно їх протестувати.

Саме це ми і зробили в цій статті.

Ми оцінили 10 найпопулярніших ШІ-детекторів за тим самим бенчмарком, який використовує ZDNet, щоб побачити, наскільки точні ШІ-детектори.

Ось що ми знайшли!

Основні висновки

ШІ-детектори аналізують частоту слів, варіації речень і синтаксис, щоб визначити, чи був текст написаний людиною, чи згенерований штучним інтелектом.

Виявлення ШІ багатьма інструментами не є 100% бездоганним, оскільки багато людських і ШІ текстів мають однакові граматичні структури, що призводить до помилкових спрацьовувань і помилкових спрацьовувань.

Три основні методи точного виявлення контенту зі штучним інтелектом - це статистичне моделювання мови, метадані та водяні знаки, а також класифікатори машинного навчання

Undetectable AI об'єднує кілька алгоритмів виявлення в одну об'єднану систему. Вона пропонує безкоштовне та надійне виявлення ШІ без поширених компромісів, властивих платним інструментам.

Чи точні АІ-датчики? Правда про інструменти: чи точні АІ-детектори

Що таке АІ-детектор і як він працює?

ШІ-детектори - це інструменти, які визначають, чи був фрагмент тексту написаний людиною, чи згенерований штучним інтелектом.

Система розбиває текст на елементи, які можна виміряти, а потім сканує їх на наявність шаблонів, які вказують на машинне авторство.

Текст, створений штучним інтелектом, має тенденцію слідувати статистичним закономірностям. Мовні моделі навчені передбачати наступне слово в послідовності, тому їх написання побудоване на ймовірностях, які створюють ледь помітні сліди.

Більше ніколи не турбуйтеся про те, що ШІ виявить ваші тексти. Undetectable AI Може допомогти тобі:

Зробіть так, щоб ваше письмо з допомогою штучного інтелекту з'являлося на екрані схожий на людину.
Обхід всі основні інструменти виявлення ШІ лише одним кліком.
Використання ШІ безпечно і впевнено у школі та на роботі.

Спробуйте безкоштовно

ШІ-детектори виявляють ці сліди, аналізуючи частоту слів, різноманітність структури речень, складність синтаксису та загальну випадковість (або її відсутність) у формулюваннях.

Дві найважливіші метрики, які використовують АІ-детектори:

Здивування: Це показник того, наскільки модель "здивована" наступним словом у реченні. Людське письмо зазвичай демонструє більше здивування, оскільки люди відхиляються від шаблонів, використовують ідіоми, вставляють емоції тощо, на відміну від Письмо, згенероване штучним інтелектом.

Бурхливість: Він вимірює варіації довжини та ритму речень. Люди пишуть короткими, довгими та нерівномірними реченнями, тоді як контент, написаний штучним інтелектом, є послідовним за довжиною.

Чому так складно виявити ШІ

Незважаючи на відмінності між написанням тексту людиною та ШІ, виявити текст, створений ШІ, дещо складно, особливо якщо він був відредагований.

Ось кілька причин чому.

Схожість між письмом людини та ШІ

В основі письма, як людського, так і штучного, лежить однакова мовна система граматики, часів, синтаксису та фразеології.

ШІ-моделі не винаходять мову з нуля.

Вони просто вчаться на тому, що люди вже написали за роки, що передували їхньому розвитку.

Набори даних, на яких вони навчаються, по суті, написані людьми.

Отже, будь-який добре розроблений інструмент генерації ШІ буде засвоювати людські патерни вираження і намагатися відтворювати їх.

Чим більше даних вони споживають, тим більш "людським" стає їхнє письмо.

Хибнопозитивні та хибнонегативні результати

АІ-датчики не є безпомилковими.

Хибне спрацьовування відбувається, коли текст, написаний людиною, помилково позначається як згенерований штучним інтелектом.

На відміну від цього, помилкове спрацьовування відбувається, коли текст, написаний ШІ, прослизає непоміченим.

Обидві ці помилки є досить поширеними.

Оскільки багато ШІ-детекторів покладаються на статистичну ймовірність, а не на фактичну достовірність, їхня точність залишається обмеженою.

Постійна еволюція моделі

Виявлення ШІ - рухома мішень. Кожне нове покоління мовних моделей стає все складнішим для виявлення.

Коли ChatGPT був вперше представлений для публічного використання у 2022 році, його відповіді були повторюваними, часто шаблонними.

Будь-який сучасний АІ-детектор легко вловить такий текст як написаний штучним інтелектом.

Однак остання модель GPT-5 створює контекстно-орієнтований та емоційно-інтелектуальний текст.

Оскільки якість результатів постійно покращується, виявлення більш стилістично різноманітних текстів ШІ є складним завданням.

Наскільки точні АІ-детектори сьогодні?

Чесна відповідь на це питання полягає в тому, що це сильно залежить від того, який детектор і який метод виявлення ви тестуєте.

Деякі інструменти для виявлення ШІ заявляють про майже ідеальні результати в контрольованих умовах, але коли вони стикаються з реальними даними, їхня продуктивність стає сумнівною.

Орієнтир Дослідження ZDNet оцінили 11 ШІ-детекторів на п'яти текстових зразках (три згенеровані ChatGPT, два - людиною).

Вважалося, що будь-який інструмент, який позначив зразок з вірогідністю ШІ > 70%, "зробив дзвінок".

Дослідження показало, що Undetectable AI був одним з небагатьох інструментів, які досягли точності 100%, тобто безпомилково позначили всі п'ять зразків (як людських, так і ШІ).

Але чи точний ШІ-контент-детектор для звичайних користувачів у реальних умовах?

Річ у тім, що реальні тексти рідко бувають "чистим ШІ" або "чисто людськими".

Багато з них редагуються, перефразовуються з навмисним шумом, і в таких несприятливих умовах точність багатьох детекторів різко падає.

A рецензоване дослідження на Copyleaks, TurnItIn та Originality виявили, що хоча вони "мають високу точність" щодо GPT-3.5 та людського контенту, їм важко розрізнити вихідні дані рівня GPT-4.

Порівняння 10 найкращих AI-детекторів

Тепер, щоб з'ясувати, які детектори ШІ є найточнішими, ми протестували кілька інструментів за допомогою методу оцінки ZDNet, тобто на п'яти текстових зразках: трьох, написаних ChatGPT, і двох, написаних людиною.

Ось один зразок ChatGPT і один зразок, написаний людиною, які ми використовували.

ChatGPT Текст:

Людський письмовий текст:

ШІ, який неможливо виявити

Першим інструментом, який ми протестували, був ШІ, який неможливо виявитиі він пройшов усі випробування.

Всі п'ять зразків тексту були правильно ідентифіковані як написані людиною або штучним інтелектом 100%.

Платформа навіть показувала індикатори, де інші детектори могли б підняти прапори.

Система використовує кілька алгоритмів детекторів, змодельованих на основі різних моделей ШІ (ChatGPT, Gemini, Claude, Llama та інших), але замість того, щоб покладатися безпосередньо на ці моделі, вони створили власну об'єднану систему, засновану на консенсусі.

По суті, кожен алгоритм навчається на шаблонах від цих детекторів, але працює незалежно, щоб виробити колективне рішення.

ШІ, який неможливо виявити, також стверджує, що він "олюднює" згенерований ШІ текст так, щоб його можна було обійти, і, судячи з наших результатів, це твердження справдилося напрочуд вдало.

GPTZero

Далі ми протестували GPTZero, який також задовольнив наш тест на точність і перевищив поріг 80% у всіх п'яти зразках.

Він правильно ідентифікував як написані людиною фрагменти, так і два тексти, згенеровані штучним інтелектом, з упевненістю 100%.

Єдиним винятком був один зразок, створений штучним інтелектом, який GPTZero позначив як 71%, створений штучним інтелектом, але він все одно потрапляє в точний діапазон за нашими критеріями.

Copyleaks

Copyleaks показав змішані результати в нашому тестуванні. Він спіткнувся на самому початку, неправильно класифікувавши перший зразок, написаний людиною, як згенерований штучним інтелектом 100%.

Він навіть виділив дев'ять так званих "фраз, які ШІ зловживає".

Однак кожен наступний тест був точним, тобто ідентифікував кожен текст у решті чотирьох зразків саме так, як він і був.

Ця непослідовність вказує на те, що Copyleaks іноді може впадати в крайнощі, як це сталося з нашим зразком, написаним людиною.

Проте, якщо розглядати всі тести, то середня точність становить близько 80%.

Квілбот.

QuillBot був ще одним видатним інструментом у нашому тестуванні, відразу після Undetectable AI. Це був другий інструмент, який ідентифікував кожну написану людиною та згенеровану штучним інтелектом статтю з точністю 100%.

Примітно, що QuillBot спочатку був відомий своїми можливостями перефразування.

Але його детектор штучного інтелекту - це ще й витончений інструмент аналізу, здатний точно визначити лінгвістичну послідовність, що видає авторство ШІ.

Також варто зазначити, що Quillbot був не дуже точним у перші дні свого запуску, але з роками він, безумовно, покращився. Наразі це один з небагатьох надійних АІ-детекторів, які ви можете знайти.

ZeroGPT

Результати тестування ZeroGPT також показали хорошу стабільність.

Перший зразок, написаний людиною, був позначений як 0%, згенерований штучним інтелектом, а другий - 9.44%, згенерований штучним інтелектом; обидва зразки знаходяться в межах прийнятного діапазону для справжнього людського письма.

З іншого боку, всі три зразки, згенеровані ШІ, були правильно ідентифіковані як написані ШІ 100%.

Отже, наш раунд тестування також додає ZeroGPT до списку надійних ШІ-детекторів.

Grammarly

Grammarly - це ім'я на слуху, коли йдеться про допомогу авторам у створенні граматично правильного контенту, але цього не скажеш про його можливості виявлення помилок за допомогою штучного інтелекту.

У нашому тестуванні детектор Grammarly показав неоднозначні та дещо суперечливі результати.

Для зразків, згенерованих ШІ, він позначив їх як 92%, 81% і 54%, згенеровані ШІ, що означає, що він правильно ідентифікував два, але провалив один тест, недооцінивши ймовірність ШІ.

З текстів, написаних людиною, один з них вона зрозуміла правильно, а інший помилково класифікувала як ШІ.

Отже, можна сказати, що 60% був точним у нашому аналізі.

Originality.ai

Originality.ai також виявився серед дуже надійних детекторів ШІ, оскільки він коректно сканував як згенеровані ШІ, так і написані людиною, і видав 100% впевнених результатів.

Originality.ai - це спеціальна платформа для виявлення плагіату та штучного інтелекту. Вона аналізує написане на детальному рівні і була протестована незалежно для виявлення перефразованого та відредагованого контенту.

Єдиний недолік Originality.ai полягає в тому, що він не є повністю безкоштовним.

Платформа пропонує 12 000 символів для нових користувачів, після чого додаткові сканування працюють за кредитною системою.

Вартість ШІ-детектора становить 2 000 кредитів (1 кредит дорівнює 100 словам) за $14.95 на місяць.

Writer.com

Writer.com не зовсім виправдав очікування щодо розпізнавання ШІ, хоча й має гарне ім'я для створення тексту, згенерованого ШІ.

З п'яти зразків тексту він помилково визначив 2 зразки, написані ШІ, як написані людиною.

Це означає, що лише три з п'яти результатів тестування були точними, що є явним промахом.

Writer.com також оголосив, що його інструмент виявлення ШІ разом з кінцевою точкою API завершить свою роботу 22 грудня.

До того часу він працюватиме у звичайному режимі. Це свідчить про те, що компанія відходить від сфери розпізнавання ШІ.

Моніко.

Це був ще один з тих інструментів, який показав себе дуже добре під час тестування.

Моніка безпомилково ідентифікувала кожен зразок, написаний людиною та згенерований ШІ, тому ви можете сміливо додавати її до свого списку надійних детекторів ШІ.

Компанія стверджує, що вона об'єднує аналітичні можливості штучного інтелекту ZeroGPT, GPTZero і Copyleaks в один уніфікований інструмент.

Система схожа на ШІ, який неможливо виявитиякий також поєднує в собі кілька детекторів для виявлення справжнього ШІ.

Детектор штучного інтелекту для саджанців

Sapling не виявився надійним детектором ШІ, оскільки він неточно ідентифікував усі п'ять зразків тексту.

З наших зразків Sapling ідентифікував 2 зразки з написаним людиною контентом як 100% AI, що далеко не відповідає дійсності.

Але найбільше в Sapling виділяється її прозорість. Компанія відкрито визнає, що її АІ-детектор може давати хибні спрацьовування за допомогою короткого тексту.

Там також зазначено, що вони активно працюють над вдосконаленням системи, щоб зменшити кількість таких помилок.

Вони також уточнюють, що жоден сучасний детектор ШІ, включаючи Sapling, не повинен використовуватися як самостійний метод для визначення авторства.

Скористайтеся кнопкою AI Checker щоб проаналізувати, наскільки надійними є інші АІ-детектори.

Перевіряючи зразок тексту за допомогою декількох інструментів виявлення та порівнюючи оцінки узгодженості, AI Checker допомагає виявити, які системи неправильно маркують або надмірно маркують контент.

Це швидкий і прозорий спосіб виміряти точність детектора, перш ніж довіряти його результатам.

Пояснюємо поширені методи виявлення ШІ

Розпізнавання ШІ не будується за однією універсальною формулою.

Для визначення того, чи є текст написаним людиною або штучним інтелектом, було використано та перевірено кілька методів.

Статистичне моделювання мови

Це найстаріший і найпоширеніший метод виявлення ШІ-контенту. Він ґрунтується на аналізі ймовірності послідовностей слів, тобто наскільки ймовірно, що одне слово буде слідувати за іншим.

Текст, створений штучним інтелектом, як правило, має меншу "незрозумілість", тому можна сказати, що він більш передбачуваний і послідовний за структурою.

З іншого боку, люди вносять варіативність у текст.

Детектори контенту, що використовують цей метод, обчислюють спантеличеність і вибуховість, щоб оцінити їхнє походження.

Метадані та водяні знаки

Ці метрики орієнтовані на те, як був створений текст, а не на його структуру.

Нанесення водяних знаків означає вбудовування невидимих сигналів у вихідні дані ШІ на рівні токенів. По суті, ці патерни можна виявити лише за допомогою спеціальних алгоритмів.

Виявлення метаданих перевіряє контекстні дані, такі як часові мітки, швидкість генерації та шаблони викликів API, щоб визначити, чи був ШІ залучений до процесу написання.

Але знову ж таки, при редагуванні згенерованого штучним інтелектом тексту ці сигнали втрачаються, а отже, вони працюють лише в контрольованому тестовому середовищі.

Класифікатори машинного навчання

Детектори ШІ все більше покладаються на класифікатори машинного навчання, навчені розпізнавати "текстуру" письма ШІ.

Ці класифікатори аналізують тисячі лінгвістичних і структурних особливостей як написаних людиною, так і створених штучним інтелектом наборів даних.

На основі цього аналізу вони розробляють імовірнісну модель для позначення нового тексту як штучного, людського або гібридного.

Сила цього підходу полягає в тому, що класифікатори продовжують наздоганяти зміни в підходах нових генеративних моделей ШІ.

Спробуйте наш ШІ-детектор і гуманізатор у віджеті нижче!

Висновок

Відповідаючи на питання "Чи є ШІ-детектори точними?", можна сказати, що так, кілька інструментів є надійно точними, і Undetectable AI - один з них.

Вона досягла точності 100% для кожного тестового зразка, написаного як ШІ, так і людиною.

Інструмент також безкоштовний у використанні, на відміну від багатьох інших ШІ-детекторів, які ховають свої найкращі функції за платними стінами або кредитними системами.

Перевага ШІ Undetectable полягає в його федеративній моделі виявлення, яка об'єднує сильні сторони декількох провідних детекторів в єдину уніфіковану систему.

Багаторівневий підхід значно зменшує кількість помилкових спрацьовувань та хибних спрацьовувань.

Отже, якщо ви шукаєте надійний детектор ШІ, ШІ, який неможливо виявити варто спробувати!