Фейковий термін vegetative electron microscopy заражає наукові статті

Эта статья доступна на русском языке
старі книги
Джерело фото: Flux Pro

Крихітна фраза «вегетативна електронна мікроскопія» спливла з небуття й прилипла до наукового світу, мов реп’ях до пальта. Вона проникає у статті, зриває рецензії, дратує редакторів і водночас зачаровує мисливців за помилками. Що це за дивина і чому її так складно стерти — розповідаємо без зайвого пафосу, але з інтригою до останнього рядка.

Історія почалася ще в 1950-х, коли дві статті про бактерії оцифровувалися старим сканером. Рядки з двох колонок злиплися і вивели на світ дивний гібрид слів: «vegetative» та «electron microscopy». Помилка лишилася непоміченою, а цифровий слід законсервував її, немов бурштин комаху.

Минуло понад пів сторіччя, і химерний термін ожив у перекладах іранських дослідників. Від «скануюча» до «вегетативна» їх відділяє в перській мові лише крапка-діакритика. Автоматичний перекладач не розрізнив рисочки — так помилка перескочила мовний бар’єр і потрапила в англомовні журнали.

Далі справу підхопив штучний інтелект. Великі мовні моделі, треновані на гігантському масиві CommonCrawl, навчились продовжувати речення саме цією нісенітницею. GPT-3 робила це з завидною регулярністю, попередні GPT-2 чи BERT — ні. Лінгвістичний вірус поширився й у новіші генерації, включно з GPT-4o та Claude 3.5, і тепер майже гарантовано сплине щоразу, коли модель бачить слова «vegetative electron…».

Спроба виправити такий збій стикається з проблемою масштабу. Лише один знімок CommonCrawl важить мільйони гігабайт. Перебрати й «продезінфікувати» ці дані під силу хіба що найбільшим корпораціям, та й вони не поспішають розкривати карти щодо того, на чому навчили свої нейромережі.

Водночас Google Scholar ще в лютому показував майже два десятки робіт із цією фразою, а Retraction Watch знайшла її й у статті редактора одного з журналів Elsevier. Видавець спершу захищав текст, але згодом вимушений був внести виправлення.

Вегетативна електронна мікроскопія стала «цифровим викопним», що застрягло між базами даних, машинними алгоритмами та людською недбалістю. Вона оголила одразу три вразливості: хаотичну оцифровку старих текстів, тендітність машинного перекладу й непрозорість навчальних корпусів ШІ. Позбутися таких артефактів нелегко, а тому науковцям доведеться жити поруч із ними, розвиваючи нові інструменти перевірки та критичного читання. Адже кожна подібна фраза — дзеркало системної тріщини, яку легше помітити, ніж залатати.

Джерело: Science Alert

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!



Інші статті рубрики

В цей день 25 квітня

2025

2024

2023