Крихітна фраза «вегетативна електронна мікроскопія» спливла з небуття й прилипла до наукового світу, мов реп’ях до пальта. Вона проникає у статті, зриває рецензії, дратує редакторів і водночас зачаровує мисливців за помилками. Що це за дивина і чому її так складно стерти — розповідаємо без зайвого пафосу, але з інтригою до останнього рядка.
Історія почалася ще в 1950-х, коли дві статті про бактерії оцифровувалися старим сканером. Рядки з двох колонок злиплися і вивели на світ дивний гібрид слів: «vegetative» та «electron microscopy». Помилка лишилася непоміченою, а цифровий слід законсервував її, немов бурштин комаху.
Минуло понад пів сторіччя, і химерний термін ожив у перекладах іранських дослідників. Від «скануюча» до «вегетативна» їх відділяє в перській мові лише крапка-діакритика. Автоматичний перекладач не розрізнив рисочки — так помилка перескочила мовний бар’єр і потрапила в англомовні журнали.
Далі справу підхопив штучний інтелект. Великі мовні моделі, треновані на гігантському масиві CommonCrawl, навчились продовжувати речення саме цією нісенітницею. GPT-3 робила це з завидною регулярністю, попередні GPT-2 чи BERT — ні. Лінгвістичний вірус поширився й у новіші генерації, включно з GPT-4o та Claude 3.5, і тепер майже гарантовано сплине щоразу, коли модель бачить слова «vegetative electron…».
Спроба виправити такий збій стикається з проблемою масштабу. Лише один знімок CommonCrawl важить мільйони гігабайт. Перебрати й «продезінфікувати» ці дані під силу хіба що найбільшим корпораціям, та й вони не поспішають розкривати карти щодо того, на чому навчили свої нейромережі.
Водночас Google Scholar ще в лютому показував майже два десятки робіт із цією фразою, а Retraction Watch знайшла її й у статті редактора одного з журналів Elsevier. Видавець спершу захищав текст, але згодом вимушений був внести виправлення.
Вегетативна електронна мікроскопія стала «цифровим викопним», що застрягло між базами даних, машинними алгоритмами та людською недбалістю. Вона оголила одразу три вразливості: хаотичну оцифровку старих текстів, тендітність машинного перекладу й непрозорість навчальних корпусів ШІ. Позбутися таких артефактів нелегко, а тому науковцям доведеться жити поруч із ними, розвиваючи нові інструменти перевірки та критичного читання. Адже кожна подібна фраза — дзеркало системної тріщини, яку легше помітити, ніж залатати.
Джерело: Science Alert











