Крошечная фраза "вегетативная электронная микроскопия" всплыла из небытия и прилипла к научному миру, как репейник к пальто. Она проникает в статьи, срывает рецензии, раздражает редакторов и одновременно очаровывает охотников за ошибками. Что это за диковинка и почему ее так сложно стереть – рассказываем без лишнего пафоса, но с интригой до последней строчки.
История началась еще в 1950-х, когда две статьи о бактериях оцифровывались старым сканером. Строки из двух колонок слиплись и вывели на свет странный гибрид слов: "vegetative" и "electron microscopy". Ошибка осталась незамеченной, а цифровой след законсервировал ее, словно янтарь насекомое.
Прошло более полувека, и причудливый термин ожил в переводах иранских исследователей. От "сканирующая" до "вегетативная" их отделяет в персидском языке лишь точка-диакритика. Автоматический переводчик не различил черточки – так ошибка перескочила языковой барьер и попала в англоязычные журналы.
Дальше дело подхватил искусственный интеллект. Большие языковые модели, тренированные на гигантском массиве CommonCrawl, научились продолжать предложения именно этой ерундой. GPT-3 делала это с завидной регулярностью, предыдущие GPT-2 или BERT – нет. Лингвистический вирус распространился и в более новые поколения, включая GPT-4o и Claude 3.5, и теперь почти гарантированно всплывет каждый раз, когда модель видит слова "vegetative electron...".
Попытка исправить такой сбой сталкивается с проблемой масштаба. Только один снимок CommonCrawl весит миллионы гигабайт. Перебрать и "продезинфицировать" эти данные под силу разве что крупнейшим корпорациям, да и они не спешат раскрывать карты относительно того, на чем обучили свои нейросети.
В то же время Google Scholar еще в феврале показывал почти два десятка работ с этой фразой, а Retraction Watch нашла ее и в статье редактора одного из журналов Elsevier. Издатель сначала защищал текст, но впоследствии вынужден был внести исправления.
Вегетативная электронная микроскопия стала "цифровым ископаемым", застрявшим между базами данных, машинными алгоритмами и человеческой небрежностью. Она обнажила сразу три уязвимости: хаотичную оцифровку старых текстов, хрупкость машинного перевода и непрозрачность учебных корпусов ИИ. Избавиться от таких артефактов нелегко, а потому ученым придется жить рядом с ними, развивая новые инструменты проверки и критического чтения. Ведь каждая подобная фраза – зеркало системной трещины, которую легче заметить, чем залатать.
Источник: Science Alert











