Может ли ИИ быть этичным, эмпатичным и понимать культурный контекст?

15 июля 2023 в 13:52

Источник фото: https://pixabay.com/illustrations/binary-code-privacy-policy-woman-2175285/

Исследователи из Вроцлавской политехники работают над созданием генеративного искусственного интеллекта на польском языке в рамках проекта CLARIN-PL. Разговор с профессором, доктором Пшемыславом Казиенко и доктором Яном Коконем с кафедры искусственного интеллекта факультета компьютерных наук и телекоммуникаций Вроцлавской политехники о том, как персонализировать алгоритмы и научить их эмпатии (или имитировать ее), среди прочего.

Начало работы над польской версией ChatGPT

Когда начали работать над польским ботом на основе генеративного искусственного интеллекта? До того, как ChatGPT OpenAI был обнародован, или раньше?

Ян Кокон: Учитывая, что наша модель также основана на архитектуре Transformer, мы работаем с такими моделями уже более 3 лет. С точки зрения такого использования, как в ChatGPT, авторегрессионного, то есть такого, что может создавать текст, в контексте попыток создать нечто подобное для польского языка, мы начали работать вскоре после того, как ChatGPT стал общедоступным.

Рекомендуем прочитать:

Мы уже работали над такими аспектами обработки текста, как разделение текста на слова или предложения, определение грамматических категорий слов. Национальный корпус польского языка разрабатывался преимущественно в Варшаве, но и при нашем участии на его основе создавались модели. Например, те, которые выполняют морфосинтаксический анализ текста, то есть определяют грамматические категории слов, а также их атрибуты – число, род и т. д.

Мы также делали программы, которые распознают собственные названия слов или предложений и программы, которые распознают собственные имена в тексте (например, названия городов, стран, улиц), эмоции и тон текста. Эти задачи не требуют генерации текста. Так или иначе, эти первые архитектуры трансформеров в основном использовались для представления уже известного текста.

Классический трансформер – это модель кодер-декодер, где кодер должен видеть весь ранее известный текст. То есть на вход подавался текст, и мы что-то делали с этим текстом, например, определяли какой-то класс этого текста, или определяли, смешной ли он. Последние два года с Пшемеком мы посвятили много усилий очень инновационному решению, а именно персонализации таких моделей. Тогда модель не только определяет, является ли текст смешным или грустным, но мы задаем вопрос "Для кого этот текст будет смешным" или какие эмоции он вызовет у конкретного человека.

И как можно проверить последнюю опцию?

Пшемыслав Казиенко: Как и в большинстве проблем с искусственным интеллектом и машинным обучением, мы обучаем модели на имеющихся данных и тестируем на неизвестных. В случае с персонализацией выводов для текстов все, что нам нужно, – это несколько текстов, помеченных определенным человеком, и модель может сопоставить свои выводы с этим человеком. ChatGPT можно использовать аналогично. Мы даем ей во входном вопросе (подсказке) информацию о нескольких текстах, которые мы считаем оскорбительными, вместе с вопросом об оскорбительности нового текста. На основе такого дополнительного контекста модель способна делать различные выводы.

Откуда у вас возникла идея бросить вызов мировым гигантам и поработать над польским ChatGPT?

Пшемыслав Казиенко: На данный момент существует общественная потребность. Мне кажется, что компания OpenAI, так сказать, "перевернула ситуацию". Их модель далеко не единственная, но она была первой, которая получила такую широкую огласку. Другие компании делали очень похожие вещи, но, как правило, представляли результаты своей работы ученым или промышленности, на конференциях, или воплощали их в конкретных продуктах. OpenAI изменила правила игры, показав свою технологию широкой общественности.

В результате, внезапно все люди увидели возможности искусственного интеллекта. Как следствие, мы вдруг должны как-то на это реагировать. Мы, как Польша, также должны более интенсивно участвовать в развитии искусственного интеллекта. Мы не должны ограничиваться только несколькими специализированными научными проектами. Наша команда из 20 человек этой зимой быстро проводила исследования в чате GPT. Например, мы заметили, что нового и важного вносит технология Chat GPT по сравнению с другими моделями.

Это было фактически первое такое масштабное исследование на эту тему в мире. Для этого мы задали и проанализировали более 70 000 вопросов, чтобы проверить возможности ChatGPT и GPT-4 и оценили, как они работают в различных задачах? Как они сравниваются с другими лучшими в своем классе решениями в конкретной задаче, на конкретных коллекциях, в том числе польских, и т.д.? На данный момент результаты уже опубликованы в журнале Information Fusion, одном из лучших в области искусственного интеллекта (статья доступна по этой ссылке).

Какие основные выводы вашего исследования?

Прежде всего, мы выяснили, что ChatGPT прилично справляется с большинством задач, но ни в чем не сравнится с мастером, ни в чем не является лучшим. Действительно, он хуже справляется с очень сложными задачами, которые включают распознавание пережитых эмоций при чтении заданного контента, а также распознавание иронии или сарказма.

С ними он не справляется "пока что". Помните также, что это непростые задачи для многих людей. Однако падение качества работы ChatGPT в таких сложных задачах не настолько велико, чтобы быть очень значимым, например, для бизнеса. Напротив, бот на самом деле оказался быстрым и эффективным во многих более простых задачах, например, есть ли ответ на вопрос X в отрывке текста Y. Чем сложнее была задача, тем больше была эта разница между лучшими моделями и именно GPT Chat.

Кроме того, мы не знаем, на чем именно проходили тренировки с ChatGPT и GPT4. Нам кажется, что большинство заданий, которые мы тестировали, были для него новыми, он не был с ними знаком. Очевидно, что это снижает его результат. Если модель натренирована на конкретной задаче, то, очевидно, она лучше справляется с аналогичной задачей.

Вывод нашей статьи заключается в том, что, хотя ChatGPT немного хуже справляется со сложными задачами, с другой стороны, для модели, которая никогда не тренировалась специально на этих задачах, она справилась хорошо. Другими словами, для него можно придумать любую задачу и получить приемлемый результат, по крайней мере, для бизнеса.

Заберет ли ChatGPT работу у людей?

Сейчас много говорят о том, что ИИ заберет рабочие места у людей

Все зависит от нашего подхода. На практике это не произойдет так быстро, потому что именно люди имеют компетенцию оценивать качество ИИ-модели. По нашему мнению, это может стать большой поддержкой для многих рабочих мест. В последнее время в СМИ активно обсуждается тема четырехдневной рабочей недели. Наверное, все мы сталкиваемся с такой повторяющейся, бездумной деятельностью в своей работе. Было бы хорошо, если бы машина могла делать это за нас, например, сортировать электронную почту или делать заметки о встречах. Это уже довольно хорошо работает, но для английского, а не польского языка.

Рекомендуем прочитать:

ChatGPT не справился с польским языком. Известно, что он не может писать стихи или песни на польском, то есть не рифмует. У нас есть гипотеза, что это результат недостаточной тренировки ChatGPT на большой выборке польского языка.

В настоящее время общий искусственный интеллект, такой как ChatGPT, можно очень быстро использовать для различных типов быстрого прототипирования и тестирования. Тогда мы не тратим несколько месяцев на создание специальных моделей. Это ускоряет исследования. Приведите пример. Недавно к нам пришел исследователь со своим корпусом текстов на определенную тематику и спросил, есть ли у нас инструменты, с помощью которых можно выделить все прилагательные и наречия, касающиеся определенных эмоций. Мы отдали это на аутсорсинг ChatGPT и получили отличный результат.

На основе чего будет разрабатываться польская версия ChatGPT?

Вы проанализировали ChatGPT. Учли ли вы слабые стороны ChatGPT в своем оригинальном польском решении?

Конечно, мы хотим это сделать, но стоит также помнить, что ChatGPT – это модель, основанная на GPT-3.5. OpenAI показала, что потратила более 4 миллионов долларов только на обучение этой модели. Деньги – это самое большое препятствие для нас. Наш грант от POIR (Operational Programme Intelligent Development) и средства от Вроцлавского центра суперкомпьютерных сетей на приобретение оборудования составляют около 80 миллионов злотых. Вероятнее всего, мы получим компьютерное оборудование не раньше следующего года. Вторая ключевая вещь – это наличие очень большого количества текстов, на которых мы предварительно тренируем модель, чтобы она вообще понимала естественную речь.

У нас их огромное количество, но нам нужно больше, потому что польский язык вызывает много трудностей. Особенно это касается контента, специфичного для польского культурного и социального контекста. Окно на сайте Clarin-PL в настоящее время де-факто является окном для ChatGPT. Сейчас мы поощряем людей использовать ChatGPT через это окно, чтобы пользователи могли рассказать нам, с чем ChatGPT не смог справиться на польском языке. Известно, что он не может писать стихи или песни на польском языке, то есть не рифмует. У нас есть гипотеза, что это результат того, что ChatGPT не тренировался на большой выборке польского языка. Достаточно много людей уже было привлечено.

Нужна будет человеческая верификация, которая может быть сложнее, чем сейчас. Иногда это будет означать для нас больше работы, чем создание этого контента самостоятельно.

Вторая проблема – очень большое количество инструкций с правильными ответами, на которых обучают такого чат-бота, обучая его специфическому поведению для взаимодействия с человеком. Наша целевая модель требует другого набора учебных инструкций, чем тот, который используется в оригинальном ChatGPT. Благодаря отзывам, полученным от нашего польского сообщества, мы создадим целевой набор данных, на котором обучим лучшую модель для польского языка. Она будет понимать наш естественный язык.

Кроме того, с точки зрения бизнеса, важно, чтобы работа модели соответствовала политике компании, то есть, например, не касалась определенных противоречивых тем, не была агрессивной или оскорбительной. Здесь мы касаемся вопроса, что как общество мы не можем контролировать то, что делает OpenAI. ChatGPT приспособлен к потребностям американских компаний и общества, их взгляду на мир и пониманию его. Приемлемость разных вещей отличается от Польши или Европы. Мы должны делать свои собственные вещи, чтобы другие не навязывали нам, как выглядит мир или как, по их мнению, он должен выглядеть.

Это не должно быть только вопросом мировоззрения или вопросом другой чувствительности, но также много вопросов фактов. Эти типы систем будут все больше играть роль некоторой общей базы знаний и, следовательно, влиять на общество. Другими словами, формировать нарратив, например, кто виноват в войне в Украине. Мы боимся, что нам будет все труднее отличить, кто написал тот или иной контент – человек или машина. Вот почему наше участие в этой революции так важно.

Развитие всеобщего искусственного интеллекта будет означать, что нам нужно будет все меньше и меньше обрабатывать информацию глубоко и рационально, поскольку системы будут делать это за нас.

Или студенты-политехники уже подают работы, написанные с помощью ChatGPT?

Мы об этом не беспокоимся. Важнее то, какие последствия будет иметь стремительное развитие искусственного интеллекта для всей системы образования. По нашему мнению, это вопрос доверия к представленному нам контенту. Уже сейчас становится все более непонятно, с кем мы имеем дело – с ботом или человеком в Интернете. Это может привести к атрофии доверия и человеческих отношений. Кроме того, образ мышления человека может быть подчинен машине, а значит, мы будем имитировать его рассуждения и общение. Мы также должны спросить себя, как должна выглядеть наша система образования? Ведь мы будем готовить людей к жизни в мире, в котором в значительной степени будет доминировать искусственный интеллект. На это нет простого ответа.

Мы считаем, что мы должны учить людей быть независимыми, творческими, работать вместе в группе и решать проблемы, а не проходить какой-то курс, иметь определенные фактические знания и соревноваться за те или иные оценки. В наше время становится все труднее и труднее решать реальные проблемы или проводить исследования в одиночку. Возьмем, например, наш большой опрос в начале этого года, в котором приняли участие более 20 человек. Он требовал большого сотрудничества и быстрого "доведення" результата.

Кроме того, рост знаний сейчас слишком велик, чтобы один человек мог их освоить. Зачем сегодня давать ребенку домашнее задание, если за него это сделает ChatGPT? Ему даже не нужно больше переписывать Википедию? Интуитивно понятно, что чем больше будет инструментов для создания контента, тем труднее будет, например, журналистам и представителям других профессий. Этот контент не обязательно будет хорошим и правильным, и СМИ придется докапываться до сути и устанавливать, не является ли он фейковым и не сгенерированным машиной. Генеративные инструменты также могут, например, генерировать иски и аргументы, что не означает, что они будут правильными и правдивыми, а сторона выиграет дело. Потребуется человеческая проверка, которая может быть сложнее, чем сейчас. Иногда это будет означать для нас больше работы, чем создание этого контента собственноручно.

Искусственный интеллект и воспитание подрастающего поколения

Искусственный интеллект является очень важной частью построения конкурентных преимуществ

На Западе все чаще обсуждается вопрос, не делаем ли мы медвежью услугу детям, так глубоко погружая их в цифровой мир с самого начала их жизни. Как это повлияет на их психику и способность обрабатывать информацию или строить межличностные отношения? Мы – последнее поколение, которое выросло без этих цифровых новинок и, как следствие, имеем критическое мышление, которое позволяет нам немного критически различать цифровой мир и мир реальный.

Сейчас мы наблюдаем резкий рост количества самоубийств, депрессий и эмоциональных расстройств среди молодежи, и это часто связано, например, с многочасовым сидением в социальных сетях. Во Франции рассматривается вопрос о запрете социальных сетей для людей в возрасте до 15-16 лет. TikTok для Европы и Америки также считается источником неразвивающего контента, простых бездумных видео, которые, кстати, все еще подаются таким образом, чтобы удержать людей в приложении как можно дольше, тогда как TikTok для Китая, как говорят, выглядит совсем иначе.

Там дети получают креативный контент, а к ученым там относятся как к знаменитостям; там также есть нисходящие лимиты на количество времени, которое дети могут проводить в приложении, и т. д. Конечно, мы вряд ли захотим жить в мире, подобном китайскому, но, возможно, в этих конкретных аспектах они выигрывают. Как ответственные за развитие следующего поколения, мы должны обсуждать это в обществе.

Станут ли люди глупее благодаря ChatGPT?

Развитие всеобщего искусственного интеллекта будет означать, что нам потребуется все меньше и меньше для того, чтобы глубоко и рационально обрабатывать информацию, потому что системы будут делать это за нас. Многие исследования показывают, что если на заданный вопрос ответ сразу дается в браузере, большинство людей даже не смотрят на ссылки на источники, они просто сразу "берут" данный ответ.

Наш мозг любит эвристику и вообще ленив. Оказывается, что следствием длительного пребывания в цифровом мире является изменение модели запоминания – нам легче запомнить ссылки на информацию и ключевые слова, чем запомнить саму информацию. Системы знают все больше и больше о нас, о том, что мы ищем и в чем нуждаемся. Они становятся все более персонализированными и окружают нас все более плотным пузырем, который к тому же является очень приятным. Таким образом, мы будем ставить все более зависимыми от систем и, в долгосрочной перспективе, будем терять способность мыслить рационально. Скорее всего, мы будем станем все глупее. А если мы не будем мыслить рационально, наш мозг уменьшится. Я думаю, что стоит начать думать о том, как сохранить нашу человечность. GPT-чат – это все равно, что открыть ящик Пандоры.

Искусственный интеллект является очень важным элементом в создании конкурентных преимуществ. Как Польша, мы должны присоединиться к этой гонке, чтобы не оказаться на периферии мира, чтобы не стать своеобразной страной-колонией. Благодаря ответам, которые мы собираем через польское окно на ChatGPT, мы создаем локальную базу данных из дорогих, поскольку полученных от людей, данных. Мы также должны больше инвестировать в образование, связанное с искусственным интеллектом, если хотим играть здесь важную роль.

Рекомендуем прочитать:

Теги: штучний інтелект

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!