ИТ-директор Университета Феникса говорит, что чат-боты могут угрожать инновациям

26 марта 2023 в 14:22

Команда инженеров ИТ-директора Джейми Смита разрабатывает модель вывода навыков с помощью технологии генеративного искусственного интеллекта. Но он также обеспокоен тем, что если чат-ботам позволят заменить ИТ-работников, оригинальность умрет.

Появление искусственного интеллекта (ИИ) открыло двери к безграничным возможностям в сотнях отраслей, но конфиденциальность продолжает вызывать огромное беспокойство. Использование данных для создания инструментов искусственного интеллекта может непреднамеренно привести к раскрытию конфиденциальной и личной информации.

Чат-боты, созданные на основе больших языковых моделей (LLM), таких как GPT-4, имеют огромные перспективы сократить время, которое работники сферы знаний тратят на обобщение стенограмм встреч и онлайн-чатов, создание презентаций и кампаний, анализ данных и даже компиляцию кода. Но технология еще далеко не полностью проверена.

Поскольку инструменты искусственного интеллекта продолжают развиваться и приобретать все большее признание – не только в программах, ориентированных на потребителя, таких как поисковые системы Bing от Microsoft и Bard от Google, – растет беспокойство о конфиденциальности и оригинальности данных.

Когда LLM станут более стандартизированными, и все больше компаний будут использовать одинаковые алгоритмы, не уменьшится ли оригинальность идей?

Джейми Смит, директор по информационным технологиям Университета Феникса, имеет страсть к созданию высокоэффективных цифровых команд. Он начал свою карьеру как основатель ранней интернет-консалтинговой фирмы, и с тех пор ищет пути применения технологий для решения бизнес-задач.

Сейчас Смит получает степень магистра права, чтобы разработать механизм вывода навыков на основе генеративного ИИ. Но поскольку генеративный ИИ становится все более распространенным, Смит также обеспокоен конфиденциальностью полученных данных и тем, как использование одной и той же модели ИИ множеством организаций может повлиять на оригинальность, которая присуща только человеку.

Что не дает вам спать по ночам?

"Мне трудно представить, как все это [генеративный ИИ] дополнит, а не заменит всех наших инженеров. Сейчас наши инженеры – удивительные машины для решения проблем – забудьте о кодировании. Мы позволили им думать о проблемах студентов в первую очередь, а о проблемах кодирования – во вторую.

"Я надеюсь, что [генеративный ИИ] станет для инженеров чем-то вроде бионики, что позволит им больше времени сосредотачиваться на проблемах студентов и меньше думать о том, как скомпилировать свой код. Вторая вещь, и это менее оптимистичный взгляд, заключается в том, что инженеры станут менее вовлеченными в процесс, и, в свою очередь, мы получим что-то быстрое, но без души. Я боюсь, что если все будут использовать одинаковые модели, откуда возьмутся инновации? Где та часть замечательной идеи, если вы перенесли ее на компьютеры?

"Итак, это инь и янь того, как я вижу этот вопрос. И как потребитель, этические соображения которого действительно начинают усиливаться, поскольку мы больше полагаемся на модели черных ящиков, которые на самом деле не понимаем, как они работают".

Как инструменты искусственного интеллекта могут непреднамеренно раскрыть конфиденциальные данные и частную информацию? "Генеративный ИИ работает, поглощая большие массивы данных, а затем строя выводы или предположения на основе этих наборов данных.

"Была известна история, когда компания Target начала присылать вещи дочери-подростку одного парня, которая на тот момент была беременной, и это произошло до того, как он об этом узнал. Она тогда была в старшей школе. Поэтому он пришел в Target очень разъяренный. Модель знала о беременности дочери раньше отца.

"Это один из примеров вывода или раскрытия данных. Другой простой вопрос – насколько безопасны данные, которые попадают в систему? Какие есть возможности для того, чтобы они вышли наружу несанкционированным способом, что непреднамеренно раскроет такие вещи, как информацию о здоровье. Личная информация о здоровье, если ее не очистить должным образом, может попасть туда непреднамеренно. Я думаю, что есть более тонкие проблемы, которые меня беспокоят немного больше.

"Там, где расположен Университет Феникса, находятся автомобили Waymo. Если учесть количество датчиков на этих автомобилях и все эти данные, поступающие в Google. Они могут предложить такие вещи, как: "Эй, они могут считывать номерные знаки. Я вижу, что ваша машина припаркована возле дома с 17:00 до 19:00. Это подходящее время, чтобы связаться с вами". Со всеми этими миллиардами датчиков, подключенных [к облакам искусственного интеллекта], есть несколько нюансов, которые мы можем не считать сверхчастными данными, но которые раскрывают данные, которые могут попасть туда".

Prompt Engineering

Промпт инжиниринг – это только зарождающийся навык, который приобретает все большую популярность. По мере того, как генеративный ИИ развивается и поглощает отраслевые или даже корпоративные данные для создания LLM, видите ли вы растущую угрозу для конфиденциальности данных? "Во-первых, ожидаю ли я, что промпт-инженерия как навык будет расти? Да. В этом нет никаких сомнений. По моему мнению, инженерия - это кодирование, а обучение этих моделей ИИ с помощью быстрого инжиниринга - это почти как воспитание детей. Вы пытаетесь поощрять результат, продолжая совершенствовать то, как вы задаете ему вопросы, и действительно помогаете модели понять, что такое хороший результат. Итак, это похоже, но довольно разный набор навыков. Будет интересно посмотреть, сколько инженеров смогут пересечь эту пропасть, чтобы добраться до быстрого инжиниринга.

"Что касается конфиденциальности, мы инвестировали в компанию, которая занимается корпоративным выводом навыков. Она берет кое-что из того, что вы делаете в своих рабочих системах, будь то система управления обучением, электронная почта, на кого вы работаете и с чем вы работаете, и делает выводы о навыках и уровнях квалификации, которые могут вам понадобиться.

"Из-за этого нам пришлось реализовать это в единой модели арендатора. Итак, мы создали нового арендатора для каждой компании с базовой моделью, а затем с их учебными данными, и мы держим их учебные данные как можно меньше времени, чтобы обучить модель, а затем очищаем ее и отправляем им обратно. Я бы не назвал это лучшей практикой. Это сложно масштабировать, но вы попадаете в ситуации, когда некоторые средства контроля еще не существуют для обеспечения конфиденциальности, поэтому вам приходится делать такие вещи.

"Другая вещь, которую я видел, как компании начинают делать, – это вводить шум в данные, чтобы очистить их таким образом, чтобы вы не могли дойти до индивидуальных прогнозов. Но всегда существует баланс между тем, сколько шума вы вносите, и тем, насколько это уменьшит результат с точки зрения предсказания модели.

"Сейчас мы пытаемся выяснить, какой наш лучший неудачный выбор для обеспечения конфиденциальности в этих моделях, потому что анонимизация не является идеальной. Особенно, когда мы переходим к изображениям, видео, голосу и другим вещам, которые намного сложнее, чем просто чистые данные и слова, эти вещи могут проскользнуть сквозь щели".

Каждая большая языковая модель имеет свой набор API для доступа к ней для быстрой разработки – верите ли вы, что в какой-то момент все стандартизируется?

"Есть много компаний, которые были построены на базе GPT-3. Таким образом, они, по сути, сделали API более простым в использовании, а подсказки – более согласованными. Я думаю, что Jasper был одним из тех нескольких стартапов, которые сделали это. Так что очевидно, что в этом есть необходимость. По мере того, как они выходят за рамки больших языковых моделей и переходят к изображениям и звуку, возникает необходимость в стандартизации.

"Сейчас это похоже на темное искусство. быстрая инженерия ближе к колдовству, чем к инженерии. Появляются лучшие практики, но это все равно проблема, потому что существует много [уникальных] моделей машинного обучения. Например, у нас есть модель машинного обучения, которая отправляет SMS-сообщения для поддержки наших потенциальных клиентов, но у нас также есть чат-бот, который также занимается поддержкой потенциальных клиентов. Нам пришлось обучать обе эти модели по отдельности.

"Поэтому [должна быть] не только подсказка, но и большая последовательность в обучении и то, как вы можете последовательно тренировать намерения. Нужны стандарты. Иначе все будет слишком запутанно.

"Это как иметь кучу детей. Вам приходится преподавать каждому из них один и тот же урок, но в разное время, и иногда они ведут себя не очень хорошо.

"Это другая часть проблемы. Это то, что меня тоже пугает. Я еще не знаю, что это экзистенциальная угроза – знаете, как конец света, апокалипсис, Скайнет уже здесь. Но это действительно изменит нашу экономику, работу со знаниями. Он меняет вещи быстрее, чем мы можем к ним адаптироваться".

Это ваш первый опыт использования больших языковых моделей? .

"Это моя первая попытка использовать большие языковые модели, которые не были обучены на основе наших данных – так какая польза от этого, если у вас миллион выпускников и петабайты и петабайты цифровых выхлопов за эти годы?

"Итак, у нас есть удивительная модель подталкивания, которая помогает студентам в продвижении, если у них возникают проблемы с определенным курсом; она предлагает конкретные подсказки. Это все большие языковые модели, но все это было разработано на основе данных UoP. Итак, это наши первые набеги на магистерские программы, где обучение уже состоялось, и мы полагаемся на чужие данные. Вот здесь становится немного не так комфортно".

Какую модель вывода навыков вы используете?

"Наша модель вывода навыков является собственной разработкой компании EmPath, в которую мы являемся инвесторами. Кроме EmPath, есть еще несколько компаний, например, Eightfold.ai, которые делают очень похожие модели вывода навыков".

Как работает вывод навыков?

"Частично это исходит из вашей системы управления персоналом, и если у вас есть сертификаты, которые вы можете получить. Проблема, с которой мы столкнулись, заключается в том, что никто не хочет идти и поддерживать профиль навыков вручную в актуальном состоянии. Мы пытаемся открыться для систем, которые вы постоянно используете. То есть, если вы переписываетесь по электронной почте туда-сюда и проверяете код с точки зрения инженеров – или на основе вашей должности, оценки работы - любой цифровой выхлоп, который мы можем получить, который не требует, чтобы кто-то выходил на улицу. Затем вы тренируете модель, а затем люди выходят и проверяют модель, чтобы убедиться, что их оценка является точной. Затем вы используете ее и продолжаете итерации".

То есть это большая языковая модель, как GPT-4? .

"Да. Что будут хорошо делать chatGPT и GPT-4, так это обрабатывать естественную речь, выводить таксономию навыков на основе того, что вы уже сделали, и иметь возможность тренировать ее. GPT-4 в основном соскребает [все необходимые данные]. Одна из самых сложных вещей для нас – это выбор. Выбрать таксономию навыков IBM или выбрать таксономию MC1? Преимущество больших языковых моделей, таких как GPT-4, заключается в том, что в них собраны все данные, и они могут предоставлять информацию любым способом, который вам нужен. Это было очень полезно".

Итак, это инструмент для подбора персонала или инструмент для повышения квалификации и переподготовки имеющейся рабочей силы?

"Это не совсем инструмент для подбора персонала, потому что есть много платформ для отслеживания кандидатов. Мы используем его для внутреннего развития навыков в компаниях. И мы также используем его для построения команды. То есть, если вам нужно собрать команду в большой организации, это означает, что вы найдете всех людей с нужным профилем навыков. Это платформа, разработанная для целенаправленного обучения и повышения квалификации – или для переквалификации и повышения квалификации ваших существующих сотрудников.

"Самое интересное то, что, помогая, искусственный интеллект одновременно мешает тем же работникам и требует от них переквалификации. Это вызывает нарушения и помогает решить проблему".

Вы используете эту технологию вывода навыков внутри компании или для клиентов?

"Сейчас мы внедряем ее на большей платформе. Поэтому мы все еще находимся на начальной стадии с несколькими альфа-реализациями. Мы фактически реализовали его сами. Это как есть собственное филе-миньон.

"У нас 3500 сотрудников, и мы сами прошли через внедрение, чтобы убедиться, что это работает. Опять же, я думаю, что это будет одна из тех отраслей, где чем больше данных вы можете предоставить системе, тем лучше она будет работать. Самое сложное, с чем я столкнулся, - это то, что наборы данных несовершенны; они настолько хороши, насколько хороши данные, которыми вы их кормите, пока мы не сможем подключить туда больше шума и получить цифровой выхлоп. Это все равно намного лучше, чем начинать с нуля. Мы также делаем много оценок. У нас есть инструмент под названием Flo, который анализирует входные и выходные данные предложенного кода для обучения. Это один из наборов инструментов, которые мы используем для переквалификации сотрудников.

"В этом случае, вероятно, там меньше частных данных на индивидуальной основе, но, опять же, из-за того, что компания видит это как собственность с точки зрения подачи информации [из HR и других систем], нам пришлось превратить это в нечто вроде сада, обнесенного стеной".

Как долго проект находится в разработке?

"Мы начали его, пожалуй, шесть-восемь месяцев назад, и мы ожидаем, что он заработает в следующем квартале – по крайней мере, для первого альфа-клиента. Опять же, мы учимся на собственном опыте, поэтому сегодня доступны лишь небольшие фрагменты. Другое дело, что кроме Университета Феникса есть много других учебных программ. Поэтому первое, что нам пришлось сделать, это составить карту каждого курса, который у нас был, и решить, какие навыки формируются на этих курсах, а также получить подтверждение для каждого из этих навыков. Так что это была большая часть процесса, которая, честно говоря, даже не связана с технологиями. Это выравнивание гаек и болтов. Вы не хотите, чтобы в одном курсе было 15 навыков. Это должны быть навыки, которым вы действительно научитесь на любом курсе.

"Это часть нашего общего переосмысления себя. Диплом важен, но ваш результат - это то, что вы сможете получить следующую работу в кратчайшие сроки, насколько это возможно. Итак, эта общая платформа поможет вам сделать это в рамках компании. Я думаю, что часто, если вам не хватает какого-то навыка, первое желание - пойти и нанять кого-то, а не переквалифицировать уже имеющегося работника, который уже понимает культуру компании и имеет опыт работы в ней. Поэтому мы стараемся сделать это простым решением.

"Это будет то, над чем мы работаем для наших бизнес-клиентов. Итак, мы будем внедрять это для них. Сейчас у нас более 500 бизнес-клиентов, но это больше похоже на льготы на обучение, когда ваш работодатель оплачивает часть стоимости обучения.

"Речь идет о том, как углубить наши отношения с этими компаниями и помочь им решить эту проблему. Поэтому мы проводили интервью с руководителями программ и другими руководителями, пытаясь сделать то, что мы делаем, более подходящим для их потребностей.

"Эй, как ИТ-директор, я сам сталкиваюсь с этой проблемой. Война за таланты реальна, и мы не можем купить достаточно талантов в нынешней гонке вооружений за зарплату. Поэтому мы должны повышать квалификацию и переквалифицироваться как можно больше изнутри".

Олександр Пасічний

Головний редактор TERAZUS

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!