Усі ми живемо в бурхливе століття розвитку штучного інтелекту. Уже нікого не дивує те, що за допомогою ШІ можна генерувати текст або зображення. У компанії OpenAI – тій самій, яка створила ChatGPT, вирішили піти ще далі і створили ШІ, який вміє створювати відео за текстовим описом. Вони назвали його Sora – поки що нейромережа недоступна для широкого загалу, але думаємо, що цей час не за горами. Давайте розберемося, що з себе представляє Sora і який вплив матиме на індустрію виробництва відеоконтенту.
Що таке Sora?
Sora – це ШІ-модель від творців ChatGPT, компанії OpenAI, яка вміє створювати відео за текстовим запитом користувача. Тривалість роликів – до 1 хвилини.
Sora здатна створювати деталізовані сцени з безліччю персонажів, заданими типами руху і точними деталями об'єкта і фону. По суті, достатньо описати бажану сцену в текстовому вигляді – і ШІ згенерує відповідне відео у високій якості.
Як працює Sora і які можливості дає?
Sora використовує передову архітектуру трансформерів, спеціально адаптовану для генерації відео. Ця архітектура дає змогу моделі аналізувати текстові описи сцен і на їхній основі створювати відповідні візуальні образи кадр за кадром.
Процес роботи Sora можна розділити на кілька етапів:
- Аналіз текстового опису сцени і витяг ключових деталей – персонажів, дій, об'єктів, фону.
- Генерація початкових випадкових зображень (шуму) на основі витягнутих деталей.
- Покрокова обробка цих зображень з використанням великих даних для навчання, щоб поліпшити якість і зменшити шум.
- Отримання реалістичної послідовності кадрів, що точно відповідає заданому текстовому опису.
Завдяки такому підходу Sora може генерувати відео тривалістю до хвилини з дотриманням заданих користувачем параметрів сцени – кількості та зовнішнього вигляду персонажів, їхніх дій, деталей фону й оточення.
Це відкриває широкі перспективи використання Sora в найрізноманітніших галузях – освіті, розвагах, рекламі, кіноіндустрії та інших, де потрібні реалістичні та динамічні відеоматеріали, створені повністю на основі тексту.
Які у нової нейромережі є обмеження?
Незважаючи на вражаючі результати, у Sora поки що є низка недоліків:
- Складнощі з моделюванням фізики в комплексних сценах;
- Плутанина в просторових деталях (наприклад, справа/зліва);
- Неточності в послідовності подій.
Наприклад, Sora може неправильно зобразити слід від укусу на печиві або переплутати напрямок руху персонажа. Також їй не завжди вдається точно змоделювати взаємодію кількох об'єктів або персонажів.
Проте творці Sora активно працюють над усуненням подібних недоліків.
Чому нова нейромережа турбує творців медіа?
Хоча Sora і не позбавлена обмежень, вона вже викликає побоювання у представників медіаіндустрії. Причини для занепокоєння є:
- Пошук дезінформації та фейків. За допомогою Sora можна легко створювати реалістичні, але неправдиві відео. Це загрожує поширенням фейкових новин і чуток.
- Загроза авторським правам. Нейромережа дозволяє використовувати чужу інтелектуальну власність без дозволу.
- Конкуренція для професіоналів. Простота створення відео за допомогою ШІ може знизити попит на послуги сценаристів, операторів і монтажерів.
Щоб знизити ризики, OpenAI планує ретельно тестувати Sora перед випуском, а також розробляти спеціальні інструменти моніторингу контенту.
Висновки
Sora – багатообіцяюча технологія від OpenAI, здатна кардинально змінити процес створення відеоконтенту. Вона дасть змогу практично будь-якій людині втілити свої ідеї в реалістичні відеоролики за текстовим описом.
Однак на поточному етапі у Sora є недоліки, пов'язані з моделюванням складних фізичних процесів і взаємодій. Крім того, технологія викликає побоювання ризику зловживань і конкуренції для професіоналів галузі.
Майбутнє Sora багато в чому залежить від того, як OpenAI впорається із забезпеченням безпеки та етичності цієї потужної нейромережі. За правильного підходу вона може дійсно спричинити революцію у сфері відеовиробництва.
here is a better one: https://t.co/WJQCMEH9QG pic.twitter.com/oymtmHVmZN
— Sam Altman (@sama) February 15, 2024











