
На этой неделе корпорация представила новую модель ИИ, относящуюся к группе решений Multimodal Large Language Model (MLLM), назвав ее "Космос-1".
Это мультимодальная большая языковая модель, которая может не только отвечать на стандартные вопросы, но и реагировать на графику, то есть, например, подписывать представленные ей изображения или отвечать на то, что она на них видит. Как вы знаете, бот ChatGPT от OpenAI основан на модели LLM, которая понимает представленный ей текст, но не реагирует на ввод в виде графики. Модель MLLM может реагировать на графику, о чем свидетельствует прилагательное «мультимодальный». Это означает, что модель Tako может и "читать", и "видеть". Способность обеспечивать мультимодальный ввод значительно расширяет возможности применения языковых моделей в других областях, таких как мультимодальное машинное обучение или робототехника.
Что может новый искусственный интеллект «Космос 1»?
Microsoft приводит пример работы Kosmos-1. Например, боту, поддерживающему модель MLLM, может быть представлена графика с изображением ребенка, который упал на велосипеде и плачет. На вопрос, почему ребенок плачет, бот, поддерживающий модель MLLM, может ответить, что он, вероятно, споткнулся и ему больно.
Этот пример показывает, где могут найти применение боты MLLM, такие как "Космос-1". Например, они могут подсказать пользователю Windows, как перезагрузить компьютер, проанализировав изображение, которое он видит на экране. На данный момент MLLM не может анализировать видео, но это не означает, что в будущем, после внедрения новых инноваций, это станет невозможным.