
Цього тижня корпорація представила нову модель ШІ, що належить до групи рішень Multimodal Large Language Model (MLLM), назвавши її "Космос-1".
Це мультимодальна велика мовна модель, яка може не тільки відповідати на стандартні запитання, а й реагувати на графіку, тобто, наприклад, підписувати представлені їй зображення або відповідати на те, що вона на них бачить. Як ви знаєте, бот ChatGPT від OpenAI заснований на моделі LLM, яка розуміє поданий їй текст, але не реагує на введення у вигляді графіки. Модель MLLM може реагувати на графіку, про що свідчить прикметник "мультимодальний". Це означає, що модель Tako може і "читати", і "бачити". Здатність забезпечувати мультимодальне введення значно розширює можливості застосування мовних моделей в інших галузях, як-от мультимодальне машинне навчання або робототехніка.
Що може новий штучний інтелект "Космос 1"?
Microsoft наводить приклад роботи Kosmos-1. Наприклад, боту, який підтримує модель MLLM, може бути представлена графіка із зображенням дитини, яка впала на велосипеді і плаче. На запитання, чому дитина плаче, бот, що підтримує модель MLLM, може відповісти, що вона, ймовірно, спіткнулася і їй боляче.
Цей приклад показує, де можуть знайти застосування боти MLLM, такі як "Космос-1". Наприклад, вони можуть підказати користувачеві Windows, як перезавантажити комп'ютер, проаналізувавши зображення, яке він бачить на екрані. Наразі MLLM не може аналізувати відео, але це не означає, що в майбутньому, після впровадження нових інновацій, це стане неможливим.