Битва за біти: як 1-бітні моделі змінюють ландшафт ШІ

19 червня 2024 в 11:30

Джерело фото: Изображение от rawpixel.com на Freepik

Великі мовні моделі (LLM), такі як GPT-3, що лежать в основі просунутих чат-ботів на кшталт ChatGPT, стрімко розвиваються й удосконалюються. Однак цей прогрес має свою ціну – гігантські розміри моделей і колосальні витрати енергії на їхнє навчання і роботу. Прагнучи зробити LLM ефективнішими, доступнішими та екологічнішими, вчені розробляють методи радикального стиснення моделей. Один із найперспективніших підходів - використання 1-бітних мовних моделей, де безліч параметрів округлюється до значень -1 і 1.

Як створити 1-бітну мовну модель?

Наразі дослідники застосовують два основні методи для створення 1-бітних LLM:

Квантування після навчання (Post-Training Quantization, PTQ): параметри вже навченої моделі з високою точністю квантуються до низької точності.
Навчання з урахуванням квантування (Quantization-Aware Training, QAT): модель від самого початку навчається з низькою точністю параметрів.

Команда вчених з ETH Zürich, Університету Бейханг і Університету Гонконгу розробила метод PTQ під назвою BiLLM. Він представляє більшість ваг моделі 1 бітом, а найбільш значущі – 2 бітами. Це дало змогу зменшити споживання пам'яті в 10 разів практично без втрати точності.

Дослідники з Microsoft створили BitNet – перший метод QAT для мовних моделей. BitNet перевершив за ефективністю методи PTQ, споживаючи на 94% менше енергії графічного процесора. Подальше масштабування BitNet призводило до ще більшого зростання продуктивності.

Переваги та перспективи 1-бітних LLM

Низькоточні мовні моделі мають низку переваг:

Вони можуть зберігатися на компактних чипах;
Потребують меншого обсягу передачі даних;
Забезпечують більш швидке оброблення інформації.

Однак наявні апаратні засоби не дозволяють повною мірою розкрити потенціал 1-бітних моделей. Розробка спеціалізованих процесорів, оптимізованих під низькоточні архітектури – складне, але перспективне завдання.

1-бітові LLM відкривають широкі можливості для ефективного ШІ на мобільних і периферійних пристроях. Вони знайдуть застосування в Інтернеті речей, голосових асистентах нового покоління, локальному опрацюванні даних на місці збору.

Висновок

Перехід до 1-бітних мовних моделей – важливий крок на шляху до доступного, недорогого і "зеленого" штучного інтелекту. Хоча за точністю вони поки поступаються традиційним LLM, їхня ефективність і потенціал для спеціалізованих апаратних рішень вражають. Пошук балансу між продуктивністю і ресурсоємністю – головний виклик для дослідників. Але вже зараз 1-бітні моделі показують, що майбутнє ШІ може і має бути енергоефективним.

terazus.com є майданчиком для вільної журналістики. Матеріали користувачі завантажують самостійно. Адміністрація terazus.com може не розділяти позицію блогерів і не відповідає за достовірність викладених ними фактів.

Шановні користувачі, просимо вас шановливо ставитися до співрозмовників в коментарях, навіть якщо ви не згодні з їх думкою!