Наразі найкращими ШІ для вирішення широкого кола завдань є GPT-4 і Claude. Перша модель штучного інтелекту розроблена OpenAI, а друга компанією Anthropic. У цій статті ми будемо порівнювати чат-ботів за кількома критеріями.
Перший це кількість функцій. Другий – це довжина тексту, завантаження й обробка документів, довгострокова пам'ять, якість написання тексту російською, зокрема його і граматика, і унікальність. Також ми спробуємо написати який-небудь код і зробимо висновки.
Широкі можливості ChatGPT Plus
У своїй базовій версії ChatGPT не дуже вражає. Але платна версія ChatGPT Plus вражає широтою своїх можливостей. Платний "Чат" під'єднаний до гігантської кількості плагінів, які можуть працювати з тоннами інформації і видавати крутий результат.
Наприклад, плагін Wolfram – помічник у математичних обчисленнях, рекомендується студентам, викладачам, інженерам, програмістам тощо. За допомогою плагінів можна "підсумовувати" ролики YouTube, шукати наукові дослідження на певну тему, рерайтити новини та статті з інтернету (Browse with Bing, Link Reader тощо). За допомогою плагіна Video Insights можна транскрибувати будь-яке відео з YouTube. Така можливість стане в пригоді власникам сайтів, копірайтерам, інтернет-маркетологам і всім, хто так чи інакше працює з текстами та розміщує їх в інтернеті.
Code Interpreter - помічник для програміста і не тільки
Окремо слід сказати про Code Interpreter – це корисний інструмент, який допомагає початківцям-розробникам швидше освоювати написання та оптимізацію коду.
Він працює мовою Python в ізольованому середовищі виконання. Після підключення модуля створюється безперервна сесія, яка зберігається протягом усього спілкування з чат-ботом. Це дає змогу послідовно виконувати фрагменти коду, не втрачаючи контекст.
Code Interpreter вміє розв'язувати математичні задачі, аналізувати та візуалізувати дані, надавати статистику, будувати та тестувати прості моделі, перевіряти чутливість, конвертувати файли.
Взаємодія з чат-ботом відбувається через текстові запити. Наприклад, можна попросити проаналізувати Excel-файл із даними про венчурні інвестиції – побудувати регресійну модель і візуалізацію.
Таким чином, Code Interpreter спрощує вивчення програмування, даючи змогу експериментувати з кодом у діалозі з чат-ботом. Це зручний інструмент для швидкого прототипування та навчання на практиці.
Можливості Claude
Claude – це чат-бот із функцією код інтерпретатора, з можливістю завантаження файлів. Можна завантажити текст або таблицю, pdf, але не можна - зображення, аудіо або відео. У Code Interpreter цього обмеження немає.
Якщо за функціями GPT-4 сильно обігнав Claude, то давайте подивимося якість роботи з цими функціями. А саме порівняємо Claude і Code Interpreter, як вони працюють з контекстом файлу, який ми можемо завантажити в нього. Я одразу ж узяв файл на 92 тисячі символів і вирішив поставити три запитання. Кожне запитання з певної частини тексту.
Я взяв текст із книги "Сторіноміка" Номіка Роберта Маккі. Перше запитання буде з початку, друге з середини і третє з кінця цієї книжки. Так, перше запитання. Який феномен було виявлено під час дослідження з використанням технології, що дає змогу відстежувати рух очей?
І що ж нам пише наш GPT-4? Мовляв, у файлі сказано про саккади або фіксації. Насправді цього не було в тому тексті, який я скинув.
Що ж відповів нам Claude? Claude нам відповів, що у файлі йдеться, що рекламне агентство InfoLinks провело дослідження з використанням технологій відстеження руху очей. І вони виявили там феномен банерної сліпоти, коли користувачі буквально не бачать рекламних оголошень під час перегляду веб-сторінок. Це правильна відповідь на запитання, на яке GPT-4 не зміг відповісти. Ви уявляєте? GPT-4 не зміг відповісти на просте запитання з початку цього тексту.
Отже, друге запитання. Виходячи з тієї інформації, що я тобі дав, що виявила людина, знайшовши самосвідомість? І тут GPT-4 нам просто почав писати, що знаходить людина, що отримує, що розуміє, коли знаходить самосвідомість. Коротше, всяка нісенітниця.
А Claude за фактом відповів, як було написано в книжці, все, що потрібно. Поділ на "я" і "не я", відчуття ізоляції, невблаганність плину часу, існування.
Далі я поставив цікаве запитання: які ефекти виробляє подія, що ініціює? Цих ефектів було 4. Подивимося як відповів у нас gpt 4.
GPT-4 написав, що подія, яка ініціює, призводить до вимкнення системи охолодження. І це в книзі про сторітеллінг!
Висновок простий: якщо ви хочете працювати з текстом, то працюйте з Claude. Єдине, що у нього є мінус, це ліміт у 100 тисяч символів. У GPT-4 більше, але який сенс, якщо він не може відповідати на запитання щодо цього файлу?
Тест на довжину тексту
Наступний тест на довжину тексту – я попросив щільно писати статтю про каву на 10 тисяч слів. Просто кава це моя хвора тема. І що ж? Claude пише реально велику статтю. Але є маленький мінус – він настільки маленький, що це скоріше особливість, а не недолік. У Claude не можна зупинити генерацію статті, а в ChatGPT можна.
Те саме я написав чату GPT і отримав жорсткий облом. Він написав, що не може написати статтю на 10 000 слів, але може написати план статті на 10 000 слів. Дуже схоже на хитрощі знаменитого Джека Горобця з "Піратів Карибського моря".
Попросимо його написати статтю на максимальну кількість слів і заміряємо, яка кількість символів вийшла. У Cloude не будемо заміряти, тому що тут відразу ж зрозуміло, що тут реально дуже багато.
Відразу ж хочу зазначити, що ChatGPT пише за якимось класичним шаблоном. Я, звісно, не прописував якийсь суперський промпт, але він завжди пише ось так: вступ, коротка частина, довга частина тощо.
У Claude без заголовків, але зате тут є списки, це має нормальний вигляд, добре. Перейдемо в Deeple Translate і скопіюємо текст із GPT-4. Вийшло 2574. Не так уже й погано, враховуючи, що в багатьох випадках ChatGPT пише реально коротше.
Перевірка текстів на грамотність
Я попросив Claude і ChatGPT написати SEO-оптимізований текст на тему благоустрою житла з ключовими словами: квартира, благоустрій, благополуччя, бла-бла-бла і так далі. Коротше, SEO текст із певними ключовими словами. Також попросив писати російською без граматичних орфографічних помилок. Тесту перевіряв через сервіси RusTxt і Advego. Помилок не знайдено. Конкуренти впоралися із завданням.
Перевірка на унікальність
Так, давайте відразу ж перевіримо наш текст на унікальність. Перевіримо за допомогою цього сервісу https://detecting-ai.com/. Цікава така штука. Ого! Написано, що на 90% текст згенерований ШІ. Цей текст від Claude.
Спробуймо написати текст англійською і, можливо, це виправить ситуацію, тому що чат GPT і Claude вони ж тренувалися більше англійською мовою.
Отже, я попросив Claude написати абсолютно унікальний текст про каву на 300 слів. Давайте ми його скопіюємо, вставимо у наш Detector і запустимо перевірку.
Написано, що на 100% людський текст, але тут є метод B, який може відшукати генеративну частину тексту, і найчастіше він це робить. Вердикт: на 47,9% людський текст, на 52,1% згенеровано ШІ.
Гаразд, давайте перевіримо зараз чат GPT. Так, текст методом A чату GPT теж 100%. Давайте перевіримо методом B. Я думаю, що теж десь буде приблизно так само. Найімовірніше, як і Claude. 88,2%. Тобто англійською він генерує краще.
Тож за підсумком зараз нічия між двома конкурентами 3:3.
Довгострокова пам'ять
І так наступне це довгострокова пам'ять. Перевіряємо ChatGPT і Claude. Я написав як мене звати і запитав як мене звати. Далі я попросив написати детальну статтю про походження імені. Після чого знову запитав, як мене звати. Обидва конкуренти впоралися.
Але є один момент. Після статті про походження імені я запитав "Чат" про книгу "Сторіноміка", про яку було сказано вище. Тут "Чат" почав галюцинувати, написав, що "Сторіноміку" написав бізнесмен Максим Спиридонов. Але ж такої книги немає! Будьте обережнішими з інформацією, яку ви берете у чату GPT! Claude не збрехав і написав так, як потрібно. 4:3 на користь Claude.
Отже, наступний тест - це написання коду. Я вирішив зробити гру Flappy Bird мовою Python. У GPT-4 я зробив це за 5 хвилин, він видав кілька помилок, але я їх разом із GPT виправив. І все нормально, все кайфово. Я ось навіть пограв трошки. Claude із цим завданням не впорався. 4:4, рахунок рівний.
Спробуємо зробити висновки. ChatGPT у своїй платній версії пропонує набагато більше можливостей, ніж Claude. Але водночас Claude показує кращі результати під час роботи з текстом.











