Жодна з популярних моделей ШІ не змогла скласти ЗНО: українські дослідники протестували ChatGPT, Claude, Gemini та інші

Українські фахівці перевірили, чи здатен штучний інтелект скласти зовнішнє незалежне оцінювання (ЗНО). І, як виявилося, поки що ні. Про це розповіли на порталі Dev.ua. Навіть найсучасніші моделі, включно з ChatGPT (GPT-4o), Claude 3.5 і Gemini 1.5 Pro, не змогли подолати поріг у 70%.

ЯК ВІДБУВАЛОСЯ ДОСЛІДЖЕННЯ?

Дослідження провели в межах нового проєкту ZNOVision — тестової системи для перевірки ШІ, яка оцінює здатність штучного інтелекту обробляти українську мову, освітній контент і національний контекст.

Ідея проста: якщо ШІ може скласти тест, який проходять випускники/ці українських шкіл, отже, він справді «розуміє» нашу мову й культуру. На практиці ж виявилося, що глобальні моделі до цього ще не готові.

Тестування охопило 13 шкільних дисциплін (від фізики й математики до історії України та літератури). Загалом нейромережі виконали понад 4300 завдань, із яких понад половина містили візуальні компоненти: діаграми, графіки, карти, малюнки. Частина запитів передбачала логічне мислення, частина — точну інтерпретацію інструкцій українською мовою.

Зокрема, протестували шість популярних моделей ШІ:

  • GPT-4o (ChatGPT),
  • Claude 3.5 Sonnet,
  • Gemini 1.5 Pro,
  • Qwen2VL72B,
  • Paligemma3B,
  • донавчену PaligemmaFT.

ЯКІ РЕЗУЛЬТАТИ ОТРИМАЛИ ДОСЛІДНИКИ?

Жодна з моделей не подолала прохідний бар’єр у 70% правильних відповідей. Найвищий результат — 67,5% у Gemini Pro. Для порівняння:

  • Claude 3.5 дав 64,3% правильних відповідей;
  • Qwen2VL — 51,2%;
  • GPT-4o — лише 47%;
  • інші — приблизно 22%.

Найбільшою проблемою для ШІ виявилися візуально-текстові завдання. Вони:

  • не розпізнавали українські слова на зображеннях;
  • плутали одиниці виміру;
  • ігнорували частину формулювання;
  • неправильно інтерпретували графіки.

Особливо слабко ШІ впорались із набором візуальних завдань українською:

  • Claude — 26,7% правильних відповідей,
  • GPT4o — 29%,
  • Qwen2VL — 34,4%.

Це вдвічі гірше, ніж їхні результати з аналогічних тестів англійською (>60%), що свідчить про низьку підтримку української мови в мультимодальних системах.

Фото Freepik