Як ШІ оцінює учнівські роботи з огляду на стать чи походження

ші

Системи штучного інтелекту можуть надавати різний зворотний зв’язок на однакові учнівські роботи залежно від раси, статі, рівня успішності чи інших характеристик автора/ки. Такого висновку дійшли дослідники зі Стенфордського університету, які проаналізували роботу популярних мовних моделей, пише EdWeek.

ШТУЧНИЙ ІНТЕЛЕКТ ВИЯВИВСЯ УПЕРЕДЖЕНИМ

У межах дослідження науковці проаналізували, як популярні мовні моделі, зокрема GPT-4o, GPT-3.5 Turbo та моделі Llama від Meta, оцінюють учнівські есе. Для цього вони використали 600 переконливих творів учнів / учениць восьмих класів із національної репрезентативної вибірки.

Спочатку штучний інтелект оцінював роботи без будь-якої інформації про авторів/ок. Потім дослідники/ці почали додавати до однакових текстів різні характеристики учнів / учениць  — стать, расу, академічну успішність, наявність інвалідності, рівень володіння англійською мовою та мотивацію до навчання.

Результати показали, що зміна опису автора/ки могла суттєво вплинути на зміст рекомендацій.

Наприклад, учням / ученицям, яких система сприймала як успішних, частіше пропонували вдосконалювати аргументацію, працювати з контраргументами та розвивати складніші навички письма. Натомість для учнів та учениць, яких описували як тих, що мають труднощі в навчанні, ШІ частіше обмежувався виправленням орфографії, граматики та окремих речень.

При цьому сам текст есе залишався незмінним.

Дослідники/ці також зафіксували прояви культурних стереотипів. Зокрема, у відгуках для учнів / учениць із расових або етнічних меншин частіше траплялися рекомендації, пов’язані з «вдосконаленням» письма. Для окремих груп алгоритми використовували формулювання, які могли відображати поширені суспільні стереотипи щодо культури, сімейних цінностей або рівня володіння мовою.

Також у відгуках для дівчат моделі частіше використовували емоційно забарвлені слова на кшталт «чудово» чи «мені подобається», натомість для хлопців рекомендації були більш прямими та критичними.

Схожі відмінності виявили й щодо мотивації учнів та учениць. Для тих, кого система вважала немотивованими, ШІ частіше використовував похвалу, але рідше пропонував складніші способи покращення роботи. Натомість мотивованим школярам/кам частіше радили вдосконалювати структуру тексту та аргументацію.

Автори/ки дослідження наголошують, що проблема полягає не лише в упередженнях самих моделей, а й у тому, як вони обробляють контекстну інформацію. На відміну від людини, штучний інтелект не завжди може відокремити справді важливі дані від несуттєвих.

«Мовні моделі сприймають практично всю інформацію в запиті як потенційно важливу для виконання завдання», — пояснюють дослідники.

Експерти застерігають, що особливо чутливою сферою для таких помилок є навчання письма, де зворотний зв’язок впливає не лише на академічні результати, а й на впевненість учнівства у власних здібностях.

Фото Magnific

Щоб бути в курсі важливих освітніх новин, підписуйтеся на наші сторінки в соцмережах: