Як ШІ оцінює учнівські роботи з огляду на стать чи походження
Системи штучного інтелекту можуть надавати різний зворотний зв’язок на однакові учнівські роботи залежно від раси, статі, рівня успішності чи інших характеристик автора/ки. Такого висновку дійшли дослідники зі Стенфордського університету, які проаналізували роботу популярних мовних моделей, пише EdWeek.
ШТУЧНИЙ ІНТЕЛЕКТ ВИЯВИВСЯ УПЕРЕДЖЕНИМ
У межах дослідження науковці проаналізували, як популярні мовні моделі, зокрема GPT-4o, GPT-3.5 Turbo та моделі Llama від Meta, оцінюють учнівські есе. Для цього вони використали 600 переконливих творів учнів / учениць восьмих класів із національної репрезентативної вибірки.
Спочатку штучний інтелект оцінював роботи без будь-якої інформації про авторів/ок. Потім дослідники/ці почали додавати до однакових текстів різні характеристики учнів / учениць — стать, расу, академічну успішність, наявність інвалідності, рівень володіння англійською мовою та мотивацію до навчання.
Результати показали, що зміна опису автора/ки могла суттєво вплинути на зміст рекомендацій.
Наприклад, учням / ученицям, яких система сприймала як успішних, частіше пропонували вдосконалювати аргументацію, працювати з контраргументами та розвивати складніші навички письма. Натомість для учнів та учениць, яких описували як тих, що мають труднощі в навчанні, ШІ частіше обмежувався виправленням орфографії, граматики та окремих речень.
При цьому сам текст есе залишався незмінним.
Читайте також:
Дослідники/ці також зафіксували прояви культурних стереотипів. Зокрема, у відгуках для учнів / учениць із расових або етнічних меншин частіше траплялися рекомендації, пов’язані з «вдосконаленням» письма. Для окремих груп алгоритми використовували формулювання, які могли відображати поширені суспільні стереотипи щодо культури, сімейних цінностей або рівня володіння мовою.
Також у відгуках для дівчат моделі частіше використовували емоційно забарвлені слова на кшталт «чудово» чи «мені подобається», натомість для хлопців рекомендації були більш прямими та критичними.
Схожі відмінності виявили й щодо мотивації учнів та учениць. Для тих, кого система вважала немотивованими, ШІ частіше використовував похвалу, але рідше пропонував складніші способи покращення роботи. Натомість мотивованим школярам/кам частіше радили вдосконалювати структуру тексту та аргументацію.
Автори/ки дослідження наголошують, що проблема полягає не лише в упередженнях самих моделей, а й у тому, як вони обробляють контекстну інформацію. На відміну від людини, штучний інтелект не завжди може відокремити справді важливі дані від несуттєвих.
«Мовні моделі сприймають практично всю інформацію в запиті як потенційно важливу для виконання завдання», — пояснюють дослідники.
Експерти застерігають, що особливо чутливою сферою для таких помилок є навчання письма, де зворотний зв’язок впливає не лише на академічні результати, а й на впевненість учнівства у власних здібностях.
Фото Magnific
Щоб бути в курсі важливих освітніх новин, підписуйтеся на наші сторінки в соцмережах: