ИИ нанимает себе подобных: как LLM-рекрутёры дискриминируют людей

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



2026-04-28 11:37

Психология ИИ

Языковые модели, оценивающие резюме, систематически предпочитают тексты, написанные такой же моделью, — даже если человеческое резюме объективно лучше.

Авторы и год:

Университет Мэриленда, Национальный университет Сингапура, Университет штата Огайо — 2025 (февраль 2026, arXiv)

Метод:

Correspondence experiment (аналог аудита найма Бертрана и Муллайнатана). Каждому резюме создавались «двойники» от разных LLM — только резюмирующий блок менялся, остальное оставалось идентичным. Модели попарно сравнивали резюме и выбирали «лучшее». Оценка велась по двум метрикам справедливости: statistical parity и equal opportunity.

Выборка:

2 245 настоящих человеческих резюме с LiveCareer.com (написаны до эпохи генеративного ИИ). Тестировались 9 моделей: GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, LLaMA 3.2-3B, LLaMA 3.2-1B, Mistral-7B, Qwen-2.5-72B, DeepSeek-V3. 24 профессиональные категории.

Результаты — цифры:

LLM vs. Человек (Statistical Parity): 8 из 9 моделей предпочитают собственный текст. GPT-4o — на 97,6% чаще выбирает свой вариант; LLaMA 3.3-70B — 96,3%; DeepSeek-V3 — 95,5%

LLM vs. Человек (Equal Opportunity, контроль качества): предвзятость сохраняется даже при сопоставимом качестве. GPT-4o — 81,9%; LLaMA 3.3-70B — 78,9%; Qwen-2.5-72B — 78%; DeepSeek-V3 — 71,6%; Mistral-7B — 28%

LLM vs. LLM: DeepSeek-V3 предпочитает себя перед LLaMA на 69%, перед GPT-4o на 28%. GPT-4o и LLaMA — непоследовательны

Симуляция найма (24 профессии, 30 прогонов каждая): кандидат с резюме от той же LLM, что используется для отбора, попадает в шортлист на 23–60% чаще человека с равной квалификацией. Разрыв максимален в продажах и бухгалтерии, минимален в сельском хозяйстве и автомобильной сфере

Митигация: system prompt снижает предвзятость на 17–62% в относительном выражении; ансамблевое голосование (большая модель + две маленькие с низкой self-recognition) — более чем на 50% у всех трёх протестированных моделей

Выводы:

Предвзятость возникает из способности модели «узнавать» собственный стиль текста. Это новый тип алгоритмической дискриминации — не по полу или расе, а по тому, каким ИИ-инструментом пользовался кандидат. При неравном доступе к «правильным» моделям эффект будет воспроизводить и усугублять социальное неравенство. Действующие регуляторные рамки AI fairness этот риск не покрывают.


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: