ИИ нанимает себе подобных: как LLM-рекрутёры дискриминируют людей |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-04-28 11:37 Языковые модели, оценивающие резюме, систематически предпочитают тексты, написанные такой же моделью, — даже если человеческое резюме объективно лучше. Авторы и год: Университет Мэриленда, Национальный университет Сингапура, Университет штата Огайо — 2025 (февраль 2026, arXiv) Метод: Correspondence experiment (аналог аудита найма Бертрана и Муллайнатана). Каждому резюме создавались «двойники» от разных LLM — только резюмирующий блок менялся, остальное оставалось идентичным. Модели попарно сравнивали резюме и выбирали «лучшее». Оценка велась по двум метрикам справедливости: statistical parity и equal opportunity. Выборка: 2 245 настоящих человеческих резюме с LiveCareer.com (написаны до эпохи генеративного ИИ). Тестировались 9 моделей: GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, LLaMA 3.2-3B, LLaMA 3.2-1B, Mistral-7B, Qwen-2.5-72B, DeepSeek-V3. 24 профессиональные категории. Результаты — цифры: LLM vs. Человек (Statistical Parity): 8 из 9 моделей предпочитают собственный текст. GPT-4o — на 97,6% чаще выбирает свой вариант; LLaMA 3.3-70B — 96,3%; DeepSeek-V3 — 95,5% LLM vs. Человек (Equal Opportunity, контроль качества): предвзятость сохраняется даже при сопоставимом качестве. GPT-4o — 81,9%; LLaMA 3.3-70B — 78,9%; Qwen-2.5-72B — 78%; DeepSeek-V3 — 71,6%; Mistral-7B — 28% LLM vs. LLM: DeepSeek-V3 предпочитает себя перед LLaMA на 69%, перед GPT-4o на 28%. GPT-4o и LLaMA — непоследовательны Симуляция найма (24 профессии, 30 прогонов каждая): кандидат с резюме от той же LLM, что используется для отбора, попадает в шортлист на 23–60% чаще человека с равной квалификацией. Разрыв максимален в продажах и бухгалтерии, минимален в сельском хозяйстве и автомобильной сфере Митигация: system prompt снижает предвзятость на 17–62% в относительном выражении; ансамблевое голосование (большая модель + две маленькие с низкой self-recognition) — более чем на 50% у всех трёх протестированных моделей Выводы: Предвзятость возникает из способности модели «узнавать» собственный стиль текста. Это новый тип алгоритмической дискриминации — не по полу или расе, а по тому, каким ИИ-инструментом пользовался кандидат. При неравном доступе к «правильным» моделям эффект будет воспроизводить и усугублять социальное неравенство. Действующие регуляторные рамки AI fairness этот риск не покрывают. Телеграм: t.me/ainewsline Источник: vk.com Комментарии: |
|