Ответы на критику по машинному обучению восприятия преступности

  

Дополнение к статье “Автоматизированное заключение о преступности с использованием изображений лиц”

 

Перевод с английского

Оригинальный текст статьи доступен по адресу https://arxiv.org/pdf/1611.04135.pdf

   

 

Сяолинь Ву

Университет Макмастера

Шанхайский университет Цзяо Тун

xwu510@gmail.com

Си Чжан

Шанхайский университет Цзяо Тун

zhangxi_19930818@sjtu.edu.cn

 

 

В ноябре 2016 года мы отправили в arXiv[1] нашу статью «Автоматизированное заключение о преступности с использованием изображений лиц». Это вызвало много дискуссий в интернете и некоторых СМИ. Наша работа предназначена только для сугубо академических дискуссий; то, что она стала предметом медиа-потребления, для нас оказалось полной неожиданностью.

Хотя мы согласны с нашими критиками в отношении необходимости и важности контроля за исследованиями ИИ для общего блага общества, мы глубоко сбиты с толку тем, как некоторые из них искажают нашу работу, в частности мотив и цель нашего исследования.

  

1. Именование

Для любого, кто читает нашу статью с нейтральным умонастроением, должно быть совершенно ясно, что наш единственный мотив  узнать, обладает ли машинное обучение потенциалом приобретения человеческого социального восприятия лиц несмотря на сложность и тонкость таких восприятий, которые являются функциями как наблюдаемого, так и наблюдателя. Наша задача  расширить границы и исследования по автоматизированному распознаванию лиц с биометрического измерения (например, определение расы, пола, возраста, выражения лица и т. д.) до социально-психологического измерения. Нас интересует реальная возможность обучения машин прохождению теста Тьюринга по задаче дублирования людей в их первых впечатлениях о незнакомце (например, личностных чертах, манерах, поведении и т. д.). Лицевая перцепция преступности была целесообразно (к сожалению, для нас задним числом) выбрана в качестве легкого теста, по крайней мере, согласно нашей интуиции, как объясняется в статье:

 

“Для проверки гипотезы о связи между врожденными чертами личности, социальным поведением и физическими характеристиками лица человека будет трудно найти более убедительный эксперимент, чем изучение степени успеха различения преступников и не преступников с помощью современных автоматических классификаторов. Эти две группы населения должны быть среди наиболее легко различимых, если социальные атрибуты и черты лица коррелируют, потому что для того, чтобы быть преступником, требуется множество аномальных (необычных) личных качеств. Если коэффициент классификации окажется низким, тогда достоверность социального вывода, основанного на чертах лица, может быть полностью опровергнута.”

 

С помощью волшебной силы воображения несколько критиков вплетают вышеприведенный отрывок в некоторые из наших честных наблюдений и превращают их в следующий, как они настаивают, наш, вывод:

 

“Те люди, у кого более изогнутая линия верхней губы и близко посаженные глаза, и кто относится к низшему социальному уровню, предрасположены (как выразились Ву и Чжан) ко «множеству аномальных (необычных) личных качеств», что в конечном итоге с высокой вероятностью приводит к юридическому диагнозу «преступник».”

 

Мы согласны с тем, что резкое слово “преступность” следует заключить в кавычки; следует также сделать оговорку о возможных предубеждениях во вводных данных. Принятие приговора суда за чистую монету, то есть в качестве “основной истины” для машинного обучения, действительно было серьезным упущением с нашей стороны. Однако на протяжении всей нашей статьи мы сохраняем трезвый нейтралитет в отношении всего, что можем найти; во введении мы заявляем:

 

“В этой статье мы не намерены и не имеем права обсуждать или спорить о социальных стереотипах, скорее мы хотим удовлетворить наше любопытство в вопросе достоверности полностью автоматизированного заключения о преступности. В начале этого исследования мы интуитивно чувствовали, что современные инструменты машинного обучения и компьютерного зрения опровергнут обоснованность физиогномики, хотя результаты оказались иными.”

 

Нигде в статье не предлагалось использовать этот метод в качестве инструмента правоприменения, и наши дискуссии не продвинулись от корреляции к причинно-следственной связи. Но все же некоторые преувеличенно интерпретировали наши слова с намеком на расизм. Это не тот способ академического обмена, к которому мы привыкли.

Теперь мы сожалеем о том, что выбрали термин «физиогномика», наиболее близкий английский перевод китайского фольклорного термина «мянь сян сюэ». Мы были недостаточно чувствительны к неотъемлемой грязной коннотации этого слова в англоязычных академических кругах; простое использование этого термина заслуживает ярлыка «научный расизм»?

 

2. Ошибка базовой ставки

Когда некоторые из наших критиков провозглашали “написание для широкой аудитории, не только для исследователей...”, они удобным для себя образом не обращали внимания на явный симптом “ошибки базовой ставки”, которую демонстрируют люди, не имеющие технического образования, в интернет-блогах и некоторых средствах массовой информации. Во многих отчетах и комментариях к нашим исследованиям чрезмерно подчеркиваются высокие показатели успеха наших классификаторов (конечно, все еще нуждающиеся в более строгой проверке); они перескакивают от этих цифр к “серьезной” опасности ИИ. Извините, мы должны утомить читателей с техническим образованием, указав на ловушку неверных рассуждений, называемую ошибкой базовой ставки: разум имеет тенденцию фиксироваться на высокой конкретной вероятности (89% истинного положительного коэффициента нашего классификатора CNN) и игнорировать очень низкую базовую вероятность (0,36% уровня преступности в Китае).

Если Ву получит положительный результат по нашему классификатору “преступности”, насколько велика вероятность того, что он нарушит закон? Девять из десяти шансов, как утверждает журналист? Согласно байесовскому статистическому выводу (рудиментарное знание для исследовательских сообществ), шанс Ву совершить преступление равен

  

  

где P (+ | C) = 0,89  это вероятность того, что осужденный взрослый мужчина из Китая получит положительный результат по нашему классификатору лиц CNN, P (C) = 0,0036  это уровень преступности в Китае, а P (+ | N) = 0,07  это вероятность того, что у взрослого китайского мужчины, не являющегося преступником, будет положительный результат. Подставив все эти числа в формулу Байеса, выясняем, что вероятность нарушения закона Ву составляет всего 4,39% несмотря на то, что он получил положительный результат с помощью метода невероятно высокой точности. Надеюсь, этот математический путь с 89% до 4,39% успокоит многих наших критиков. Проделав вышеупомянутое упражнение, мы хотим еще раз подчеркнуть нашу решительную оппозицию любому практическому использованию наших методов не только потому, что их точность намного ниже любого минимального стандарта.

Ошибка базовой ставки  это старый прием, используемый безответственными СМИ для сенсации или преувеличения достоинств или недостатков новых (незнакомых / загадочных для широкой публики) технологических и научных достижений. Им можно легко манипулировать, чтобы внушить обычным людям иррациональные страхи или надежды по поводу исследований ИИ.

 

3. Мусор на входе

Будучи очень раздраженными интеллектуально-шовинистическим тоном некоторых наших критиков, мы не оспариваем их прогрессивные социальные ценности. На самом деле нет необходимости в хронологическом порядке выставлять напоказ печально известных расистов вместе с нами, поставленными на вершину. Но объективность существует, по крайней мере теоретически, независимо от преобладающих социальных норм.

Имея докторскую степень в области компьютерных наук, мы слишком хорошо знаем про “мусор на входе и мусор на выходе”. Однако некоторые из наших критиков, кажется, предполагали, что инструменты машинного обучения нельзя использовать в социальных вычислениях просто потому, что никто не может предотвратить проникновение мусора человеческих предубеждений. Мы не разделяем их пессимизм. Как и большинство технологий, машинное обучение нейтрально. Если его можно использовать для усиления человеческих предубеждений в проблемах социальных вычислений, как утверждали некоторые, то его также можно использовать для выявления и исправления человеческой предвзятости (предубеждений). Они беспокоятся о петле обратной связи, но не понимают, что обратная связь может быть положительной или отрицательной. Конечно, преступность  дело весьма деликатное и сложное; тем не менее, хорошо обученные эксперты-люди могут стремиться обеспечить объективность обучающих данных, то есть принимать правильные юридические решения независимо от внешности обвиняемого. Если маркировка обучающих изображений лиц или любого другого типа данных в этом отношении свободна от человеческих предубеждений, тогда нельзя отрицать преимущества автоматизированного вывода перед человеческими суждениями об объективности.

Даже при наличии влияния ярлыков, независимо от того, являются они случайными или систематическими, существуют научные методы для отмывания и восстановления / повышения достоверности результатов статистических выводов. Следует ли отказываться от научных знаний ради какой-то тени популизма?

 

4. Риск переобучения

Наши критики сразу же указали на относительно небольшую выборку образцов, используемую в наших экспериментах, и на риск переобучения данных. Мы остро осознаем это слабое место, но не можем получить больше изображений осужденных китайских мужчин по очевидным причинам (подобная продолжающаяся огласка могла разбить все наши надежды на обогащение нашего набора данных). Однако мы сделали все возможное, чтобы подтвердить наши выводы в разделе 3.3 статьи, которая начиналась следующим образом, но была полностью проигнорирована нашими критиками:

 

“Учитывая высокую социальную чувствительность и влияние нашей темы и скептиков на физиогномику [19], мы постарались проявить максимальную осторожность перед публикацией наших результатов. Играя в адвоката дьявола, мы разработали и провели следующие эксперименты, чтобы оспорить достоверность проверенных классификаторов...”

 

Мы случайным образом пометили лица нашего обучающего набора как отрицательные и положительные экземпляры с равной вероятностью и запустили все четыре классификатора, чтобы проверить, может ли какой-либо из них разделить случайно помеченные изображения лиц с большей вероятностью, чем подбрасывание монеты. Все классификаторы лиц не прошли вышеуказанный тест и другие аналогичные, более сложные тесты (подробности см. в нашей статье). Эти эмпирические данные показывают, что хорошие результаты классификации, представленные в нашей статье, не связаны с переобучением данных; в противном случае, учитывая тот же размер и тип выборок, классификаторы также смогут разделять данные, помеченные случайным образом.

Хотя наш набор образцов из 2000 изображений лиц далеко не велик, он уже на порядок больше, чем тот, который использовался в аналогичном исследовании, проведенном группой ученых из Корнелла. Что еще более важно, адекватность размера выборки зависит от изменчивости имеющихся данных. В нашем случае все изображения лиц относятся к одной расе, полу и имеют одинаковый поворот головы; все лицевые ориентиры выравниваются с помощью аффинного преобразования. Все эти факторы значительно снижают изменчивость данных и, следовательно, риск их переобучения.

 

5. Белый воротничок

Что касается вопроса наших критиков о ношении белых рубашек некоторыми, но не всеми мужчинами на портретах, использованных в наших экспериментах, мы выделили из всех фотографий только ту часть, где изображено лицо. Только изображения лиц были использованы при обучении и тестировании. Полные портреты представлены в нашей статье только в иллюстративных целях. Мы не разъясняли эти детали подготовки данных, потому что это стандартная практика в данной области.

Тем не менее, намек на белых воротничков раскрывает важную деталь, за которую мы должны извиниться перед читателями. Мы не могли контролировать социально-экономический статус мужчин, чьи фотографии на документы использовались в наших экспериментах. Не потому, что мы не хотели, но у нас не было доступа к метаданным из-за проблем с конфиденциальностью. Теперь, размышляя над этим нюансом, мы предполагаем, что производительность наших классификаторов лиц упала бы, если бы данные изображения контролировались с учетом социально-экономического статуса. Мы полагаем, что сразу же мог последовать вывод о социальной несправедливости. Фактически, именно поэтому мы думали, что наши результаты могут иметь значение для социальных наук.

 

6. Улыбка

В наших экспериментах мы контролировали выражения лица (например, улыбку и грусть), но не слабые микровыражения (например, расслабленность или напряжение). Мы намерены более жестко контролировать микровыражения лица в будущем, как только надежный алгоритм достигнет необходимого уровня сложности.

Критика того, что наши методы могут быть сведены к простому различию между улыбкой и отсутствием улыбки, дала нам новый угол обзора. Некоторые западные критики думают, глядя на репрезентативные лица («подтипы»), обнаруженные в результате нашего кластерного анализа двух популяций (воспроизведенного на рисунке 1), что лица в нижнем ряду имеют намек на улыбку, тогда как лица в верхнем ряду  нет. Но наши китайские студенты и коллеги даже после того, как им подсказали подумать о улыбке, не заметили этого. Вместо этого они обнаружили, что лица в нижнем ряду выглядят несколько более расслабленными, чем лица в верхнем ряду. Возможно, разное восприятие здесь связано с культурными различиями.

 

 

Рис. 1. (a), (b), (c) и (d) – четыре подтипа криминальных лиц, соответствующие четырем центроидам кластера во множестве Sc; (e), (f) и (g) – три подтипа некриминальных лиц, соответствующие трем центроидам кластера во множестве Sn. Число, связанное с каждым лицом, представляет собой средний балл людей, проводивших оценку (-1 для преступников; 1 для не преступников).

 

Все фотографии на документы преступников выданы государственными органами, но это не фотографии, сделанные для полицейских записей. Насколько нам известно, это обычные портреты на документы государственного образца, подобные тем, которые используются для водительских прав в США. Напротив, большинство стандартных фотографий на документы некоторые организации (такие как компании по недвижимости, юридические фирмы и т. д.) делают официально для своих сайтов. Подчеркнем, что это не селфи.

В нашей статье мы также предприняли шаги, чтобы не дать методам машинного обучения, в частности CNN, улавливать поверхностные различия между изображениями, такие как шумы сжатия и разные камеры (раздел 3.3).

В заключение, мы ценим все вопросы и обсуждения, связанные с нашей статьей, но категорически отвергаем искажения наших намерений, которые не способствуют прогрессу и здоровью исследований ИИ.


[1] arXiv.org  бесплатный электронный архив научных статей и препринтов.

Подписаться