Автоматизированное заключение о преступности с использованием изображений лиц

Перевод с английского

Оригинальный текст статьи доступен по адресу https://arxiv.org/pdf/1611.04135.pdf

 

 

Сяолинь Ву

Университет Макмастера

Шанхайский университет Цзяо Тун

xwu510@gmail.com

Си Чжан

Шанхайский университет Цзяо Тун

zhangxi_19930818@sjtu.edu.cn

 

  

Аннотация

Мы впервые изучаем автоматизированное заключение о преступности, основанное исключительно на неподвижных изображениях лиц и свободное от каких-либо предвзятых субъективных суждений людей-наблюдателей. Для различения преступников и не преступников с помощью контролируемого машинного обучения мы построили четыре классификатора (логистическая регрессия, KNN[1], SVM[2], CNN[3]), используя изображения лиц 1 856 реальных людей с учетом их расы, пола, возраста и выражения лица, почти половина из которых были осужденными преступниками. Все четыре классификатора работают стабильно хорошо и эмпирически устанавливают обоснованность автоматизированного основанного на чертах лица заключения о преступности несмотря на исторические споры, связанные с этим направлением исследования. Кроме того, с помощью машинного обучения были обнаружены некоторые отличительные структурные особенности для прогнозирования преступности. Прежде всего, самым важным открытием этого исследования является то, что изображения криминальных и некриминальных лиц составляют две совершенно разные группы. Различия между лицами преступников значительно больше, чем между лицами людей, не являющихся преступниками. Два множества, состоящие из криминальных и некриминальных лиц, кажутся концентрическими, причем некриминальное множество расположено в ядре с меньшим размахом, демонстрируя закон ”нормальности” для лиц людей, не являющихся преступниками. Другими словами, лица законопослушного населения имеют большую степень сходства по сравнению с лицами преступников, или преступники имеют более высокую степень различия во внешнем виде, чем не преступники.

 

1. Введение

Вдохновленные многими коммерческими приложениями на базе искусственного интеллекта и человеко-машинными интерфейсами, исследовательские сообщества в области распознавания изображений и компьютерного зрения приложили много усилий для распознавания и обработки человеческих лиц [11, 31, 40, 35] и достигли заметных успехов. Но было проведено очень мало исследований по анализу и количественной оценке социального восприятия и определения принадлежности лиц [33], хотя этот предмет имеет большое значение для многих академических дисциплин, таких как социальная психология, менеджмент, криминология и т. д.

Во всех культурах и во все периоды зафиксированной истории человечества люди разделяли убеждение, что одного только лица достаточно, чтобы выявить врожденные черты характера человека. Аристотель в своем знаменитом труде “Первая аналитика” утверждал: "Можно вывести характер по чертам лица, если допустить, что тело и душа изменяются вместе под действием естественных привязанностей". Психологам уже на протяжении целого тысячелетия известна человеческая тенденция делать выводы о врожденных чертах и социальных характеристиках (например, о надежности, доминировании) человека по его/ее внешнему виду, а также о его прочной согласованности с умозаключениями индивида. Таковы факты, выявленные в ходе многочисленных исследований [3, 39, 5, 6, 10, 26, 27, 34, 32].

Независимо от обоснованности расхожей веры в (псевдо)науку физиогномику, естественным образом возникает волнующий вопрос: какие черты лица влияют на импульсивные и в то же время согласованные суждения среднестатистических Джо о социальных характеристиках незнакомого члена их собственного вида? Пытаясь ответить на этот вопрос, Тодоров и Остерхоф предложили метод статистического моделирования, основанный на данных, для поиска визуальных детерминант социальных атрибутов, попросив испытуемых оценить четыре перцепта: доминирование, привлекательность, надежность и экстраверсию, основываясь на первом впечатлении от статичных изображений лица [33]. Этот метод может помочь синтезировать репрезентативное (среднее) изображение лица для набора исходных изображений, близких к любому из четырех вышеупомянутых социальных восприятий. Ранжирование этих синтезированных изображений лиц по субъективным оценкам (например, от наименее до наиболее заслуживающих доверия), по-видимому, согласуется с интуицией большинства людей.

Вслед за консенсусом в социальном восприятии лиц возникает следующее еще более масштабное предположение: есть ли какая-либо диагностическая ценность выводов о социальных атрибутах индивида, сделанных по лицу? В этой статье мы не намерены и не имеем права обсуждать или спорить о социальных стереотипах, скорее мы хотим удовлетворить наше любопытство в вопросе достоверности полностью автоматизированного заключения о преступности. В начале этого исследования мы интуитивно чувствовали, что современные инструменты машинного обучения и компьютерного зрения опровергнут обоснованность физиогномики, хотя результаты оказались иными. Применяя подход контролируемого машинного обучения, мы создали четыре классификатора (логистическая регрессия [17], метод k-ближайших соседей (KNN) [2], метод опорных векторов (SVM) [14] и сверточные нейронные сети (CNN) [21]), используя изображения лиц 1 856 реальных людей, половина из которых были осужденными преступниками, и оценили эффективность этих обученных классификаторов. Насколько нам известно, работа, представленная в этой статье, является первой в своем роде.

Поскольку современные алгоритмы машинного обучения могут соответствовать и даже превосходить производительность человека в распознавании лиц [24], стремление к автоматическому заключению о преступности становится непреодолимым. Как и при распознавании лиц, первые впечатления – это грубые, спонтанные оценки, которые являются результатом восприятия, а не рассуждения. Даже 3-4-летние дети достигают определенной степени согласия со взрослыми в своем основанном на чертах лица суждении о социальных атрибутах [13]. Поэтому мы считаем, что социальное восприятие лиц должно быть достойной и сложной темой для компьютерного зрения и машинного обучения.

Для проверки гипотезы о связи между врожденными чертами личности, социальным поведением и физическими характеристиками лица человека будет трудно найти более убедительный эксперимент, чем изучение степени успеха различения преступников и не преступников с помощью современных автоматических классификаторов. Эти две группы населения должны быть среди наиболее легко различимых, если социальные атрибуты и черты лица коррелируют, потому что для того, чтобы быть преступником, требуется множество аномальных (необычных) личных качеств. Если коэффициент классификации окажется низким, тогда достоверность социального вывода, основанного на чертах лица, может быть полностью опровергнута.

В отличие от большого объема исследовательской литературы о распространенности и последствиях основанного на внешнем виде вывода о личностных чертах в области психологии, относительно мало исследований было проведено по точности вывода о характере, основанного исключительно на неподвижных изображениях лица [37]. Помимо исторических противоречий и клейма социального дарвинизма, такое положение дел, вероятно, связано с трудностью нейтрализовать все возможные предубеждения и установки экспериментаторов и испытуемых при оценке точности основанных на внешности выводов по социально нагруженным вопросам, таким как преступность. В этой работе мы используем подход машинного обучения, основанного на данных, чтобы полностью автоматизировать процесс оценки и целенаправленно исключить из него любые, даже незначительные, человеческие факторы.

В отличие от человека, выступающего в роли эксперта/оценщика, алгоритм или классификатор компьютерного зрения не имеет никакого субъективного багажа, никаких предубеждений из-за прошлого опыта, расы, религии, политических убеждений, пола, возраста и т. д., никакой умственной усталости, никакой предварительной установки из-за того, что не выспался или голоден. Автоматизированное заключение о преступности полностью устраняет переменную мета-точности (компетентности человеческой оценки/экспертизы). Помимо преимущества объективности, сложные алгоритмы, основанные на машинном обучении, могут обнаруживать очень тонкие и неуловимые нюансы в характеристиках и структурах лица, которые коррелируют с врожденными личными чертами, но при этом находятся ниже когнитивного порога большинства неподготовленных неспециалистов. Это, по крайней мере, явная теоретическая возможность.

Несмотря на то, что мы были первыми, кто изучил автоматизированное заключение о преступности на основе лица, наши выводы важны тем, что они получены не только с помощью более совершенных алгоритмов анализа данных, но и из более реалистичного и более качественного набора данных, чем в предыдущих аналогичных исследованиях, проведенных психологами, которые используют традиционные методы. Наши данные для обучения классификаторов – это стандартные фотографии на документы реальных людей с учетом расы, пола, возраста и выражения лица. Напротив, в других исследованиях использовались образцы изображений, которые были искусственными и сгенерированы с помощью 2D или 3D моделей на основе Eigenface[4] [35, 8, 9]. Однако неясно, действительно ли искусственно созданные лица, сгенерированные случайными возмущающими параметрами математической модели лица, как это сделано в [35, 8], правдиво и честно представляют население. Только в исследовании Валла и др., посвященному выводу о преступности, основанному на лицах, использовались реальные изображения лиц европеоидных мужчин [37]. Но в этом исследовании задачу классификации выполняли люди, а не компьютеры.

Данная статья структурирована следующим образом. В разделе 2 мы подробно описываем подготовку экспериментальных данных и контроль переменных, чтобы установить последующие методы машинного обучения, основанные на данных, с целью обеспечить твердую почву для заключения о преступности. В разделе 3 мы представляем наши методы оценки точности автоматизированного заключения о преступности, основанного на анализе лица, и сообщаем о наших выводах, которые дают убедительные доказательства, указывающие на высокий уровень успеха автоматической классификации преступников и не преступников на основе фотографий, удостоверяющих личность. Положительные результаты тщательно проверяются перекрестной проверкой. В разделе 4 мы исследуем отличительные черты лица, которые способствуют успеху автоматизированного заключения о преступности, основанного на лицах. В разделе 5 мы пытаемся получить некоторое представление о механизме, лежащем в основе разделения криминальных и некриминальных лиц, с помощью кластерного анализа на множествах. Обнаружено, что изображения лиц преступников не преступников составляют два совершенно разных множества. Различия между криминальными лицами значительно больше, чем между лицами, не являющимися криминальными. Два множества, образованные соответственно двумя наборами данных криминальных и некриминальных лиц, являются концентрическими, причем множество изображений некриминальных лиц лежит в ядре с меньшим размахом. Это недавно открытое знание предлагает ввести закон нормальности для лиц людей, не являющихся преступниками: с учетом расы, пола и возраста лица законопослушного населения имеют большую степень сходства по сравнению с лицами преступников. Другими словами, преступники имеют значительно более высокую степень различия в лицах, чем обычное население. Раздел 6 завершает статью.

 

(а) Три образца фотографий на документы преступников, множество Sс.

   

(а) Три образца фотографий на документы законопослушных граждан, множество Sn.

 

Рисунок 1. Примеры фотографий на документы в нашем наборе данных.

 

2. Подготовка данных

Чтобы провести наши эксперименты и сделать выводы со строгим контролем переменных, мы собрали 1 856 фотографий на документы, которые удовлетворяют следующим критериям: китаец, мужчина, возраст от 18 до 55 лет, без растительности на лице, без шрамов или других отметин, и обозначили эту выборку S. Выборка S разделена на два подмножества Sn и Sc для не преступников и преступников соответственно. Подмножество Sn содержит фотографии 1 126 человек, не являющихся преступниками, которые были получены из интернета с помощью инструмента Web Spider; эти люди принадлежат к разным профессиям и имеют разный социальный статус: официанты, строители, водители такси и грузовиков, агенты по недвижимости, врачи, юристы и профессоры; примерно половина людей в подгруппе Sn имеют высшее образование.

Подмножество Sc содержит фотографии 730 преступников, из которых 330 опубликованы Министерством общественной безопасности Китая и департаментами общественной безопасности провинций Гуандун, Цзянсу, Ляонин и т. д. в качестве разыскиваемых подозреваемых; остальные предоставлены городским полицейским управлением в Китае в соответствии с соглашением о конфиденциальности. Подчеркнем, что изображения лиц преступников в Sc – это обычные фотографии на документы, а не полицейские снимки. Из 730 преступников 235 совершили насильственные преступления, включая убийство, изнасилование, нападение, похищение и грабеж; остальные 536 осуждены за ненасильственные преступления, такие как воровство, мошенничество, злоупотребление доверием (коррупция), подлог и рэкет. Некоторые образцы фотографий в Sc и Sn показаны на рисунке 1. Люди в множествах Sc и Sn являются жителями очень большой географической области, простирающейся от северо-востока до крайнего юга Китая, включая бедные и очень богатые провинции страны.

На всех выбранных фотографиях извлечена только область лица и верхняя часть шеи, а фон удален. Все извлеченные лица нормализованы по размеру и выровнены в изображение размером 80 × 80. Хотя все тестовые изображения лиц являются фотографиями на документы, полученными при равномерном фронтальном освещении, мы все же принимаем дополнительные меры, чтобы нейтрализовать любые возможные эффекты различных условий освещения. Для выделения спектра освещения и цвета кожи на всех цветных изображениях лица используется только компонент яркости. Более того, все результирующие изображения в градациях серого нормализуются, чтобы иметь одинаковое распределение интенсивности или одинаковую общую тональность. Это делается путем сопоставления гистограммы каждого входного изображения со средней гистограммой для всего набора данных из 1 856 изображений лиц в градациях серого.

Все фотографии во множестве S имеют формат сжатия JPEG с параметром квантизации 90 или выше. Тем не менее, мы применили методы мягкого декодирования JPEG [23, 28] для удаления небольших (визуально незаметных) шумов сжатия; в этом процессе также уничтожаются любые зависящие от устройства сигнатуры уровня сигнала.

 

3. Обоснованность применения классификаторов лиц для выявления преступности

Как утверждалось во введении, одним из способов оценки точности автоматизированного заключения о преступности, основанного исключительно на неподвижных изображениях лиц, является создание и тестирование классификаторов с использованием современных методов машинного обучения. В этом разделе представлены план и результаты классификационных экспериментов.

 

3.1. Методы

Чтобы доказать или опровергнуть гипотезу о том, что неподвижных изображений лиц достаточно, чтобы различать преступников и не преступников, мы постарались провести наше расследование как можно тщательнее. Мы запустили четыре различных метода классификации: логистическую регрессию, KNN, SVM и CNN, на наборе данных изображений S, подготовленном, как указано выше.

Поскольку первые три метода классификации работают с элементами изображения, мы запустили их и оценили эффективность по широкому спектру функций, включая: 1) ориентиры на лице, такие как уголки глаз, уголки рта, кончик носа и т. д.; 2) вектор черт лица, сгенерированный модульным PCA[5] [18]; 3) вектор черт лица на основе гистограмм локального двоичного образца (LBP[6]) [1]; 4) конкатенация трех вышеуказанных векторов признаков. Мы подчеркиваем, что ориентиры определяются стратегическими позициями на лице, следовательно, это особенности, выходящие за пределы уровня сигнала и неизменные для исходных камер.

Наша сверточная нейронная сеть построена путем повторного обучения параметров каждого уровня в AlexNet[7] [21] с сохранением его архитектуры.

Определим преступное подмножество Sc как положительный класс, а некриминальное подмножество Sn как отрицательный класс. Мы выполнили 10-кратную перекрестную проверку для всех возможных комбинаций трех классификаторов, управляемых признаками, четырех типов векторов признаков, а также CNN, управляемой данными, без явного вектора признаков; всего тринадцать вариантов (3 классификатора × 4 вектора признаков + CNN) 10-кратного типа перекрестной проверки. В интересах статистической значимости мы повторили перекрестную проверку для каждого из тринадцати случаев десять раз с разными случайными начальными числами. В каждом из этих 130 экспериментов (13 случаев × 10 запусков) мы проверили степень правильности классификации члена множества S на Sn или Sc, а затем усреднили показатели для каждого случая за десять запусков.

 

3.2. Результаты

На рисунке 2 мы построили график точности всех четырех классификаторов в вышеупомянутых тринадцати случаях. Как и ожидалось, современный классификатор CNN работает лучше всех, достигая точности 89,51%. Относительно высокая точность CNN также сравнима с другими тремя классификаторами, которые всего на несколько процентных пунктов отстают в успешности классификации. Эти весьма последовательные результаты свидетельствуют о достоверности автоматизированного заключения о преступности, основанного на лицах, несмотря на исторические противоречия, связанные с этой темой. Мы также наносим на график частоту пропущенных и ложных срабатываний для четырех протестированных классификаторов на рисунках 3 и 4.

 

Рисунок 2. Точность всех четырех классификаторов во всех тринадцати случаях.

 

Рисунок 3. Частота пропусков всех четырех классификаторов во всех тринадцати случаях.

 

Рисунок 4. Частота ложных срабатываний всех четырех классификаторов во всех тринадцати случаях.

  

Чтобы измерить чувствительность автоматических, управляемых данными и двоичных классификаторов лиц на предмет преступности по отношению к частоте их ложных срабатываний, мы построили ROC-кривые для четырех протестированных классификаторов (см. рисунок 5) и сообщили соответствующие результаты AUC[8] в таблице 1. С помощью этих показателей эффективности классификации устанавливается прогнозируемая сила предлагаемого подхода автоматизированного заключения о преступности с помощью лиц.

 

Рисунок 5. ROC-кривые четырех протестированных бинарных классификаторов лиц по преступности.

 

Классификаторы

CNN

SVM

KNN

LR

AUC

0.9540

0.9303

0.8838

0.8666

Таблица 1. Результаты AUC для четырех проверенных классификаторов лиц по преступности.

 

3.2. Проверка

Учитывая высокую социальную чувствительность и влияние нашей темы и скептиков на физиогномику [19], мы постарались проявить максимальную осторожность перед публикацией наших результатов. Играя в адвоката дьявола, мы разработали и провели следующие эксперименты, чтобы оспорить достоверность проверенных классификаторов для задачи различения преступников и не преступников. Мы случайным образом пометили лица в одном и том же наборе образцов S как отрицательные и положительные экземпляры с равной вероятностью и повторили все вышеупомянутые эксперименты по бинарной классификации. Результаты показывают, что случайно сгенерированные отрицательные и положительные примеры вообще невозможно различить; средняя точность классификации составляет всего 48%, количество ложных отрицательных результатов – около 51%, а количество ложных срабатываний – около 50%. Аналогичные наблюдения пятьдесят на пятьдесят также производятся путем случайного и равноправного обозначения членов подмножества Sc (или Sn) как положительных и отрицательных экземпляров и проверки производительности четырех двоичных классификаторов после того, как они были построены и применены к случайным образом перетасованным классам изображений.

Фактически, мы пошли намного дальше по пути самокритики и провели те же эксперименты по случайной маркировке на разных наборах образцов одинакового размера (1 500) и с тем же контролем переменных. Только на этот раз критериями отбора являлись: 1) стандартные фотографии на документы женщины-китаянки, молодого или среднего возраста, без шрамов на лице или других отметин; 2) стандартные фотографии на документы мужчины европеоидной расы, молодого или среднего возраста, без отметин на лице; 3) стандартные фотографии на документы женщины европеоидной расы, молодого или среднего возраста, без отметин на лице. Ни в одном из трех случаев ни одному из четырех классификаторов не удалось достичь уровня истинных положительных результатов, превышающего 53% для случайно помеченных положительных и отрицательных примеров.

Вышеупомянутые эксперименты исключают вероятность, что высокая точность четырех оцениваемых нами классификаторов в заключении о преступности, основанном на чертах лица, обусловлена переобучением данных; в противном случае, учитывая тот же размер выборки, они также смогут различить случайно помеченные положительные и отрицательные примеры со значительно более высокой вероятностью, чем случайное предположение. Большой скачок объективного положительного роста от случайной маркировки к истинной маркировке одного и того же набора S образцов изображений лиц можно объяснить только внутренней разделимостью Sc и Sn.

Поскольку фотографии в наборе S создавали разные исходные камеры, они могли оставлять свои подписи, которые, хотя и были ниже порога восприятия по мощности сигнала, могли ввести в заблуждение машинное обучение. Этот вопрос уже рассматривался в конце раздела 2 и раздела 3.1 (использование ориентиров в качестве функций). Чтобы сделать наш случай еще более строгим, мы предприняли дополнительные шаги, чтобы сделать классификаторы лиц полностью невосприимчивыми к любым потенциальным искажениям исходных камер. Мы повторили эксперименты из раздела 3.1 после добавления гауссовских случайных шумов с нулевым средним и дисперсией σ2 к фотографиям во множестве S. Добавленные шумы должны подавлять любые сигнатуры, зависящие от камеры. Характеристики классификаторов на зашумленных входных изображениях лиц представлены в таблицах 2 и 3 и на рисунке 7.

 

Рисунок 6. Зашумленные версии (σ = 0,03) образцов фотографий с рисунка 1.

 

σ шума

0

0,01

0,03

Точность

SVM

88.98%

81.03%

73.11%

CNN

89.51%

82.65%

76.88%

Таблица 2. Точность классификаторов CNN и SVM (с использованием комбинированных функций) для различных уровней шума.

 

Рисунок 7. ROC-кривые классификатора граней CNN для различных уровней шума.

 

σ шума

0

0,01

0,03

Точность

KNN

79.16%

78.03%

76.81%

LR

83.71%

80.19%

77.45%

SVM

82.99%

81.52%

79.31%

Ложные срабатывания

KNN

14.79%

15.91%

13.97%

LR

10.65%

14.01%

13.39%

SVM

11.57%

14.21%

12.51%

Пропуски

KNN

31.48%

31.52%

38.53%

LR

26.20%

30.20%

37.41%

SVM

26.58%

28.47%

34.29%

Таблица 3. Точность, количество ложных срабатываний и пропусков классификаторов KNN, LR и SVM, когда они используют ориентиры в качестве функций и работают с зашумленными изображениями лиц.

 

Из таблицы 2 видно, что точность классификаторов лиц CNN и SVM (с использованием комбинированных признаков) снижается с увеличением σ уровня шума, но они по-прежнему превышают 73% для SVM и 76% для CNN, даже когда шумы становятся видимыми (σ = 0,03, см. рисунок 6). ROC-кривые классификатора граней CNN для различных σ изображены на рисунке 7. Как было показано, классификатор CNN может противостоять сильному искажению шума и по-прежнему различать преступников и не преступников с высоким уровнем истинного положительного результата и относительно низким уровнем ложного положительного результата.

Как утверждалось в разделе 3.1, ориентиры – это объекты, неизменные для исходных камер. В таблице 3 приведены данные о точности, ложных срабатываниях и пропусках для классификаторов KNN, LR и SVM, когда они используют ориентиры в качестве функций и работают с зашумленными изображениями лиц. Как мы и ожидали, нет существенных изменений всех показателей производительности при разных уровнях шума.

Кроме того, мы проверили, устойчивы ли результаты классификации к небольшим изменениям в условиях освещения и ориентации лица. Мы набрали 10 китайских студентов мужского пола, сделали по четыре случайных фотографии лиц каждого из них в разных условиях и передали эти фотографии четырем классификаторам, построенным на Sc и Sn. Результаты классификации совпадают с вероятностью более 83%.

 

4. Отличительные особенности

Получив вышеупомянутые убедительные эмпирические доказательства обоснованности автоматизированного заключения о преступности, основанного на лицах, невозможно удержаться от следующего интригующего вопроса: какие черты человеческого лица выявляют склонность его владельца к преступлениям? Фактически, один и тот же вопрос занимал как профессионалов (например, психологов, социологов, криминологов), так и любителей во всех культурах и настолько долго, насколько существуют понятия закона и преступления. Интуитивные рассуждения широко распространены как в письменной форме [16, 12], так и в фольклоре. В этом разделе мы попытались ответить на вопрос наиболее техническим и научным способом, который нам позволяют доступные инструменты и данные. Подход состоит в том, чтобы дать возможность методу машинного обучения исследовать данные и выявить наиболее характерные черты лица, которые отличают преступников от других людей. Мы применили машину генерации признаков (Feature Generating Machine, FGM) Тана и др. [29] к задаче; она определяет отмеченные красным области на рисунке 8 (a) как наиболее важные части для разделения преступников и не преступников. Руководствуясь FGM, мы обнаружили, что следующие три структурных измерения в критических областях вокруг углов глаз, рта и носогубного желобка распределяются значительно по-разному у двух множеств Sc и Sn: кривизна верхней губы, обозначенная ρ; расстояние между двумя внутренними углами глаз, обозначенное буквой d; и угол, образуемый лучами от кончика носа к двум углам рта, обозначенный θ. Три отличительных структурных особенности ρd и θ показаны на рисунке 8 (b). Подчеркнем, что кривизна верхней губы ρ измеряется на стандартных фотографиях на документы, где изображен человек с нейтральным выражением лица.

 

Рисунок 8. (а) Результаты FGM; (b) три отличительных признака ρd и θ.

 

Пусть случайные переменные xc и xn будут любыми из трех вышеупомянутых измерений для преступников и не преступников. Мы исследовали две гистограммы P (xc) и P (xn) и обнаружили, что они имеют довольно большое расстояние Хеллингера [7]. Расстояние Хеллингера между двумя распределениями вероятностей определяется как

Расстояние Хеллингера H (·, ·) находится в диапазоне от 0 до 1, где 0 означает, что два распределения вероятностей идентичны, а 1 означает, что распределения вероятностей полностью различны. В нашем случае расстояния Хеллингера весьма значительны и составляют 0,3208, 0,2971 и 0,3855 для ρd и θ соответственно.

На рисунке 9 мы строим гистограммы ρd и θ после нормализации каждого измерения в диапазоне [0, 1]. Среднее значение и дисперсия ρd и θ для преступников и лиц, не являющихся преступниками, приведены в таблице 4. Из рисунков 9 и 4 видно, что угол θ от кончика носа до двух уголков рта в среднем на 19,6% меньше для преступников. чем для не преступников, и имеет больший разброс. Кроме того, кривизна верхней губы ρ у преступников в среднем на 23,4% больше, чем у непреступников. С другой стороны, расстояние d между двумя внутренними углами глаз у преступников немного меньше (5,6%), чем у законопослушных людей. Интересно, что в исследовании воспринимаемого и измеренного интеллекта Хваталовой и соавторов [20] было обнаружено, что большее межзрачковое расстояние коррелирует с более высоким IQ у мужчин европеоидной расы. Но стоит отметить, что расстояние между двумя внутренними уголками глаза является более отличительным признаком, чем межзрачковое расстояние для классификации преступников.

 

 

Значение

Дисперсия

 

Преступник

Не преступник

Преступник

Не преступник

ρ

0.5809

0.4855

0.0245

0.0187

d

0.3887

0.4118

0.0202

0.0144

θ

0.2955

0.3860

0.0185

0.0130

Таблица 4. Среднее значение и дисперсия для трех нормализованных отличительных признаков ρd и θ.

   

 

(а) Гисторгамма ρ.

  

(b) Гистограмма d.

  

(c) Гистограмма θ.

 

Рисунок 9. Гистограммы трех отличительных признаков.

 

5. Кластеризация лиц в множествах

Вызванный недавно обнаруженным успехом машинного обучения в основанном на лице заключении о преступности и знании о лежащих в основе дискриминационных признаках, следующий логичный вопрос звучит так: каковы типичные (средние) лица для преступников и не преступников? На самом деле некоторые исследователи уже приступили к этому типу исследований и опубликовали статьи на такие темы, как характерные черты женской красоты [25], отличительные черты некоторых рас [22] и национальностей (например, японцев, корейцев и китайцев) [38]. Предыдущие авторы пытались найти типичное лицо (то есть в некотором роде среднее) для категории людей, таких как китайцы, красивые женщины, преступники и тому подобное. Но в этом разделе мы выступаем против практики использования одного репрезентативного лица для таких социальных ярлыков, как красота и преступность, даже если эти ярлыки носят исключительно консенсуальный характер.

Хотя контраст между преступниками и не преступниками очень силен, условно определенные средние лица двух популяций Sc и Sn кажутся трудно различимыми, как показано на рисунке 10. Отображаемые средние лица генерируются либо путем усреднения контрольных точек и варпингом изображения [15], либо путем усреднения данных Eigenfaces [36] по набору образцов. Чтобы понять и решить загадку неспособности найти среднее лицо преступников, которое в достаточной степени отличалось бы от лиц законопослушных людей, мы рассмотрим многомерные распределения Sc и Sn, а также структурные статистические взаимосвязи между двумя множествами Sc и Sn.

 

Рисунок 10. (a) и (b) – «средние» лица преступников и не преступников, полученные путем усреднения данных Eigenfaces; (c) и (d) – «средние» лица для преступников и не преступников, полученные путем усреднения контрольных точек и варпинга изображения.

 

Мнимый парадокс, который заключается в том, что Sc и Sn можно классифицировать, но средние грани Sc и Sn при этом кажутся почти одинаковыми, можно объяснить, если распределения данных Sc и Sn будут сильно смешаны, но все же разделимы сложным поверхностным дискриминантом. Эта мысль наводит на подозрение: возможно, множества являются хорошими образами для облаков данных Sc и Sn; другими словами, предполагается, что лица преступников и не преступников составляют два совершенно разных множества. Наша гипотеза множеств также поддерживается наблюдением, что различия между лицами могут быть смоделированы как результат непрерывного морфинга.

Чтобы проверить эту гипотезу, мы вычисляем среднее межклассовое расстояние D× между двумя подмножествами Sc и Sn и средние межклассовые расстояния Dc и Dn для множеств Sc и Sn и сравниваем их. Пусть d (fi, fj) обозначает геодезическое расстояние между двумя разными гранями fi и fj, которое определяется как длина кратчайшего пути между fi и fj в разреженном графе окрестностей [30]. Вышеупомянутые средние расстояния во множествах определяются как

Наборы образцов изображений лиц преступников и не преступников показывают, что DcD×Dn. Эти неравенства расстояний и тот факт, что Sc и Sn имеют почти одинаковые средние векторы выборки, предполагают возможность того, что два множества Sc и Sn концентричны, причем некриминальное множество лежит в ядре с меньшим интервалом, а криминальное множество образует внешний слой с большим разбросом.

Чтобы проверить нашу интуицию, давайте визуализируем выборочные распределения Sc и Sn после обработки с уменьшением размерности. Мы применили метод нелинейного уменьшения размерности, называемый Isomap [30], для вычисления квазиизометрического низкоразмерного включения в наших наборах данных сверхвысокой размерности. Isomap использует геодезическое расстояние d (a, b) между двумя точками a и b на множестве, которое определяется как сумма масс ребер на кратчайшем пути, соединяющем точки a и b в разреженном графе окрестностей. Наибольшие n собственных векторов матрицы геодезических расстояний представляют координаты в новом n-мерном евклидовом пространстве.

На рисунке 11 изображена взаимосвязь остаточной дисперсии и размерности Isomap; это указывает на то, что исходный набор данных сверхвысокой размерности может быть достаточно хорошо представлен в подпространстве от четырех до шести измерений. Облака данных преступников и не преступников можно увидеть на рисунке 12, на котором первые четыре наиболее важных измерения Isomap представлены осями xyz и цветовой температурой.

 

Рисунок 11. Взаимосвязь остаточной дисперсии и размерности Isomap.

   

 

        

Рисунок 12. Облака данных («+» обозначают преступников и «໐» обозначают не преступников) в первых четырех наиболее значимых измерениях Isomap, рассматриваемые в трех разных ракурсах.

 

Все вышеперечисленные анализы и визуализация показывают, что субъективно значимого типичного лица преступников, даже после того, как были проверены расы, пол, национальность и возраст, просто не существует. Вместо этого должны существовать несколько взаимно отличимых друг от друга подтипов лиц преступников. Другими словами, правильные ответы лежат в кластеризации данных множеств. Мы используем геодезическую кластеризацию методом K-средних [4], чтобы обнаружить эти репрезентативные подтипы в наборах образцов Sc и Sn. В геодезической кластеризации с K-средними для Sc первые K граней случайным образом выбираются в качестве предварительных центроидов во множестве Sc, обозначаемых gk, 1 ≤ k ≤ K. Затем каждая грань fi ∈ Sc назначается кластеру Cj, центроид которого является ближайшим к fi на геодезическом расстоянии d,

   

   

Затем центроиды кластера обновляются методом ближайшего соседа:

  

   

Описанные выше шаги повторяются до тех пор, пока центроиды кластера не сойдутся. Для конечного кластера Ck, 1 ≤ k ≤ K, мы вычислили репрезентативную грань подтипа k преступников, искривляя все грани fi ∈ Ck так, чтобы ориентиры fi совпали с соответствующими точками gk, и усредняя все искривленные грани.

Те же процессы кластеризации и усреднения также выполняются на Sn для создания подтипа лиц для не преступников.

На рисунке 13 показаны четыре подтипа лиц преступников в Sc и три подтипа лиц не преступников в Sn, которые синтезированы с помощью описанных выше процессов. Эти сгенерированные компьютером показательные лица преступников и не преступников, похоже, согласуются с интуицией 50 китайских студентов обоего пола, которые участвовали в субъективном тесте. В этом эксперименте каждый участник должен был принять бинарное решение по каждому из этих семи синтезированных лиц подтипа (представленных в случайном порядке) и присвоить оценку -1 за то, что оно больше похоже на лицо преступника, или +1 в противном случае. Участники не знали, что эти лица синтезированы, и сколько из них относятся к группе преступников. Средние оценки для этих синтезированных лиц, соответствующих центроидам кластера, показаны на рисунке 13.

 

Рис. 13. (a), (b), (c) и (d) – четыре подтипа криминальных лиц, соответствующие четырем центроидам кластера во множестве Sc; (e), (f) и (g) – три подтипа некриминальных лиц, соответствующие трем центроидам кластера во множестве Sn. Число, связанное с каждым лицом, представляет собой средний балл людей, проводивших оценку (-1 для преступников; 1 для не преступников).

 

Поскольку кластеризация методом K-средних является неконтролируемой, нам необходимо обосновать, почему в Sc есть четыре подтипа лиц преступников, а в Sn – только три подтипа лиц, не являющихся преступниками. На рисунке 14 показано, как вариация внутри кластера уменьшается в количестве кластеров K как для Sc, так и для Sn. На рисунке ясно показано, что существует четыре хорошо разделимых кластера (отличительные черты лица) для лиц преступников, поскольку вариация включения быстро падает до K = 4, в то время как лица не преступников не образуют такого количества отдельных кластеров на геодезическом расстоянии во множестве Sn.

 

Рисунок 14. Взаимосвязь вариаций внутри кластера и количества кластеров для набора данных криминального и не криминального характера.

 

Анализ и визуализация приведенных выше данных позволяют нам сделать следующий интересный и значимый вывод, который справедлив по крайней мере для исследуемого здесь класса людей, то есть китайцев мужского пола молодого или среднего возраста. Хотя преступники составляют незначительное меньшинство в общей численности населения, у них заметно большее разнообразие лиц, чем у обычных граждан. Это совпадает с тем фактом, что все законопослушные люди обладают большим количеством общих социальных атрибутов, тогда как преступники, как правило, имеют очень разные характеристики и обстоятельства, некоторые из которых совершенно уникальны для каждого отдельного человека.

 

6. Выводы

Мы первые, кто изучает автоматизированное заключение о преступности, основанное на лицах, без каких-либо предубеждений в отношении субъективных суждений людей-наблюдателей. Путем обширных экспериментов и тщательных перекрестных проверок мы продемонстрировали, что с помощью контролируемого машинного обучения классификаторы лиц, управляемые данными, могут делать надежные выводы о преступности. Более того, мы обнаружили закон нормальности для лиц, не являющихся преступниками. После учета расы, пола и возраста у обычных законопослушных людей внешность лиц меняется в значительно меньшей степени, чем у преступников.

  

Ссылки

[1] T. Ahonen, A. Hadid, and M. Pietikäinen. Face recognition with local binary patterns. In European conference on computer vision, pages 469–481. Springer, 2004.

[2] N. S. Altman. An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46(3):175–185, 1992.

[3] S. E. Asch. Forming impressions of personality. The Journal of Abnormal and Social Psychology, 41(3):258, 1946.

[4] N. Asgharbeygi and A. Maleki. Geodesic k-means clustering. In Pattern Recognition, 2008. ICPR 2008. 19th International Conference on, pages 1–4. IEEE, 2008.

[5] C. C. Ballew and A. Todorov. Predicting political elections from rapid and unreflective face judgments. Proceedings of the National Academy of Sciences, 104(46):17948–17953, 2007.

[6] M. Bar, M. Neta, and H. Linz. Very first impressions. Emotion, 6(2):269, 2006.

[7] R. Beran. Minimum hellinger distance estimates for parametric models. The Annals of Statistics, pages 445–463, 1977.

[8] V. Blanz and T. Vetter. A morphable model for the synthesis of 3d faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques, pages 187– 194. ACM Press/Addison-Wesley Publishing Co., 1999.

[9] V. Blanz and T. Vetter. Face recognition based on fitting a 3d morphable model. IEEE Transactions on pattern analysis and machine intelligence, 25(9):1063–1074, 2003.

[10] P. Borkenau, S. Brecke, C. Möttig, and M. Paelecke. Extraversion is accurately perceived after a 50-ms exposure to a face. Journal of Research in Personality, 43(4):703–706, 2009.

[11] D. M. Burt and D. I. Perrett. Perception of age in adult caucasian male faces: Computer graphic manipulation of shape and colour information. Proceedings of the Royal Society of London B: Biological Sciences, 259(1355):137–143, 1995.

[12] T. Chen (Song Dynasty) and Z. Cheng. General Physiognomy. Shanxi Normal University Press, 2010. (in Chinese) ISBN: 978-7-5613-5065-2.

[13] E. J. Cogsdill, A. T. Todorov, E. S. Spelke, and M. R. Banaji. Inferring character from faces a developmental study. Psychological science, 25(5):1132–1139, 2014.

[14] C. Cortes and V. Vapnik. Support-vector networks. Machine learning, 20(3):273–297, 1995.

[15] G. J. Edwards, C. J. Taylor, and T. F. Cootes. Interpreting face images using active appearance models. In Automatic Face and Gesture Recognition, 1998. Proceedings. Third IEEE International Conference on, pages 300–305. IEEE, 1998.

[16] P. Ekman and W. V. Friesen. Unmasking the face: A guide to recognizing emotions from facial clues. Ishk, 2003.

[17] D. A. Freedman. Statistical models: theory and practice. Cambridge university press, 2009.

[18] R. Gottumukkal and V. K. Asari. An improved face recognition technique based on modular pca approach. Pattern Recognition Letters, 25(4):429–436, 2004.

[19] C. L. Hull. Aptitude testing. 1928.

[20] K. Kleisner, V. Chvátalová, and J. Flegr. Perceived intelligence is associated with measured intelligence in men but not women. PloS one, 9(3):e81237, 2014.

[21] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.

[22] D. T. Levin. Classifying faces by race: The structure of face categories. Journal of Experimental Psychology: Learning, Memory, and Cognition, 22(6):1364, 1996.

[23] X. Liu, X. Wu, J. Zhou, and D. Zhao. Data-driven soft decoding of compressed images in dual transform-pixel domain. IEEE Transactions on Image Processing, 25(4):1649–1659, 2016.

[24] C. Lu and X. Tang. Surpassing human-level face verification performance on lfw with gaussianface. arXiv preprint arXiv:1404.3840, 2014.

[25] D. Perrett. Facial shape and judgements. Nature, 368:17, 1994.

[26] S. Porter, L. England, M. Juodis, L. Ten Brinke, and K. Wilson. Is the face a window to the soul? investigation of the accuracy of intuitive judgments of the trustworthiness of human faces. Canadian Journal of Behavioural Science/Revue canadienne des sciences du comportement, 40(3):171, 2008.

[27] N. O. Rule, N. Ambady, and R. B. Adams. Personality in perspective: Judgmental consistency across orientations of the face. Perception, 38(11):1688–1699, 2009.

[28] X. Shu and X. Wu. Quality adaptive low-rank based jpeg decoding with applications. arXiv preprint arXiv:1601.01339, 2016.

[29] M. Tan, L. Wang, and I. W. Tsang. Learning sparse svm for feature selection on very high dimensional datasets. In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 1047–1054, 2010.

[30] J. B. Tenenbaum, V. De Silva, and J. C. Langford. A global geometric framework for nonlinear dimensionality reduction. Science, 290(5500):2319–2323, 2000.

[31] J. Thies, M. Zollhöfer, M. Stamminger, C. Theobalt, M. Nießner. Face2Face: Real-time face Capture and Reenactment of RGB Videos. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2016.

[32] A. Todorov, V. Loehr, and N. N. Oosterhof. The obligatory nature of holistic processing of faces in social judgments. Perception, 39(4):514–532, 2010.

[33] A. Todorov and N. N. Oosterhof. Modeling social perception of faces [social sciences]. IEEE Signal Processing Magazine, 28(2):117–122, 2011.

[34] A. Todorov, M. Pakrashi, and N. N. Oosterhof. Evaluating faces on trustworthiness after minimal time exposure. Social Cognition, 27(6):813–833, 2009.

[35] M. Turk and A. Pentland. Eigenfaces for recognition. Journal of cognitive neuroscience, 3(1):71–86, 1991.

[36] M. A. Turk and A. P. Pentland. Face recognition using eigenfaces. In Computer Vision and Pattern Recognition, 1991. Proceedings CVPR’91., IEEE Computer Society Conference on, pages 586–591. IEEE, 1991.

[37] J. M. Valla, S. J. Ceci, and W. M. Williams. The accuracy of inferences about criminality based on facial appearance. Journal of Social, Evolutionary, and Cultural Psychology, 5(1):66, 2011.

[38] Y. Wang, H. Liao, Y. Feng, X. Xu, and J. Luo. Do they all look the same? deciphering chinese, japanese and koreans by fine-grained deep learning. arXiv preprint arXiv:1610.01854, 2016.

[39] J. Willis and A. Todorov. First impressions making up your mind after a 100-ms exposure to a face. Psychological science, 17(7):592–598, 2006.

[40] W. Zhao, A. Krishnaswamy, R. Chellappa, D. L. Swets, and J. Weng. Discriminant analysis of principal components for face recognition. In Face Recognition, pages 73–85. Springer, 1998.


[1] K Nearest Neighbor, метод k-ближайших соседей.

[2] Support vector machine, метод опорных векторов.

[3] Convolutional neural network, сверточная нейронная сеть.

[4] Eigenface (собственное лицо) – алгоритм компьютерного зрения, основан на методе главных компонент в приложении к распознаванию лиц.

[5] Principal component analysis, метод главных компонент.

[6] Local Binary Patterns, локальные бинарные шаблоны.

[7] AlexNet – сверточная нейронная сеть для классификации изображений.

[8] Area Under the Curve, площадь под кривой.

Подписаться