Сегодня проблема онлайн мошенничества стоит особенно остро. Злоумышленники постоянно придумывают новые схемы обмана. И если человек не может выявить угрозу, к нему на выручку приходит машинное обучение.
Какие модели Machine Learning существуют? В чем их преимущества и недостатки? Разберёмся вместе в этой статье.
Как машинное обучение (Machine Learning) может помочь в борьбе с мошенничеством?
Machine Learning (далее — ML) — одна из самых многообещающих мер против онлайн-мошенничества. Программа изучает человеческое поведение на основе огромных массивов данных.
Основываясь на статистических данных, алгоритмы ML могут оценивать риски и предлагать решения, исходя из поведения пользователя. Чем больше данных вы предоставите, тем быстрее программа сможет выявить мошенников и либо предупредит вас, либо самостоятельно заблокирует угрозу.
Принцип работы Machine Learning
Борьба с мошенниками проходит в несколько этапов. На первом этапе ведется сбор данных. Как только система получает данные, она сегментирует их по категориям. На втором она извлекает из них ключевые характеристики. Эти характеристики соответствуют определенным моделям поведения мошенников.
На следующем этапе система учится выявлять подозрительные действия и соответствующим образом маркировать их. При этом учитывается несколько факторов, таких как:
- Местоположение клиента
- Личность пользователя
- Порядок действий
- Сеть
- Выбранный способ оплаты.
Также выявить ботов поможет несколько показателей поведения на сайте:
- Движение мыши.
- Прокрутка.
- Нажатие на сенсорный экран.
- Скорость набора текста и взаимодействие с формами на сайте
Для каждого события программа собирает следующие параметры:
- Длительность.
- Изменения по оси X и Y.
- Скорость изменения по оси X и Y.
- Число элементарных событий, которые получил браузер.
После маркировки система готова к обнаружению мошенников.
Machine Learning уникально
Алгоритмы ML, которые использует компания, будут выявлять модели поведения, характерные для ее сферы деятельности.
Например, компания, занимающаяся электронной коммерцией, будет обращать внимание на определенные закономерности, которые финансово-технологическая компания может игнорировать.
Настраиваемость — одно из преимуществ машинного обучения.
Существующие модели Machine Learning
Обучение с учителем (Supervised Learning)
Здесь используется система маркировки хороших и плохих данных. Недостаток этой модели — зависимость от статистики. Если определенный вид мошенничества не включен в статистику, алгоритмы не смогут его идентифицировать.
Обучение без учителя (Unsupervised Learning)
При такой модели обучения система непрерывно обрабатывает данные и автоматически маркирует их. Такая модель наиболее эффективна при поиске взаимосвязей и отслеживании подозрительного поведения.
Обучение с частичным привлечением учителя (Semi-Supervised Learning)
Такая модель используется, когда невозможно или слишком ресурсоемко точно разметить данные. Принцип работы довольно прост. Вместо того, чтобы добавлять теги ко всему набору данных, вы просматриваете и маркируете вручную лишь небольшую их часть и используете ее для обучения модели, которая затем самостоятельно применяет маркировку к неразмеченным данным.
Самообучение (Self-Learning)
Одним из простейших примеров обучения с частичным привлечением учителя является самообучение.
Вы выбираете небольшое количество помеченных данных, например, изображения, на которых изображены кошки и собаки с соответствующими тегами, и используете этот набор данных для обучения базовой модели с помощью обычных контролируемых методов.
Затем вы применяете псевдомаркировку — вы берете частично обученную модель и используете ее для прогнозирования остальной части базы данных, которая еще не помечена. Сгенерированные после этого метки называются псевдо, поскольку создаются на основе исходно размеченных данных, имеющих ограничения (например, может быть неравномерное представление классов в наборе, что приводит к смещению — больше собак, чем кошек).
Теперь вы берете самые достоверные прогнозы, сделанные с помощью вашей модели (например, вам нужна достоверность более 80% того, что на определенном изображении изображена кошка, а не собака). Если какие-либо из псевдометок превышают этот уровень достоверности, вы добавляете их в меченный набор данных и задаете новые комбинированные вводные данные для обучения улучшенной модели.
Процесс может пройти несколько итераций, и каждый раз будут добавляться новые псевдометки. Производительность модели будет увеличиваться при каждой итерации.
Совместное обучение (Co-training)
Эта модель используется, когда доступна лишь небольшая часть размеченных данных. Эта модель обучает два отдельных классификатора на основе двух представлений данных.
Представления — это наборы характеристик, которые предоставляют дополнительную информацию о каждом объекте.
Этот подход можно использовать, например, для классификации веб-контента. Описание каждой веб-страницы можно разделить на два представления: одно со словами, встречающимися на странице, и другое со словами-якорями в ссылке, ведущей на нее.
Алгоритм работы совместного обучения следующий:
Сначала вы обучаете отдельный классификатор (модель) для каждого представления на основе небольшого количества размеченных данных.
Затем добавляете больший пул немаркированных данных для получения псевдометок.
Классификаторы обучают друг друга, используя псевдометки с наивысшим уровнем достоверности. Если первый классификатор верно указывает подлинную метку для выборки данных, а другой допускает ошибку, то данные с псевдометками, назначенными первым классификатором, обновляют второй классификатор, и наоборот.
Последний шаг включает в себя объединение прогнозов двух обновленных классификаторов для получения общего результата.
Совместное обучение также проходит через множество итераций с целью создать дополнительный обучающий набор размеченных данных из огромного количества неразмеченных.
Обучение с подкреплением (Reinforced Learning)
Это вариант машинного обучения, который учит агента совершать необходимые действия, чтобы максимизировать вознаграждение с течением времени.
Обучение с подкреплением состоит из четырех основных элементов:
Агент. Программа, которую вы тренируете.
Окружающая среда. Мир, реальный или виртуальный, в котором агент выполняет действия.
Действие агента, меняющее мир.
Награда. Оценка действия, которая может быть положительной или отрицательной.
Это четыре основные модели машинного обучения. Каждая модель идеально подходит для определенных сценариев.
Также существуют так называемые ансамбли — группы алгоритмов, которые используют сразу несколько методов машинного обучения и исправляют ошибки друг друга. Их получают тремя способами:
- Стекинг — когда разные алгоритмы обучают по отдельности, а потом передают их результаты на вход последнему, который и принимает решение;
- Беггинг — когда один алгоритм многократно обучают на случайных выборках, а потом усредняют ответы;
- Бустинг — когда алгоритмы обучают последовательно, при этом каждый обращает особое внимание на ошибки предыдущего.
Обучение с учителем, обучение без учителя и обучение с подкреплением: в чем разница?
Отличие № 1: Статика против динамики
Целью обучения с учителем и без является поиск и изучение закономерностей в обучающих данных, то есть статике.
Обучение с подкреплением, с другой стороны, заключается в разработке методики, при которой агенту сообщается, какое действие следует выбирать на каждом этапе, что делает его более динамичным.
Отличие № 2: нет явного правильного ответа
В обучении с учителем правильный ответ зависит от статистики. В обучении с подкреплением правильного ответа нет: агент должен учиться методом проб и ошибок. Вознаграждение, которое он получает после выполнения действия, сигнализирует ему о правильности принятого решения.
Machine Learning — будущее борьбы с мошенниками?
Если нынешние темпы развития ML сохранятся в течение следующего десятилетия, оно может стать главной технологией обнаружения мошенников. Тем не менее, существуют определенные трудности с использованием ML в данной сфере.
Во-первых, доступность необработанных данных по-прежнему остается проблемой для компаний, желающих перейти на ML.
Во-вторых, создание и обучение модели ML занимает много времени. Многие предприятия и организации не хотят тратить столько времени и ресурсов на разработку своих моделей машинного обучения.
Вывод
Хотя использование Machine Learning сопряжено с определенными трудностями, оно более перспективно, чем традиционные варианты. И, скорее всего, в ближайшем будущем произойдет эффект просачивания. Сейчас только крупные компании используют ML для выявления мошенничества. Но скоро малый и средний бизнес также сможет оценить весь потенциал автоматизированного выявления мошенников.