Методы анализа данных для обнаружения мошенничества - Data analysis techniques for fraud detection

Вступление

Мошенничество, связанное с сотовые телефоны, страховые выплаты, налоговая декларация претензии, транзакции по кредитной карте, государственные закупки и т. д. представляют собой серьезные проблемы для правительств и предприятий, поэтому требуются специальные методы анализа для обнаружения мошенничества с их использованием. Эти методы существуют в областях Открытие знаний в базах данных (KDD), Сбор данных, Машинное обучение и Статистика. Они предлагают применимые и успешные решения в различных областях электронного мошенничества.[1]

Как правило, основная причина использования методов анализа данных - это борьба с мошенничеством, поскольку многие системы внутреннего контроля имеют серьезные недостатки. Например, в настоящее время преобладающий подход, применяемый многими правоохранительными органами для выявления компаний, причастных к потенциальным случаям мошенничества, заключается в получении косвенных доказательств или жалоб от информаторов.[2] В результате большое количество случаев мошенничества остаются незамеченными и не преследуются по закону. Чтобы эффективно тестировать, обнаруживать, проверять, исправлять ошибки и отслеживать системы контроля за мошенническими действиями, предприятия и организации полагаются на специализированные методы анализа данных, такие как интеллектуальный анализ данных, сопоставление данных, функция звуков, регрессионный анализ, кластерный анализ и пробелы.[3] Методы, используемые для обнаружения мошенничества, делятся на два основных класса: статистические методы и искусственный интеллект.[4]

Статистические методы

Примеры методов статистического анализа данных:

  • Предварительная обработка данных методы обнаружения, проверки, исправление ошибки, а также заполнение недостающих или неверных данных.
  • Расчет различных статистических параметров, таких как средние, квантили, показатели производительности, распределения вероятностей и т. д. Например, средние значения могут включать среднюю продолжительность звонка, среднее количество звонков в месяц и среднюю задержку оплаты счета.
  • Модели и распределения вероятностей различных видов деловой активности в терминах различных параметров или распределений вероятностей.
  • Вычисление профили пользователей.
  • Анализ временных рядов данных, зависящих от времени.[5]
  • Кластеризация и классификация найти шаблоны и ассоциации среди групп данных.[5]
  • Соответствие данных Сопоставление данных используется для сравнения двух наборов собранных данных. Процесс может выполняться на основе алгоритмов или запрограммированных циклов. Попытка сопоставить наборы данных друг с другом или сравнение сложных типов данных. Сопоставление данных используется для удаления повторяющихся записей и определения связей между двумя наборами данных для маркетинга, безопасности или других целей.[3]
  • Похоже, что функция используется для поиска похожих значений. Фонетическое сходство - это один из способов найти возможные повторяющиеся значения или непоследовательное написание в вводимых вручную данных. Функция «звучит как» преобразует строки сравнения в четырехсимвольные коды American Soundex, которые основаны на первой букве и первых трех согласных после первой буквы в каждой строке.[3]
  • Регрессивный анализ позволяет изучить взаимосвязь между двумя или более интересующими переменными. Регрессионный анализ оценивает отношения между независимыми переменными и зависимой переменной. Этот метод можно использовать, чтобы помочь понять и определить отношения между переменными и предсказать фактические результаты.[3]
  • Анализ разрыва используется, чтобы определить, выполняются ли бизнес-требования, если нет, то какие шаги необходимо предпринять для успешного выполнения.
  • Алгоритмы сопоставления к обнаруживать аномалии в поведении транзакций или пользователей по сравнению с ранее известными моделями и профилями. Также нужны техники для устранения ложные срабатывания, оценить риски и спрогнозировать будущее текущих транзакций или пользователей.

Немного судебные бухгалтеры специализируюсь на судебная аналитика то есть закупка и анализ электронные данные для восстановления, обнаружения или иного подтверждения заявления о финансовом мошенничестве. Основные этапы судебной аналитики: сбор информации, подготовка данных, анализ данных и отчетность. Например, судебная аналитика может использоваться для проверки состояния сотрудника. карта покупки деятельность, чтобы оценить, были ли какие-либо покупки перенаправлены или использованы для личного использования.

Методы искусственного интеллекта

Обнаружение мошенничества - это наукоемкая деятельность. Основные методы искусственного интеллекта, используемые для обнаружения мошенничества, включают:

  • Сбор данных для классификации, кластеризации и сегментации данных и автоматического поиска в данных ассоциаций и правил, которые могут указывать на интересные закономерности, в том числе связанные с мошенничеством.
  • Экспертные системы закодировать экспертизу по выявлению мошенничества в виде правил.
  • Распознавание образов для обнаружения приблизительных классов, кластеров или моделей подозрительного поведения либо автоматически (без присмотра), либо в соответствии с заданными входными данными.
  • Методы машинного обучения для автоматического определения характеристик мошенничества.
  • Нейронные сети независимо генерировать классификацию, кластеризацию, обобщение и прогнозирование, которые затем можно сравнивать с выводами, сделанными в ходе внутреннего аудита или официальных финансовых документов, таких как 10-Q.[5]

Другие методы, такие как анализ ссылок, Байесовские сети, теория принятия решений, и соответствие последовательности также используются для обнаружения мошенничества.[4] Новый и новаторский метод, называемый подходом системных свойств, также использовался везде, где когда-либо были доступны ранговые данные. [6]

Статистический анализ данных исследования - наиболее полный метод определения факта мошенничества с данными. Мошенничество с данными, по определению Управления целостности исследований (ORI), включает фабрикацию, фальсификацию и плагиат.

Машинное обучение и интеллектуальный анализ данных

Ранние методы анализа данных были ориентированы на извлечение количественных и статистических характеристик данных. Эти методы облегчают полезную интерпретацию данных и могут помочь лучше понять процессы, лежащие в основе данных. Хотя традиционные методы анализа данных могут косвенно привести нас к знаниям, они по-прежнему создаются людьми-аналитиками.[7]

Чтобы выйти за рамки, система анализа данных должна быть оснащена значительным объемом базовых знаний и уметь выполнять логические задачи с использованием этих знаний и предоставленных данных.[7] Для достижения этой цели исследователи обратились к идеям из области машинного обучения. Это естественный источник идей, поскольку задачу машинного обучения можно описать как превращение базовых знаний и примеров (ввод) в знания (выход).

Если интеллектуальный анализ данных приводит к обнаружению значимых закономерностей, данные превращаются в информацию. Информация или шаблоны, которые являются новыми, достоверными и потенциально полезными, - это не просто информация, а знания. Говорят об открытии знаний, которые раньше были скрыты в огромном количестве данных, но теперь раскрыты.

Решения машинного обучения и искусственного интеллекта можно разделить на две категории: «контролируемое» и «неконтролируемое» обучение. Эти методы ищут учетные записи, клиентов, поставщиков и т. Д., Которые ведут себя «необычно», чтобы вывести оценки подозрительности, правила или визуальные аномалии, в зависимости от метода.[8]

Независимо от того, используются ли контролируемые или неконтролируемые методы, обратите внимание, что выходные данные дают нам только указание на вероятность мошенничества. Никакой автономный статистический анализ не может гарантировать, что конкретный объект является мошенническим, но он может идентифицировать их с очень высокой степенью точности.

Контролируемое обучение

При обучении с учителем берется случайная подвыборка всех записей и вручную классифицируется как «мошенническая» или «не мошенническая» (задача может быть разложена на большее количество классов в соответствии с требованиями алгоритма). Для сравнительно редких событий, таких как мошенничество, может потребоваться дополнительная выборка, чтобы получить достаточно большой размер выборки.[9] Эти вручную классифицированные записи затем используются для обучения контролируемого алгоритма машинного обучения. После построения модели с использованием этих обучающих данных алгоритм должен иметь возможность классифицировать новые записи как мошеннические или не мошеннические.

Контролируемые нейронные сети, нечеткие нейронные сети и комбинации нейронных сетей и правил были тщательно изучены и использовались для обнаружения мошенничества в сетях мобильных телефонов и мошенничества с финансовой отчетностью.[10][11]

Байесовская обучающая нейронная сеть реализована для обнаружения мошенничества с кредитными картами, мошенничества в телекоммуникациях, обнаружения мошенничества с автострахованием и мошенничества с медицинским страхованием.[12]

Системы, основанные на гибридных знаниях и статистике, в которых экспертные знания объединены со статистической мощью, используют ряд методов интеллектуального анализа данных с целью обнаружения мошенничества с клеточными клонами. В частности, реализована программа обучения правилам для выявления признаков мошенничества из большой базы данных транзакций клиентов.[13]

Cahill et al. (2000) разрабатывают сигнатуру мошенничества, основанную на данных о мошеннических звонках, для обнаружения мошенничества в телекоммуникациях. Для оценки призыва к мошенничеству его вероятность под подписью учетной записи сравнивается с его вероятностью под подписью мошенничества. Сигнатура мошенничества обновляется последовательно, что позволяет обнаруживать мошенничество на основе событий.

Анализ ссылок понимает другой подход. Он связывает известных мошенников с другими лицами, используя методы связывания записей и социальных сетей.[14][15]

Этот тип обнаружения способен обнаруживать только мошенничества, подобные тем, которые имели место ранее и были классифицированы человеком. Для обнаружения нового типа мошенничества может потребоваться использование алгоритма неконтролируемого машинного обучения.

Обучение без учителя

Напротив, неконтролируемые методы не используют помеченные записи.

Следует упомянуть некоторые важные исследования с обучением без учителя в отношении обнаружения мошенничества. Например, Болтон и Хэнд[16] использовать Групповой анализ сверстников и Анализ точки разрыва применяется к расходам на счетах кредитных карт. Peer Group Analysis обнаруживает отдельные объекты, которые начинают вести себя не так, как объекты, с которыми они ранее были похожи. Еще один инструмент Bolton and Hand[16] Разработать для обнаружения поведенческого мошенничества является анализ точек останова. В отличие от анализа одноранговых групп, анализ точек останова работает на уровне учетной записи. Точка останова - это наблюдение, при котором обнаруживается аномальное поведение для определенной учетной записи. Оба инструмента применяются к поведению расходования средств на счетах кредитных карт. Здесь используется комбинация неконтролируемых и контролируемых методов обнаружения мошенничества с кредитными картами.[17]

Доступные наборы данных

Основным ограничением для проверки существующих методов обнаружения мошенничества является отсутствие общедоступных наборов данных. Один из немногих примеров - набор данных [18] предоставлен.[19]

Смотрите также

Рекомендации

  1. ^ Размещено Романом Чуприной 14 апреля 2020 г. в 1:30; Блог, просмотр. «Подробное руководство по обнаружению мошенничества в электронной торговле от 2020 г.». www.datasciencecentral.com. Получено 2020-05-24.
  2. ^ Веласко, Рафаэль Б.; Карпанезе, Игорь; Интериан, Рубен; Пауло Нето, Octávio C. G .; Рибейро, Селсу К. (28 мая 2020 г.). «Система поддержки принятия решений по выявлению мошенничества в сфере государственных закупок». Международные операции в операционных исследованиях. 28: 27–47. Дои:10.1111 / itor.12811. ISSN  0969-6016.
  3. ^ а б c d Болтон, Р. и Хэнд, Д. (2002). Статистическое обнаружение мошенничества: обзор. Статистическая наука 17 (3), стр. 235-255.
  4. ^ а б Палшикар Г.К. Скрытая правда - мошенничество и контроль над ним: важное приложение для бизнес-аналитики, Intelligent Enterprise, vol. 5, вып. 9, 28 мая 2002 г., стр. 46–51.
  5. ^ а б c Аль-Хатиб, Аднан М. (2012). «Методы обнаружения мошенничества с электронными платежами». Журнал "Мир компьютерных наук и информационных технологий". 2. S2CID  214778396.
  6. ^ Вани, Г. К. (февраль 2018 г.). «Как обнаружить мошенничество при сборе данных с использованием подхода системных свойств». Мультилогия в науке. VII (СПЕЦИАЛЬНЫЙ НОМЕР ICAAASTSD-2018). ISSN  2277-7601. Получено 2 февраля, 2019.
  7. ^ а б Михальский, Р. С., И. Братко, М. Кубат (1998). Машинное обучение и интеллектуальный анализ данных - методы и приложения. John Wiley & Sons Ltd.
  8. ^ Болтон, Р. и Хэнд, Д. (2002). Статистическое обнаружение мошенничества: обзор (с обсуждением). Статистическая наука 17 (3): 235–255.
  9. ^ Даль Поццоло, А., Келен, О., Ле Борн, Й., Уотершут, С., Бонтемпи, Г. (2014). Извлеченные уроки по обнаружению мошенничества с кредитными картами с точки зрения практикующего специалиста. Экспертные системы с приложениями 41: 10 4915–4928.
  10. ^ Грин Б. и Чой Дж. (1997). Оценка риска мошенничества в управлении с помощью технологии нейронных сетей. Одитинг 16 (1): 14–28.
  11. ^ Эстевес, П., К. Хелд и К. Перес (2006). Предотвращение мошенничества с подпиской в ​​сфере телекоммуникаций с помощью нечетких правил и нейронных сетей. Экспертные системы с приложениями 31, 337–344.
  12. ^ Бховмик, Рекха Бховмик. «35 методов интеллектуального анализа данных для обнаружения мошенничества». Журнал цифровой криминалистики, безопасности и права. Техасский университет в Далласе.
  13. ^ Фосетт, Т. (1997). Подходы ИИ к обнаружению мошенничества и управлению рисками: материалы семинара AAAI 1997 года. Технический отчет WS-97-07. AAAI Press.
  14. ^ Phua, C .; Ли, В .; Smith-Miles, K .; Гейлер, Р. (2005). «Комплексный обзор исследований по обнаружению мошенничества на основе интеллектуального анализа данных». arXiv:1009.6119. Дои:10.1016 / j.chb.2012.01.002. S2CID  50458504. Цитировать журнал требует | журнал = (помощь)
  15. ^ Кортес, К. и Прегибон, Д. (2001). Сигнатурные методы для потоков данных. Анализ данных и открытие знаний 5: 167–182.
  16. ^ а б Болтон, Р. и Хэнд, Д. (2001). Неконтролируемые методы профилирования для обнаружения мошенничества. Кредитный скоринг и кредитный контроль VII.
  17. ^ Карсилло, Фабрицио; Ле Борн, Янн-Аль; Каэлен, Оливье; Кессачи, Ясин; Обле, Фредерик; Бонтемпи, Джанлука (16 мая 2019 г.). «Сочетание обучения без учителя и обучения с учителем в обнаружении мошенничества с кредитными картами». Информационные науки. Дои:10.1016 / j.ins.2019.05.042. ISSN  0020-0255.
  18. ^ «Обнаружение мошенничества с кредитными картами». kaggle.com.
  19. ^ "Группа машинного обучения ULB". mlg.ulb.ac.be.