Identifying the graph-based typology features for machine learning models in financial fraud detection
Gespeichert in:
| Titel: | Identifying the graph-based typology features for machine learning models in financial fraud detection |
|---|---|
| Autoren: | Rakhmetulayeva, Sabina, Kulbayeva, Aliya, Bolshibayeva, Aigerim, Serbin, Vassiliy |
| Quelle: | Eastern-European Journal of Enterprise Technologies; Vol. 3 No. 9 (135) (2025): Information and controlling system; 40-54 Eastern-European Journal of Enterprise Technologies; Том 3 № 9 (135) (2025): Інформаційно-керуючі системи; 40-54 |
| Verlagsinformationen: | TECHNOLOGY CENTER PC®, 2025. |
| Publikationsjahr: | 2025 |
| Schlagwörter: | виявлення аномалій, transaction patterns, графовий аналіз, машинне навчання, financial fraud, anomaly detection, graph analysis, machine learning, classification, класифікація, шаблони транзакцій, typology detection, фінансове шахрайство, виявлення типології |
| Beschreibung: | Досліджується виявлення шахрайства в мережах фінансових транзакцій за допомогою машинного навчання та графових типологій. Об’єктом дослідження є дані про фінансові транзакції, проаналізовані для підвищення точності та ефективності виявлення шахрайської діяльності. Проблема, що розглядається, полягає в обмеженій узагальнюваності та низькій частоті відкликання традиційних моделей виявлення шахрайства в складних реальних умовах. Для вирішення цієї проблеми було розроблено гібридну структуру, яка інтегрує випадкові ліси, нейронні мережі та графові типологічні індикатори. Сім типологій відмивання було вилучено з графа транзакцій – віялове розсіювання, віялове розширення, розсіювально-збірний, збірно-розсіювальний, циклічний, двочастковий та складений двочастковий – і використано як додаткові ознаки для класифікації. SMOTE було застосовано для виправлення дисбалансу класів під час навчання. Експериментальні результати показують, що додавання типологічних ознак значно покращує продуктивність моделі. Найкращі результати були отримані використовуючи випадковий ліс: акуратність 98,5%, точність 79,1%, частота відкликання 56,3% та показник F1 65,7%. Додавання прапорців на основі типології підвищило частоту відкликання на 9–11 відсоткових пунктів порівняно з моделями без них. Графові шаблони, такі як віялове розширення та розсіяння, були виявлені у 3,5–5,1% транзакцій, тоді як складніші структури, такі як циклічні та розсіювально-збірні, з›являлися рідше, але сильніше корелювали з відомим шахрайством. Методи без нагляду також показали багатообіцяючі результати: автокодер виявив 60% випадків шахрайства серед 2% найпоширеніших аномальних транзакцій, тоді як K-середні виявили 55% шахрайства в межах позначених кластерів. Ці методи виявилися корисними для виявлення нових типів шахрайства, які ще не позначені в навчальних даних. Модель підходить для інтеграції в системи фінансової безпеки з мінімальними вимогами до вхідних даних – ідентифікатори рахунків, позначки часу та суми транзакцій – поряд з базовою графовою аналітикою. Її стійкість до різних наборів даних свідчить про широку застосовність у різних фінансових установах This article investigates fraud detection in financial transaction networks using machine learning and graph-based typologies. The object of the study is financial transaction data, analyzed to improve the accuracy and efficiency of identifying fraudulent activities. The problem addressed is the limited generalizability and low recall of traditional fraud detection models in complex, real-world settings. To address this, a hybrid framework was developed that integrates Random Forests, neural networks, and graph-based typology indicators. Seven laundering typologies were extracted from a transaction graph – fan-in, fan-out, scatter-gather, gather-scatter, cycle, bipartite, and stacked bipartite – and used as additional features for classification. SMOTE was applied to correct class imbalance during training. Experimental results show that adding typology features significantly improves model performance. The best results were obtained with Random Forest: 98.5% accuracy, 79.1% precision, 56.3% recall, and an F1-score of 65.7%. Adding typology-based flags raised recall by 9–11 percentage points compared to models without them. Graph patterns like fan-in and fan-out were detected in 3.5–5.1% of transactions, while more complex structures such as cycle and scatter-gather appeared less frequently but correlated more strongly with known fraud. Unsupervised methods also showed promise: an autoencoder captured 60% of fraud cases among the top 2% anomalous transactions, while K-means identified 55% of fraud within flagged clusters. These methods proved useful for identifying emerging fraud types not yet labeled in training data. The model is suitable for integration into financial security systems with minimal input requirements – account IDs, timestamps, and transaction amounts—alongside basic graph analytics. Its robustness across datasets suggests strong applicability across diverse financial institutions |
| Publikationsart: | Article |
| Dateibeschreibung: | application/pdf |
| Sprache: | English |
| ISSN: | 1729-3774 1729-4061 |
| Zugangs-URL: | https://journals.uran.ua/eejet/article/view/327410 |
| Rights: | CC BY |
| Dokumentencode: | edsair.scientific.p..112f0aaf716c111d9686a64be23d11c5 |
| Datenbank: | OpenAIRE |
| Abstract: | Досліджується виявлення шахрайства в мережах фінансових транзакцій за допомогою машинного навчання та графових типологій. Об’єктом дослідження є дані про фінансові транзакції, проаналізовані для підвищення точності та ефективності виявлення шахрайської діяльності. Проблема, що розглядається, полягає в обмеженій узагальнюваності та низькій частоті відкликання традиційних моделей виявлення шахрайства в складних реальних умовах. Для вирішення цієї проблеми було розроблено гібридну структуру, яка інтегрує випадкові ліси, нейронні мережі та графові типологічні індикатори. Сім типологій відмивання було вилучено з графа транзакцій – віялове розсіювання, віялове розширення, розсіювально-збірний, збірно-розсіювальний, циклічний, двочастковий та складений двочастковий – і використано як додаткові ознаки для класифікації. SMOTE було застосовано для виправлення дисбалансу класів під час навчання. Експериментальні результати показують, що додавання типологічних ознак значно покращує продуктивність моделі. Найкращі результати були отримані використовуючи випадковий ліс: акуратність 98,5%, точність 79,1%, частота відкликання 56,3% та показник F1 65,7%. Додавання прапорців на основі типології підвищило частоту відкликання на 9–11 відсоткових пунктів порівняно з моделями без них. Графові шаблони, такі як віялове розширення та розсіяння, були виявлені у 3,5–5,1% транзакцій, тоді як складніші структури, такі як циклічні та розсіювально-збірні, з›являлися рідше, але сильніше корелювали з відомим шахрайством. Методи без нагляду також показали багатообіцяючі результати: автокодер виявив 60% випадків шахрайства серед 2% найпоширеніших аномальних транзакцій, тоді як K-середні виявили 55% шахрайства в межах позначених кластерів. Ці методи виявилися корисними для виявлення нових типів шахрайства, які ще не позначені в навчальних даних. Модель підходить для інтеграції в системи фінансової безпеки з мінімальними вимогами до вхідних даних – ідентифікатори рахунків, позначки часу та суми транзакцій – поряд з базовою графовою аналітикою. Її стійкість до різних наборів даних свідчить про широку застосовність у різних фінансових установах<br />This article investigates fraud detection in financial transaction networks using machine learning and graph-based typologies. The object of the study is financial transaction data, analyzed to improve the accuracy and efficiency of identifying fraudulent activities. The problem addressed is the limited generalizability and low recall of traditional fraud detection models in complex, real-world settings. To address this, a hybrid framework was developed that integrates Random Forests, neural networks, and graph-based typology indicators. Seven laundering typologies were extracted from a transaction graph – fan-in, fan-out, scatter-gather, gather-scatter, cycle, bipartite, and stacked bipartite – and used as additional features for classification. SMOTE was applied to correct class imbalance during training. Experimental results show that adding typology features significantly improves model performance. The best results were obtained with Random Forest: 98.5% accuracy, 79.1% precision, 56.3% recall, and an F1-score of 65.7%. Adding typology-based flags raised recall by 9–11 percentage points compared to models without them. Graph patterns like fan-in and fan-out were detected in 3.5–5.1% of transactions, while more complex structures such as cycle and scatter-gather appeared less frequently but correlated more strongly with known fraud. Unsupervised methods also showed promise: an autoencoder captured 60% of fraud cases among the top 2% anomalous transactions, while K-means identified 55% of fraud within flagged clusters. These methods proved useful for identifying emerging fraud types not yet labeled in training data. The model is suitable for integration into financial security systems with minimal input requirements – account IDs, timestamps, and transaction amounts—alongside basic graph analytics. Its robustness across datasets suggests strong applicability across diverse financial institutions |
|---|---|
| ISSN: | 17293774 17294061 |
Nájsť tento článok vo Web of Science