Development of an information technology for detecting the sources and networks of disinformation dissemination in cyberspace based on machine learning methods
Uložené v:
| Názov: | Development of an information technology for detecting the sources and networks of disinformation dissemination in cyberspace based on machine learning methods |
|---|---|
| Zdroj: | Eastern-European Journal of Enterprise Technologies; Vol. 4 No. 2 (136) (2025): Information technology. Industry control systems; 35-51 Eastern-European Journal of Enterprise Technologies; Том 4 № 2 (136) (2025): Інформаційні технології. Системи управління в промисловості; 35-51 |
| Informácie o vydavateľovi: | TECHNOLOGY CENTER PC®, 2025. |
| Rok vydania: | 2025 |
| Predmety: | подібність тексту, disinformation source detection, fake news, виявлення джерел дезінформації, machine learning, мережа розповсюдження дезінформації, фейкова новина, машинне навчання, disinformation network, text similarity |
| Popis: | The object of this study is the processes of identifying sources and networks of disinformation dissemination in the cyberspace of the world. With the growing influence of social networks on public opinion, the issue of identifying and neutralizing propaganda messages is becoming particularly relevant. Conventional methods of combating propaganda such as manual content moderation have proven to be insufficiently effective due to the large amount of information generated daily. It is important to use natural language processing and machine learning methods to analyze text, identify sources of disinformation dissemination and inauthentic behavior of bots. Based on the analysis of existing methods of intelligent disinformation search, methods have been devised to identify sources and ways of disinformation dissemination in cyberspace by searching for similar text chains and analyzing the similarity of writing style. Hybrid vector representation makes it possible to capture surface frequency characteristics of the text and semantic features, which has a positive effect on the quality of classification. Cosine similarity, Jacquard, Levenstein and Word2Vec are used to measure similarity. Clustering (DBSCAN, K-Means) helps group fake messages. Graph analysis detects central accounts and bot networks. Evaluation of the model’s performance by key metrics showed reliable results for identifying sources of disinformation distribution: accuracy – 0.82, F1.3 – 0.8, ROC-AUC – 0.86. The identified differences in lexical patterns for the “fake” and “true” classes confirm the model’s ability to capture the content features of texts. The proposed method for detecting disinformation distribution paths serves as the basis for building scalable systems for monitoring the information space and adapting to other text classification tasks Об’єкт дослідження – процеси виявлення джерел та мереж розповсюдження дезінформації в кіберпросторі світу. Зі зростанням впливу соціальних мереж на громадську думку питання виявлення та нейтралізації пропагандистських повідомлень набуває особливої актуальності. Традиційні методи боротьби з пропагандою як ручна модерація контенту виявилися недостатньо ефективними через великий обсяг інформації, що генерується щодня. Важливим є застосування методів опрацювання природної мови та машинного навчання для аналізу тексту, виявлення джерел розповсюдження дезінформації та неавтентичної поведінки ботів. На основі аналізу існуючих методів інтелектуального пошуку дезінформації розроблено методи виявлення джерел та шляхів розповсюдження дезінформації в кіберпросторі через пошук подібних ланцюгів тексту та аналізу подібності стилю написання. Гібридне векторне подання дозволяє охопити поверхневі частотні характеристики тексту та семантичні особливості, що позитивно позначається на якості класифікації. Косинусова подібність, Жаккар, Левенштейн та Word2Vec використовують для вимірювання подібності. Кластеризація (DBSCAN, K-Means) допомагає групувати фейкові повідомлення. Графовий аналіз виявляє центральні акаунти та бот-мережі. Оцінювання продуктивності моделі за ключовими метриками показало надійні результати для виявлення джерел розповсюдження дезінформації: accuracy – 0.82, F1.3 – 0.8, ROC-AUC – 0.86. Виявлені відмінності у лексичних патернах для класів «фейк» і «правда» підтверджують здатність моделі вловлювати змістовні особливості текстів. Запропонований метод виявлення шляхів розповсюдження дезінформації слугує основою для побудови масштабованих систем моніторингу інформаційного простору та адаптації до інших задач текстової класифікації. |
| Druh dokumentu: | Article |
| Popis súboru: | application/pdf |
| Jazyk: | English |
| ISSN: | 1729-3774 1729-4061 |
| Prístupová URL adresa: | https://journals.uran.ua/eejet/article/view/335501 |
| Rights: | CC BY |
| Prístupové číslo: | edsair.scientific.p..54c31f623ec639529117e9b09d460a7d |
| Databáza: | OpenAIRE |
| Abstrakt: | The object of this study is the processes of identifying sources and networks of disinformation dissemination in the cyberspace of the world. With the growing influence of social networks on public opinion, the issue of identifying and neutralizing propaganda messages is becoming particularly relevant. Conventional methods of combating propaganda such as manual content moderation have proven to be insufficiently effective due to the large amount of information generated daily. It is important to use natural language processing and machine learning methods to analyze text, identify sources of disinformation dissemination and inauthentic behavior of bots. Based on the analysis of existing methods of intelligent disinformation search, methods have been devised to identify sources and ways of disinformation dissemination in cyberspace by searching for similar text chains and analyzing the similarity of writing style. Hybrid vector representation makes it possible to capture surface frequency characteristics of the text and semantic features, which has a positive effect on the quality of classification. Cosine similarity, Jacquard, Levenstein and Word2Vec are used to measure similarity. Clustering (DBSCAN, K-Means) helps group fake messages. Graph analysis detects central accounts and bot networks. Evaluation of the model’s performance by key metrics showed reliable results for identifying sources of disinformation distribution: accuracy – 0.82, F1.3 – 0.8, ROC-AUC – 0.86. The identified differences in lexical patterns for the “fake” and “true” classes confirm the model’s ability to capture the content features of texts. The proposed method for detecting disinformation distribution paths serves as the basis for building scalable systems for monitoring the information space and adapting to other text classification tasks<br />Об’єкт дослідження – процеси виявлення джерел та мереж розповсюдження дезінформації в кіберпросторі світу. Зі зростанням впливу соціальних мереж на громадську думку питання виявлення та нейтралізації пропагандистських повідомлень набуває особливої актуальності. Традиційні методи боротьби з пропагандою як ручна модерація контенту виявилися недостатньо ефективними через великий обсяг інформації, що генерується щодня. Важливим є застосування методів опрацювання природної мови та машинного навчання для аналізу тексту, виявлення джерел розповсюдження дезінформації та неавтентичної поведінки ботів. На основі аналізу існуючих методів інтелектуального пошуку дезінформації розроблено методи виявлення джерел та шляхів розповсюдження дезінформації в кіберпросторі через пошук подібних ланцюгів тексту та аналізу подібності стилю написання. Гібридне векторне подання дозволяє охопити поверхневі частотні характеристики тексту та семантичні особливості, що позитивно позначається на якості класифікації. Косинусова подібність, Жаккар, Левенштейн та Word2Vec використовують для вимірювання подібності. Кластеризація (DBSCAN, K-Means) допомагає групувати фейкові повідомлення. Графовий аналіз виявляє центральні акаунти та бот-мережі. Оцінювання продуктивності моделі за ключовими метриками показало надійні результати для виявлення джерел розповсюдження дезінформації: accuracy – 0.82, F1.3 – 0.8, ROC-AUC – 0.86. Виявлені відмінності у лексичних патернах для класів «фейк» і «правда» підтверджують здатність моделі вловлювати змістовні особливості текстів. Запропонований метод виявлення шляхів розповсюдження дезінформації слугує основою для побудови масштабованих систем моніторингу інформаційного простору та адаптації до інших задач текстової класифікації. |
|---|---|
| ISSN: | 17293774 17294061 |
Nájsť tento článok vo Web of Science