Метод интеграции больших языковых моделей в алгоритмы фокусированного мониторинга открытых данных социальных медиа
Uloženo v:
| Název: | Метод интеграции больших языковых моделей в алгоритмы фокусированного мониторинга открытых данных социальных медиа |
|---|---|
| Autoři: | Andrey Fedorov, Igor Datyev, Ivan Vishnyakov |
| Zdroj: | Информатика и автоматизация, Vol 24, Iss 6, Pp 1623-1648 (2025) |
| Informace o vydavateli: | Russian Academy of Sciences, St. Petersburg Federal Research Center, 2025. |
| Rok vydání: | 2025 |
| Sbírka: | LCC:Electronic computers. Computer science |
| Témata: | социальные медиа, публикации, обобщение, большие языковые модели, генерация дополненная поиском, интеллектуальные агенты, гибридный метод, Electronic computers. Computer science, QA75.5-76.95 |
| Popis: | Актуальность исследования определяется важностью и сложностью выполнения оперативных обобщений постоянно возрастающего массива пользовательских сообщений в социальных сетях. Предлагается уменьшить сложность решаемой задачи за счет использования роботизированных алгоритмов и их автоматизированной интеллектуальной фокусировки на целевые платформы, доступность данных и их объемы. Рассматривается способность больших языковых моделей (LLMs) генерировать высококачественные, связные и контекстно-зависимые аннотации (рефераты), подходящие для динамической природы неструктурированных, «зашумленных» данных социальных сетей. Представлены особенности технологии RAG LLM при реферировании публикаций социальных сетей. Основным недостатком языковых моделей является нестабильность и сложность прослеживания результатов для подтверждения фактической точности. Авторами предложен гибридный метод для обобщения сообщений в социальных сетях за определенный период времени. Метод заключается в комплексном и вариативном сочетании классических способов извлечений данных из их хранилищ, а также реферативных и генеративных возможностей больших языковых моделей. Большие языковые модели использованы для векторизации анализируемых данных. Применение алгоритмов кластеризации к полученным векторным представлениям позволило повысить стабильность и качество результатов. В рамках технологии RAG возможности больших языковых моделей расширены средствами интеллектуального поиска в используемой для хранения исходных данных базе MongoDB. В работе представлены три конвейера, каждый из которых является вариантом реализации метода и обладает преимуществами и недостатками в различных условиях применения. Приведены используемые для оценки конвейеров метрики и произведен сравнительный анализ. В целом, метод позволяет уменьшить конфабуляции большой языковой модели и получать обобщения публикаций за разные временные периоды в режиме реального времени. Предложенный метод применяется на практике в разработанной авторами системе мониторинга открытых данных социальных медиа. |
| Druh dokumentu: | article |
| Popis souboru: | electronic resource |
| Jazyk: | English Russian |
| ISSN: | 2713-3192 2713-3206 |
| Relation: | https://ia.spcras.ru/index.php/sp/article/view/17252; https://doaj.org/toc/2713-3192; https://doaj.org/toc/2713-3206 |
| DOI: | 10.15622/ia.24.6.4 |
| Přístupová URL adresa: | https://doaj.org/article/4db067acbeda4c16bcca81fa8a2a016c |
| Přístupové číslo: | edsdoj.4db067acbeda4c16bcca81fa8a2a016c |
| Databáze: | Directory of Open Access Journals |
| Abstrakt: | Актуальность исследования определяется важностью и сложностью выполнения оперативных обобщений постоянно возрастающего массива пользовательских сообщений в социальных сетях. Предлагается уменьшить сложность решаемой задачи за счет использования роботизированных алгоритмов и их автоматизированной интеллектуальной фокусировки на целевые платформы, доступность данных и их объемы. Рассматривается способность больших языковых моделей (LLMs) генерировать высококачественные, связные и контекстно-зависимые аннотации (рефераты), подходящие для динамической природы неструктурированных, «зашумленных» данных социальных сетей. Представлены особенности технологии RAG LLM при реферировании публикаций социальных сетей. Основным недостатком языковых моделей является нестабильность и сложность прослеживания результатов для подтверждения фактической точности. Авторами предложен гибридный метод для обобщения сообщений в социальных сетях за определенный период времени. Метод заключается в комплексном и вариативном сочетании классических способов извлечений данных из их хранилищ, а также реферативных и генеративных возможностей больших языковых моделей. Большие языковые модели использованы для векторизации анализируемых данных. Применение алгоритмов кластеризации к полученным векторным представлениям позволило повысить стабильность и качество результатов. В рамках технологии RAG возможности больших языковых моделей расширены средствами интеллектуального поиска в используемой для хранения исходных данных базе MongoDB. В работе представлены три конвейера, каждый из которых является вариантом реализации метода и обладает преимуществами и недостатками в различных условиях применения. Приведены используемые для оценки конвейеров метрики и произведен сравнительный анализ. В целом, метод позволяет уменьшить конфабуляции большой языковой модели и получать обобщения публикаций за разные временные периоды в режиме реального времени. Предложенный метод применяется на практике в разработанной авторами системе мониторинга открытых данных социальных медиа. |
|---|---|
| ISSN: | 27133192 27133206 |
| DOI: | 10.15622/ia.24.6.4 |
Full Text Finder
Nájsť tento článok vo Web of Science