Development of a rag system to derive requirements from regulation

Uložené v:
Podrobná bibliografia
Názov: Development of a rag system to derive requirements from regulation
Autori: Arellana Daleman, Juan Nicolás
Prispievatelia: Perera Lluna, Alexandre
Informácie o vydavateľovi: Universitat Politècnica de Catalunya, 2025.
Rok vydania: 2025
Predmety: Àrees temàtiques de la UPC::Matemàtiques i estadística, Neural Networks, Public health laws, Retrieval augmented generation, RAG, Salut pública -- Dret i legislació, RAGAS, Classificació AMS::68 Computer science::68T Artificial intelligence, Classificació AMS::68 Computer science::68Q Theory of computing, Natural language processing (Computer science), Machine learning, Aprenentatge automàtic, Tractament del llenguatge natural (Informàtica), Regulatory documentation
Popis: Els marcs regulatoris, com els establerts per la FDA (Administració d'Aliments i Medicaments dels Estats Units) i el MDR (Reglament sobre Dispositius Mèdics) a la Unió Europea, imposen requisits específics i complexos a les empreses que operen en sectors altament regulats. Navegar per aquestes normatives i garantir-ne el compliment en múltiples jurisdiccions presenta desafiaments considerables, sovint requerint comparacions manuals laborioses i una alineació detallada de clàusules reguladores. Aquesta tesi investiga l’ús de models de Generació Augmentada amb Recuperació (RAG, per les seves sigles en anglès) per donar suport a l’harmonització de marcs regulatoris. Els models RAG combinen enfocaments basats en la recuperació d’informació amb models de llenguatge generatiu per identificar, extreure i adaptar clàusules d’un corpus normatiu a un altre. El sistema proposat integra la cerca semàntica i tècniques de processament del llenguatge natural (PLN) per automatitzar l’alineació dels requisits reguladors, reduint significativament l’esforç manual i incrementant l’eficiència operativa. De manera crucial, aquest treball introdueix un mecanisme automatitzat per avaluar la qualitat i la precisió de les correspondències entre clàusules, permetent una mesura objectiva del rendiment del sistema. La recerca culmina amb un prototip com a prova de concepte que demostra la viabilitat dels models RAG per automatitzar aspectes del compliment normatiu. Aquesta contribució s’insereix en el domini més ampli de l’automatització legal i del compliment regulador impulsats per la intel·ligència artificial, oferint noves perspectives sobre les capacitats dels models de llenguatge de grans dimensions (LLMs) en l’anàlisi reguladora complexa.
Marcos regulatorios como los establecidos por la FDA (Administración de Alimentos y Medicamentos de EE. UU.) y el MDR (Reglamento de Dispositivos Médicos) en la Unión Europea imponen requisitos distintos y complejos a las empresas que operan en sectores altamente regulados. Navegar y garantizar el cumplimiento en múltiples jurisdicciones presenta desafíos considerables, que a menudo requieren comparaciones manuales laboriosas y una alineación detallada de cláusulas regulatorias. Esta tesis investiga el uso de modelos de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) para apoyar la armonización de marcos regulatorios. Los modelos RAG combinan enfoques basados en recuperación de información con modelos de lenguaje generativo para identificar, extraer y adaptar cláusulas de un corpus normativo a otro. El sistema propuesto integra búsqueda semántica y técnicas de procesamiento del lenguaje natural (PLN) para automatizar la alineación de requisitos regulatorios, lo que reduce significativamente el esfuerzo manual e incrementa la eficiencia operativa. De manera certera, este trabajo introduce un mecanismo automatizado para evaluar la calidad y precisión de las correspondencias entre cláusulas, lo que permite una medición objetiva del rendimiento del sistema. La investigación culmina en un prototipo como prueba de concepto que demuestra la viabilidad de los modelos RAG para automatizar aspectos del cumplimiento normativo. Esto contribuye al ámbito más amplio de la automatización legal y de cumplimiento impulsada por inteligencia artificial, ofreciendo nuevas perspectivas sobre las capacidades de los modelos de lenguaje de gran escala (LLMs) en el análisis regulatorio complejo.
Regulatory frameworks such as those established by the FDA (U.S. Food and Drug Administration) and the MDR (Medical Device Regulation) in the European Union impose distinct and complex requirements on companies operating in highly regulated sectors. Navigating and ensuring compliance across multiple jurisdictions presents considerable challenges, often requiring labor-intensive, manual comparisons and alignment of regulatory clauses. This thesis investigates the use of Retrieval-Augmented Generation(RAG) models to support the harmonization of regulatory frameworks. RAG models combine retrieval-based approaches with generative language models to identify, extract, and adapt clauses from one regulatory corpus to another. The proposed system integrates semantic search and natural language processing (NLP) techniques to automate the alignment of regulatory requirements, significantly reducing manual effort and increasing operational efficiency. Crucially, this work introduces an automated mechanism for evaluating the quality and accuracy of the clause mappings, enabling objective measurement of the system’s performance. The research culminates in a proof-of concept prototype demonstrating the viability of RAG models for automating aspects of regulatory compliance. This contributes to the broader domain of AI-driven legal and compliance automation, offering new insights into the capabilities of large language models (LLMs) in complex regulatory analysis.
Druh dokumentu: Master thesis
Popis súboru: application/pdf
Jazyk: English
Prístupová URL adresa: https://hdl.handle.net/2117/433777
Rights: CC BY
Prístupové číslo: edsair.od......3484..dfda6aa7f3d3f94b38c88138046fdf9a
Databáza: OpenAIRE
Popis
Abstrakt:Els marcs regulatoris, com els establerts per la FDA (Administració d'Aliments i Medicaments dels Estats Units) i el MDR (Reglament sobre Dispositius Mèdics) a la Unió Europea, imposen requisits específics i complexos a les empreses que operen en sectors altament regulats. Navegar per aquestes normatives i garantir-ne el compliment en múltiples jurisdiccions presenta desafiaments considerables, sovint requerint comparacions manuals laborioses i una alineació detallada de clàusules reguladores. Aquesta tesi investiga l’ús de models de Generació Augmentada amb Recuperació (RAG, per les seves sigles en anglès) per donar suport a l’harmonització de marcs regulatoris. Els models RAG combinen enfocaments basats en la recuperació d’informació amb models de llenguatge generatiu per identificar, extreure i adaptar clàusules d’un corpus normatiu a un altre. El sistema proposat integra la cerca semàntica i tècniques de processament del llenguatge natural (PLN) per automatitzar l’alineació dels requisits reguladors, reduint significativament l’esforç manual i incrementant l’eficiència operativa. De manera crucial, aquest treball introdueix un mecanisme automatitzat per avaluar la qualitat i la precisió de les correspondències entre clàusules, permetent una mesura objectiva del rendiment del sistema. La recerca culmina amb un prototip com a prova de concepte que demostra la viabilitat dels models RAG per automatitzar aspectes del compliment normatiu. Aquesta contribució s’insereix en el domini més ampli de l’automatització legal i del compliment regulador impulsats per la intel·ligència artificial, oferint noves perspectives sobre les capacitats dels models de llenguatge de grans dimensions (LLMs) en l’anàlisi reguladora complexa.<br />Marcos regulatorios como los establecidos por la FDA (Administración de Alimentos y Medicamentos de EE. UU.) y el MDR (Reglamento de Dispositivos Médicos) en la Unión Europea imponen requisitos distintos y complejos a las empresas que operan en sectores altamente regulados. Navegar y garantizar el cumplimiento en múltiples jurisdicciones presenta desafíos considerables, que a menudo requieren comparaciones manuales laboriosas y una alineación detallada de cláusulas regulatorias. Esta tesis investiga el uso de modelos de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) para apoyar la armonización de marcos regulatorios. Los modelos RAG combinan enfoques basados en recuperación de información con modelos de lenguaje generativo para identificar, extraer y adaptar cláusulas de un corpus normativo a otro. El sistema propuesto integra búsqueda semántica y técnicas de procesamiento del lenguaje natural (PLN) para automatizar la alineación de requisitos regulatorios, lo que reduce significativamente el esfuerzo manual e incrementa la eficiencia operativa. De manera certera, este trabajo introduce un mecanismo automatizado para evaluar la calidad y precisión de las correspondencias entre cláusulas, lo que permite una medición objetiva del rendimiento del sistema. La investigación culmina en un prototipo como prueba de concepto que demuestra la viabilidad de los modelos RAG para automatizar aspectos del cumplimiento normativo. Esto contribuye al ámbito más amplio de la automatización legal y de cumplimiento impulsada por inteligencia artificial, ofreciendo nuevas perspectivas sobre las capacidades de los modelos de lenguaje de gran escala (LLMs) en el análisis regulatorio complejo.<br />Regulatory frameworks such as those established by the FDA (U.S. Food and Drug Administration) and the MDR (Medical Device Regulation) in the European Union impose distinct and complex requirements on companies operating in highly regulated sectors. Navigating and ensuring compliance across multiple jurisdictions presents considerable challenges, often requiring labor-intensive, manual comparisons and alignment of regulatory clauses. This thesis investigates the use of Retrieval-Augmented Generation(RAG) models to support the harmonization of regulatory frameworks. RAG models combine retrieval-based approaches with generative language models to identify, extract, and adapt clauses from one regulatory corpus to another. The proposed system integrates semantic search and natural language processing (NLP) techniques to automate the alignment of regulatory requirements, significantly reducing manual effort and increasing operational efficiency. Crucially, this work introduces an automated mechanism for evaluating the quality and accuracy of the clause mappings, enabling objective measurement of the system’s performance. The research culminates in a proof-of concept prototype demonstrating the viability of RAG models for automating aspects of regulatory compliance. This contributes to the broader domain of AI-driven legal and compliance automation, offering new insights into the capabilities of large language models (LLMs) in complex regulatory analysis.