大语言模型赋能科技文献数据挖掘进展分析
[目的/意义]科技文献蕴含丰富的领域知识与科学数据,可为人工智能驱动的科学研究(AI for Science, AI4S)提供高质量数据支撑。本文系统梳理大语言模型(Large Language Models, LLMs)在科技文献数据挖掘中的方法技术、软件工具及应用场景,探讨其研究方向与发展趋势。[方法/过程]本文基于文献调研与归纳总结,在方法技术层面,从文本知识、科学数据与图表信息分析了LLMs驱动的科技文献细粒度数据挖掘关键技术以及综合性知识生成的方法;在软件工具层面,归纳了主流LLMs科技文献数据挖掘与知识生成工具的方法技术、核心功能和适用场景;在应用场景层面,分析了科技文献数据挖掘应...
Saved in:
| Published in: | 农业图书情报学报 Vol. 37; no. 2; pp. 4 - 22 |
|---|---|
| Main Authors: | , , |
| Format: | Journal Article |
| Language: | Chinese |
| Published: |
中国农业科学院农业信息研究所
02.05.2025
|
| Subjects: | |
| ISSN: | 1002-1248 |
| Online Access: | Get full text |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Summary: | [目的/意义]科技文献蕴含丰富的领域知识与科学数据,可为人工智能驱动的科学研究(AI for Science, AI4S)提供高质量数据支撑。本文系统梳理大语言模型(Large Language Models, LLMs)在科技文献数据挖掘中的方法技术、软件工具及应用场景,探讨其研究方向与发展趋势。[方法/过程]本文基于文献调研与归纳总结,在方法技术层面,从文本知识、科学数据与图表信息分析了LLMs驱动的科技文献细粒度数据挖掘关键技术以及综合性知识生成的方法;在软件工具层面,归纳了主流LLMs科技文献数据挖掘与知识生成工具的方法技术、核心功能和适用场景;在应用场景层面,分析了科技文献数据挖掘应用于LLMs的实践价值。[结果/结论]在方法技术方面,通过动态提示学习框架与领域适配微调等技术,LLMs极大提升科技文献数据挖掘精度与效度;在软件工具方面,已初步形成从数据标注、数据挖掘、合成数据到知识生成的全流程LLMs科技文献数据挖掘工具链;在应用方面,科技文献数据可为LLMs提供专业化语料和高质量数据,LLMs推动科技文献从单维数据服务向多模态知识生成服务的范式演进。然而,当前仍面临领域知识表征深度不足、跨模态推理效率较低、知识生成可解释性欠缺等挑战。未来应着重研发具有可解释性与跨领域适应性的LLMs科技文献数据挖掘工具,集成“人在回路”的协同机制,促进科技文献数据挖掘从效率优化向知识创造转变。 |
|---|---|
| ISSN: | 1002-1248 |
| DOI: | 10.13998/j.cnki.issn1002-1248.25-0116 |