大语言模型赋能科技文献数据挖掘进展分析
[目的/意义]科技文献蕴含丰富的领域知识与科学数据,可为人工智能驱动的科学研究(AI for Science, AI4S)提供高质量数据支撑。本文系统梳理大语言模型(Large Language Models, LLMs)在科技文献数据挖掘中的方法技术、软件工具及应用场景,探讨其研究方向与发展趋势。[方法/过程]本文基于文献调研与归纳总结,在方法技术层面,从文本知识、科学数据与图表信息分析了LLMs驱动的科技文献细粒度数据挖掘关键技术以及综合性知识生成的方法;在软件工具层面,归纳了主流LLMs科技文献数据挖掘与知识生成工具的方法技术、核心功能和适用场景;在应用场景层面,分析了科技文献数据挖掘应...
Uloženo v:
| Vydáno v: | 农业图书情报学报 Ročník 37; číslo 2; s. 4 - 22 |
|---|---|
| Hlavní autoři: | , , |
| Médium: | Journal Article |
| Jazyk: | čínština |
| Vydáno: |
中国农业科学院农业信息研究所
02.05.2025
|
| Témata: | |
| ISSN: | 1002-1248 |
| On-line přístup: | Získat plný text |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
| Abstract | [目的/意义]科技文献蕴含丰富的领域知识与科学数据,可为人工智能驱动的科学研究(AI for Science, AI4S)提供高质量数据支撑。本文系统梳理大语言模型(Large Language Models, LLMs)在科技文献数据挖掘中的方法技术、软件工具及应用场景,探讨其研究方向与发展趋势。[方法/过程]本文基于文献调研与归纳总结,在方法技术层面,从文本知识、科学数据与图表信息分析了LLMs驱动的科技文献细粒度数据挖掘关键技术以及综合性知识生成的方法;在软件工具层面,归纳了主流LLMs科技文献数据挖掘与知识生成工具的方法技术、核心功能和适用场景;在应用场景层面,分析了科技文献数据挖掘应用于LLMs的实践价值。[结果/结论]在方法技术方面,通过动态提示学习框架与领域适配微调等技术,LLMs极大提升科技文献数据挖掘精度与效度;在软件工具方面,已初步形成从数据标注、数据挖掘、合成数据到知识生成的全流程LLMs科技文献数据挖掘工具链;在应用方面,科技文献数据可为LLMs提供专业化语料和高质量数据,LLMs推动科技文献从单维数据服务向多模态知识生成服务的范式演进。然而,当前仍面临领域知识表征深度不足、跨模态推理效率较低、知识生成可解释性欠缺等挑战。未来应着重研发具有可解释性与跨领域适应性的LLMs科技文献数据挖掘工具,集成“人在回路”的协同机制,促进科技文献数据挖掘从效率优化向知识创造转变。 |
|---|---|
| AbstractList | [目的/意义]科技文献蕴含丰富的领域知识与科学数据,可为人工智能驱动的科学研究(AI for Science, AI4S)提供高质量数据支撑。本文系统梳理大语言模型(Large Language Models, LLMs)在科技文献数据挖掘中的方法技术、软件工具及应用场景,探讨其研究方向与发展趋势。[方法/过程]本文基于文献调研与归纳总结,在方法技术层面,从文本知识、科学数据与图表信息分析了LLMs驱动的科技文献细粒度数据挖掘关键技术以及综合性知识生成的方法;在软件工具层面,归纳了主流LLMs科技文献数据挖掘与知识生成工具的方法技术、核心功能和适用场景;在应用场景层面,分析了科技文献数据挖掘应用于LLMs的实践价值。[结果/结论]在方法技术方面,通过动态提示学习框架与领域适配微调等技术,LLMs极大提升科技文献数据挖掘精度与效度;在软件工具方面,已初步形成从数据标注、数据挖掘、合成数据到知识生成的全流程LLMs科技文献数据挖掘工具链;在应用方面,科技文献数据可为LLMs提供专业化语料和高质量数据,LLMs推动科技文献从单维数据服务向多模态知识生成服务的范式演进。然而,当前仍面临领域知识表征深度不足、跨模态推理效率较低、知识生成可解释性欠缺等挑战。未来应着重研发具有可解释性与跨领域适应性的LLMs科技文献数据挖掘工具,集成“人在回路”的协同机制,促进科技文献数据挖掘从效率优化向知识创造转变。 |
| Author | 胡正银 刘春江 蔡祎然 |
| Author_xml | – sequence: 1 fullname: 蔡祎然 organization: 中国科学院成都文献情报中心,成都610299 – sequence: 2 fullname: 胡正银 organization: 中国科学院成都文献情报中心,成都610299 – sequence: 3 fullname: 刘春江 organization: 中国科学院成都文献情报中心,成都610299 |
| BookMark | eNo9j7tKA0EYRqeIkBjzFGK56_xz2eyUJniDoIgJaBVmZ3ZgVdZifICAoGIS0SJBEAKCkDRGLSzFp9nJPoYLitWBrzgfZxmV0vM0RmgNsA9UiHD9xFfpaeIn1qaAMfGAsNAn3MMAQQlV_rcyqlmbRJhDCDjgrIJE9jLN317zWc_NnrNJP__s55dfi-mDu-258fViMHejdzecu8HY3T3m30_Zxyi7uXKT-xW0ZOSZjWt_rKLO1ma7ueO19rd3mxstTxW3F14gtJH1KOSGxyqShkjOuIyViBhVlEoFjIKqG2YiMFprQgOtBJHMFGFYa1pFq79eJa3tptbq7t5x-_CgcdQgmPAiDWOgP4V0YIE |
| ContentType | Journal Article |
| DBID | NSCOK |
| DOI | 10.13998/j.cnki.issn1002-1248.25-0116 |
| DatabaseName | 国家哲学社会科学文献中心 |
| DatabaseTitleList | |
| DeliveryMethod | fulltext_linktorsrc |
| EndPage | 22 |
| ExternalDocumentID | NYTSQBXB2025002001 |
| GroupedDBID | -0Y 7X2 92D 92I ABJNI ABUWG ACGFS AEUYN AFFHD AFKRA ALMA_UNASSIGNED_HOLDINGS ALSLI ATCPS BENPR BHPHI CCEZO CCPQU CNYFK CUBFJ CW9 DWQXO GROUPED_DOAJ HCIFZ M0K M1O NSCOK PHGZM PHGZT PIMPY PRQQA |
| ID | FETCH-LOGICAL-c100t-69dfa7b85f5ecbaf2a545aec9b43c33ac1431c7f4fb1fddd236dc92a4f9980dd3 |
| ISSN | 1002-1248 |
| IngestDate | Wed Nov 26 08:45:46 EST 2025 |
| IsDoiOpenAccess | true |
| IsOpenAccess | true |
| IsPeerReviewed | true |
| IsScholarly | true |
| Issue | 2 |
| Keywords | 数据驱动 AI4S 大语言模型 科技文献数据挖掘 知识发现 |
| Language | Chinese |
| LinkModel | OpenURL |
| MergedId | FETCHMERGED-LOGICAL-c100t-69dfa7b85f5ecbaf2a545aec9b43c33ac1431c7f4fb1fddd236dc92a4f9980dd3 |
| OpenAccessLink | http://dx.doi.org/10.13998/j.cnki.issn1002-1248.25-0116 |
| PageCount | 19 |
| ParticipantIDs | cass_nssd_NYTSQBXB2025002001 |
| PublicationCentury | 2000 |
| PublicationDate | 5/2/2025 |
| PublicationDateYYYYMMDD | 2025-05-02 |
| PublicationDate_xml | – month: 05 year: 2025 text: 5/2/2025 day: 02 |
| PublicationDecade | 2020 |
| PublicationTitle | 农业图书情报学报 |
| PublicationYear | 2025 |
| Publisher | 中国农业科学院农业信息研究所 |
| Publisher_xml | – name: 中国农业科学院农业信息研究所 |
| SSID | ssib051810654 ssib001102652 ssib023646129 ssib046786149 ssj0001811708 ssib051370036 ssib036275894 ssib042363015 |
| Score | 2.4219878 |
| Snippet | [目的/意义]科技文献蕴含丰富的领域知识与科学数据,可为人工智能驱动的科学研究(AI for Science, AI4S)提供高质量数据支撑。本文系统梳理大语言模型(Large Language... |
| SourceID | cass |
| SourceType | Aggregation Database |
| StartPage | 4 |
| Title | 大语言模型赋能科技文献数据挖掘进展分析 |
| URI | https://www.ncpssd.cn/Literature/articleinfo?id=NYTSQBXB2025002001&type=eJournalArticle&typename=中文期刊文章&nav=1&langType=1&pageUrl=https%253A%252F%252Fwww.ncpssd.org%252Fjournal%252Fdetails%253Fgch%253D211192%2526nav%253D1%2526langType%253D2 |
| Volume | 37 |
| hasFullText | 1 |
| inHoldings | 1 |
| isFullTextHit | |
| isPrint | |
| journalDatabaseRights | – providerCode: PRVAON databaseName: Directory of Open Access Journals issn: 1002-1248 databaseCode: DOA dateStart: 20130101 customDbUrl: isFulltext: true dateEnd: 99991231 titleUrlDefault: https://www.doaj.org/ omitProxy: false ssIdentifier: ssj0001811708 providerName: Directory of Open Access Journals – providerCode: PRVPQU databaseName: Agricultural Science Database issn: 1002-1248 databaseCode: M0K dateStart: 20160101 customDbUrl: isFulltext: true dateEnd: 99991231 titleUrlDefault: https://search.proquest.com/agriculturejournals omitProxy: false ssIdentifier: ssj0001811708 providerName: ProQuest – providerCode: PRVPQU databaseName: Library Science Database issn: 1002-1248 databaseCode: M1O dateStart: 20160101 customDbUrl: isFulltext: true dateEnd: 99991231 titleUrlDefault: https://search.proquest.com/libraryscience omitProxy: false ssIdentifier: ssj0001811708 providerName: ProQuest – providerCode: PRVPQU databaseName: ProQuest Central issn: 1002-1248 databaseCode: BENPR dateStart: 20160101 customDbUrl: isFulltext: true dateEnd: 99991231 titleUrlDefault: https://www.proquest.com/central omitProxy: false ssIdentifier: ssj0001811708 providerName: ProQuest – providerCode: PRVPQU databaseName: Publicly Available Content Database issn: 1002-1248 databaseCode: PIMPY dateStart: 20160101 customDbUrl: isFulltext: true dateEnd: 99991231 titleUrlDefault: http://search.proquest.com/publiccontent omitProxy: false ssIdentifier: ssj0001811708 providerName: ProQuest |
| link | http://cvtisr.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwtV3Na9VAEF9qK-JFFBU_aunBPUbzsZvdPW7aPPRgqVihPZVkk2BRntLWUjwVBJW2ih5aBKEgCO3FqgeP4l_z0vdnOLPJey_aUvTgJczbmczMbyd5M7tkdwm5bnJTMMFSR_k5cyDfSifN_dzhXLBMuFIUYWIPmxBTU3J2Vk0PnVjvrYVZeSTabbm6qp7811BDGwQbl87-Q7j7SqEBaAg6XCHscP2rwNOYU82oFjSWVLeonrSExG8a4hAJ7aGMiqmMkBXxmpABjUBY4L3KQ2Gp67sU0AJZcoLq2LZwGlmWnKxbgAViSMRUSau5RVWEtiIP5YGQYMXKgPXqAM9eZWy50D5BY0YjSZW2TkY0im2LorpSHlDJa9-01QkAaxa29J4gtK-YxSpQEJxC90FT2BQBddpCRS0BjRVVwW8i1meEE-JVW9MIp9WcL_G5_TpxMLquQWDfVyAmj8LX7-k-CDAPQP2jhBl2Z-Wr9DCweLuLGJFQ4LRlKVqdWVVnmupUmWqb0V4qqva_qV85v5FXWKNAqdZxH0p9UGlKm_tM--GCtdE3cQN7wfP-2HLcFjFTczP37kazEfYUDh1wKeSIL7iSw2Rk-vad6blBcQ21aMj7xTCePBA2ivUA97uWg393qNPDoFFsQkaWUAv25bkXCNwNafBbem5vcz87Q4proN1qLWsN5BShPag3jwMK9ZWBsWejUpw5S87UQ7xxXb2a58jQswfniep82u1--dzdWyv3PnZ2NrrfN7rPfxzsvivX18rtlweb--XW1_L1frm5Xb553_35ofNtq_PqRbnz9gK534pnJm459bEljgFHlp1QZUUiUskLnps0KfwERilJblTKAhMEiYEhimdEwYrUK7Isg37KjPITVgAsN8uCi2S4_bidXyLjmceKIg9Z6qc-y12WhKnvitSkaZawjKeXySjinG8vLWXzh0N55Xj2VXJ68IKMkuHlxaf5NXLSrCwvLC2O2dmpsfoh-AWu1pzh |
| linkProvider | ProQuest |
| openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E8%B5%8B%E8%83%BD%E7%A7%91%E6%8A%80%E6%96%87%E7%8C%AE%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E8%BF%9B%E5%B1%95%E5%88%86%E6%9E%90&rft.jtitle=%E5%86%9C%E4%B8%9A%E5%9B%BE%E4%B9%A6%E6%83%85%E6%8A%A5%E5%AD%A6%E6%8A%A5&rft.au=%E8%94%A1%E7%A5%8E%E7%84%B6&rft.au=%E8%83%A1%E6%AD%A3%E9%93%B6&rft.au=%E5%88%98%E6%98%A5%E6%B1%9F&rft.date=2025-05-02&rft.pub=%E4%B8%AD%E5%9B%BD%E5%86%9C%E4%B8%9A%E7%A7%91%E5%AD%A6%E9%99%A2%E5%86%9C%E4%B8%9A%E4%BF%A1%E6%81%AF%E7%A0%94%E7%A9%B6%E6%89%80&rft.issn=1002-1248&rft.volume=37&rft.issue=2&rft.spage=4&rft.epage=22&rft_id=info:doi/10.13998%2Fj.cnki.issn1002-1248.25-0116&rft.externalDocID=NYTSQBXB2025002001 |
| thumbnail_l | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1002-1248&client=summon |
| thumbnail_m | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1002-1248&client=summon |
| thumbnail_s | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1002-1248&client=summon |