面向XML文档的二级索引技术及其在XML关键词检索中的应用研究 ; Two-Layer Based Index Strategy for XML Data and Its Usage in XML Keyword Retrieval
Uloženo v:
| Název: | 面向XML文档的二级索引技术及其在XML关键词检索中的应用研究 ; Two-Layer Based Index Strategy for XML Data and Its Usage in XML Keyword Retrieval |
|---|---|
| Autoři: | 向永清, 邓志鸿, 于航, 高宁 |
| Přispěvatelé: | 北京大学信息科学技术学院机器感知与智能教育部重点实验室,北京,100871 |
| Zdroj: | 万方 ; http://d.g.wanfangdata.com.cn/Periodical_jsjyjyfz2009z2120.aspx |
| Informace o vydavateli: | 计算机研究与发展 |
| Rok vydání: | 2009 |
| Sbírka: | Peking University Institutional Repository (PKU IR) / 北京大学机构知识库 |
| Témata: | XML 二级索引 关键词 检索 SLCA 栈算法 XML two-layer index keyword retrieval SLCA stack algorithm |
| Popis: | 随着互联网上XML文档的大量增加,如何高效地索引、存储和检索这些XML数据成为一个非常值得深入研究的课题.目前,在XML关键词检索方面,主流的检索系统都是建立在一级索引的基础上.一级索引存在两个明显的缺点:1)索引的冗余度比较高;2)索引的可扩展性和灵活性较差.通过结合传统倒排索引和基于杜威编码的XML节点索引的优点,提出面向XML文档的二级索引模型,并把该模型应用于求解XML关键词检索中的SLCA,实现了基于二级索引的求解SLCA的栈算法.实验表明,二级索引模型能够节省约30%的空间开销,在时间效率方面,基于二级索引的栈算法在效率上比基于一级索引的栈算法要高1个数量级左右,并且随着关键词数目的增加,这种效率优势会越加明显. ; 国家八六三高技术研究发展计划基金; 国家自然科学基金 ; 中文核心期刊要目总览(PKU) ; 中国科技核心期刊(ISTIC) ; 中国科学引文数据库(CSCD) ; 0 ; z2 ; 748-755 ; 46 |
| Druh dokumentu: | journal/newspaper |
| Jazyk: | Chinese |
| Relation: | 1193166; http://hdl.handle.net/20.500.11897/278870 |
| Dostupnost: | https://hdl.handle.net/20.500.11897/278870 |
| Přístupové číslo: | edsbas.CEE9076 |
| Databáze: | BASE |
| Abstrakt: | 随着互联网上XML文档的大量增加,如何高效地索引、存储和检索这些XML数据成为一个非常值得深入研究的课题.目前,在XML关键词检索方面,主流的检索系统都是建立在一级索引的基础上.一级索引存在两个明显的缺点:1)索引的冗余度比较高;2)索引的可扩展性和灵活性较差.通过结合传统倒排索引和基于杜威编码的XML节点索引的优点,提出面向XML文档的二级索引模型,并把该模型应用于求解XML关键词检索中的SLCA,实现了基于二级索引的求解SLCA的栈算法.实验表明,二级索引模型能够节省约30%的空间开销,在时间效率方面,基于二级索引的栈算法在效率上比基于一级索引的栈算法要高1个数量级左右,并且随着关键词数目的增加,这种效率优势会越加明显. ; 国家八六三高技术研究发展计划基金; 国家自然科学基金 ; 中文核心期刊要目总览(PKU) ; 中国科技核心期刊(ISTIC) ; 中国科学引文数据库(CSCD) ; 0 ; z2 ; 748-755 ; 46 |
|---|
Nájsť tento článok vo Web of Science