基于 XML的搜索引擎研究

in 程序开发
1.引言
当今,互联网已成为人类有史以来资源最多、品种最全、规模最大的信息库。作为网上发挥着非常重要的作用。传统的搜索引擎大都是基于最主要的信息检索工具,搜索引擎HTML的搜索引擎,HTML重显示而非内容的特点大大限制了搜索引擎的查准率,传统搜索引擎的查准率有待提高。现在越来越多的文档开始用XML语言来描述、存储和交换。XML的标记含义丰富、意义明确,能明白的提示所标记的内容,搜索引擎可以依靠标记和内容之间的依存关系,准确定位、找到目标,从而大大减小搜索范围,提高检索精度。目前基于XML的搜索引擎有两种信息检索单位:第一种是以文档为检索单位,第二种是以文档中被标注的元素为检索单位。其中第二种把XML文档库看作是半结构化文档的数据库,并使用了相应的数据库风格的查询语言。目前基于XML的搜索引擎研究是一个较新的课题。
0 Comments