Web数据挖掘与个性化搜索引擎综述

    xiaoxiao2021-12-12  2

          搜索引擎已成为人们最普遍使用的信息检索的工具 。该工具涉及到信息检索 、数据库、数据挖掘、人工智能 、分布式处理、自然语言处理等多个领域的理论和技术 ,因而具有综合性和挑战性 。

         根据 Web挖掘的对象不同 , Web数据挖掘分为:Web内容挖掘 , Web结构挖掘和 Web使用记录挖掘。

         Web内容挖掘是从文档内容或其描述中抽取有趣知识的一种过程,是一种基于网页内容元素对象的Web挖掘 。这些元素对象既有文本和超文本数据,也有图形、图像等多媒体数据;既有来自于数据库的结构化数据 , 也有用 HTML或 XML标记的半结构化数据和无结构的自由文本 .

         Web结构挖掘是从网页的超级链接中发现其结构及其相互关系 。通过找到隐藏在一个个页面之后的链接结构模型, 就可以利用这个模型对 Web页面重新分类,也可以用于寻找相似的网站。基于超级链接的拓扑结构, Web结构挖掘可以进行网页分类, 总结网页和网站的结构, 生成诸如网站间相似性、网站间关系的信息.

         Web使用记录挖掘是从用户“访问痕迹 ”中获取有价值的信息 ,是对 Web上日志数据及相关数据的挖掘。

         现代社会互联网上的信息呈现爆炸式增长趋势,为了从互联网上获得信息 ,用户通常使用搜索引擎这个网络信息检索工具 。用户在使用搜索引擎的时候,总是向它发送一些关键词。搜索引擎根据这些关键词在数据库中进行匹配,然后返回相关网址。在这种情况下会存在下列弊端:     (1)命中率低:搜索引擎仅仅对用户输人的关键词进行匹配, 这样会返回一大堆 URL。而在这些URL指向的网页中并不一定包含用户感兴趣的信息 。

        (2)成本高 :用户在人工过滤网页中信息的时候 ,要花费大量的时间和精力, 同时还需要支付高额的网络使用费用 。

        (3)查询结果显示顺序比较混乱 ,有效性差。另外 ,在查询方式、个性化服务 、查全率和自然语言理解等方面都存在一些有待解决的问题。

          目前,中文个性化搜索引擎的开发已越来越引起了国人的注意,也吸引了越来越多的有识之士加人其中 ,虽然现在已经有了一定的基础 , 但它距离成为一个成熟的产品,道路还很漫长。搜索引擎的个性化服务使搜索引擎能够分析检索者的浏览行为来学习检索者的需求 ,利用搜索引擎的现有服务 ,有选择地为用户提供个性化服务 ,达到向用户推送他们真正感兴趣的信息。

          Web数据挖掘为搜索引擎的个性化服务提供了依据。搜索引擎一般由搜索器 、索引器、检索器和用户接口四个部分组成,Web数据挖掘是从大量的、不完全的、有噪声的 、模糊的 、随机的 Web内容中识别新颖的、有用的以及可理解的知识的过程 。在 Web内容挖掘中, 由于 Web文档中与搜索主题相关度低的关键字会带来不相关的检索信息, 因此 ,先采用粗糙集方法简化与搜索主题无关的属性 (关键字),以减少搜索空间, 提高搜索效率 ,然后利用关联规则挖掘方法对 Web内容进行分析 ,挖掘出有价值的知识。可以通过以下两种方式来实现从服务器端获取用户的相关信息:一般的访问模式挖掘和个性化的使用记录挖掘 。一般的访问模式挖掘通过分析用户使用记录来了解用户的访问模式和倾向;个性化的使用记录挖掘则倾向于分析单个用户的偏好 ,其目的是根据不同用户的访问模式, 为每个用户提供定制的站点。这种方法经常在一些大型的门户网站上被使用,用于跟踪不同用户的浏览习惯 ,以进行用户感兴趣的网页内容调查和生成不同编排内容的个性化浏览页面 。

         对用户数据的挖掘主要有两方面的内容 :一是如何提取用户的信息需求;二是获得用户需求的数据后, 如何利用数据挖掘技术对这些数据进行处理,以获取潜在知识及为用户所用。提取用户的信息需求, 可以通过由用户主动填写 、提供来获取用户的兴趣信息 。利用此方法来获取用户兴趣信息的方式主要有三种:(1)用户将自己感兴趣的信息或在线文档分类后提供给系统,系统从这些文档或信息中发现用户的兴趣。(2)用户提供自己的研究方向和其他阅读爱好等信息 ,系统从这些信息中发现用户的兴趣。实现此目标的一种常用方法就是让用户回答一些问题 。(3)用户对系统检索到的信息结果进行评价打分 ,系统通过用户反馈信息来更新用户的兴趣数据描述 。

    转载请注明原文地址: https://ju.6miu.com/read-900123.html

    最新回复(0)