1.8 数据挖掘系统与 数据库 系统或数据仓库系统的集成 1.2节勾画了典型的数据挖掘系统结构的主要成分(见图1-5),
1.8 数据挖掘系统与数据库系统或数据仓库系统的集成数据库
。一个好的系统结构将有利于数据挖掘系统更好地利用软件环境,有效、及时地完成数据挖掘任务,与其他信息系统协同和交换信息,适应用户的种种1.8 数据挖掘系统与数据库系统或数据仓库系统的集成
1.2节勾画了典型的数据挖掘系统结构的主要成分(见图1-5)。一个好的系统结构将有利于数据挖掘系统更好地利用软件环境,有效、及时地完成数据挖掘任务,与其他信息系统协同和交换信息,适应用户的种种需求,并随时间进化。
数据挖掘(DM)系统设计的一个关键问题是如何将DM系统与数据库(DB)系统和/或数据仓库(DW)系统集成或耦合。如果DM系统作为一个孤立的系统或嵌入应用程序中,则不存在DB或DW系统与它通信。这种简单的方案称为不耦合,其中DM设计所关注的主要问题停留在开发挖掘可用数据集的有效算法。然而,当DM系统工作在一个需要与其他信息系统成分(如DB和DW系统)通信的环境下,可能的集成方案包括不耦合、松散耦合、半紧密耦合和紧密耦合。我们逐一考察这些方案如下:
. 不耦合(no coupling):不耦合意味着DM系统不利用DB或DW系统的任何功能。它可能由特定的数据源(如文件系统)提取数据,使用某些数据挖掘算法处理数据,然后再将挖掘结果存放到另一个文件中。
尽管这种系统简单,但有不少缺点。首先,DB系统在存储、组织、访问和处理数据方面提供了很大的灵活性和有效性。不使用DB/DW系统,DM系统可能要花大量的时间查找、收集、清理和变换数据。在DB和/或DW系统中,数据多半被很好地组织、索引、清理、集成或统一,使得找出任务相关的、高质量的数据成为一项容易的任务。其次,有许多经过测试的、可伸缩的算法和数据结构在DB或DW系统中得到实现。使用这种系统开发有效的、可伸缩的实现是可行的。
此外,大部分数据已经或将要存放在DB/DW系统中。要是没有任何这样的系统耦合,DM系统就需要使用其他工具提取数据,使得很难将这种系统集成到信息处理环境中。因此,不耦合是一种很糟糕的设计。
. 松散耦合(loose coupling):松散耦合意味着DM系统将使用DB或DW系统的某些设施,从这些系统管理的数据库中提取数据,进行数据挖掘,然后将挖掘的结果存放到文件中,或者存放到数据库或数据仓库的指定位置,
电脑资料
《1.8 数据挖掘系统与数据库系统或数据仓库系统的集成数据库》(http://meiwen.anslib.com)。松散耦合比不耦合好,因为它可以使用查询处理、索引和其他系统设施提取存放在数据库或数据仓库中数据的任意部分。这带来了这些系统提供的灵活性、有效性等优点。
然而,许多松散耦合的挖掘系统是基于内存的。由于挖掘本身不利用DB或DW提供的数据结构和查询优化方法,因此,对于大型数据集,松散耦合系统很难获得高度可伸缩性和良好的性能。
. 半紧密耦合(semitight coupling):半紧密耦合意味除了将DM系统连接到一个DB/DW 系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)的有效实现可以在DB/DW系统中提供。这些原语可能包括排序、索引、聚集、直方图分析、多路连接和一些基本的统计度量(如求和、计数、最大值、最小值、标准差等)的预计算。
此外,一些频繁使用的中间挖掘结果也可以预计算,并存放在DB/DW系统中。由于这些中间挖掘结果或者是预计算,或者可以有效地计算,这种设计将提高DM系统的性能。
. 紧密耦合(tight coupling):紧密耦合意味DM系统平滑地集成到DB/DW系统中。数据挖掘子系统视为信息系统的一个功能组件。数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。随着技术进步,DM、DB和DW系统将进化和集成在一起,成为一个具有多种功能的信息系统。这将提供一个一致的信息处理环境。
这种方法是高度期望的,因为它有利于数据挖掘功能、高系统性能和集成的信息处理环境的有效实现。
有了这些分析,可以看出数据挖掘系统应当与一个DB/DW系统耦合。松散耦合尽管不太有效,也比不耦合好,因为它可以使用DB/DW的数据和系统设施。紧密耦合是高度期望的,但其实现并非易事,在此领域还需要更多的研究。半紧密耦合是松散和紧密耦合之间的折衷。
重要的是识别常用的数据挖掘原语,提供这些原语在DB/DW系统中的有效实现。
【责任编辑:铭铭 TEL:(010)68476606-8008】
回书目上一节下一节
原文转自:http://www.ltesting.net