知识探勘的利器-丛集算法 (3)

本文作者:admin       点击: 2008-04-09 00:00
前言:
五、图形理论式丛集法

依据图形理论的观念与性质,使它非常适合用来描述丛集化的问题。图形理论也可被用在非阶层式的丛集里,例如Zahn的丛集算法利用侦测协调性的方式,放弃那些在最小展开树(minimum spanning tree,MST)中存有矛盾的边界。另外我们可以用图形中的顶点与边来表示模式空间(pattern space)中的数据点,以及一对数据间的逼近情形。例如随意一个具有加权性质之图形G,我们以V表示其图形之顶点而用E表示该图形中两顶点的边。如果令T0表示一个临界阀值(threshold value),则一个相异度矩阵(dissimilarity matrix)之定义可以如下表示:

      
当然我们也可将图形简化为没有加权性质(未加权临界值)的图形。因此,不管是单一连结HC或是完全连结HC,其都可以藉由临界阀图形方式加以描述。单一连结的HC相当于搜寻最大的组件次图形(components subgraphs),而完整及连结之HC则是对应于找到最大的完整次图形。有关于图形理论在HC上面的应用,可以参见最早的Jain及Dubes(1988)的相关研究,例如:Joson算法或是Hubert算法。在2000年时R.Sharan及R.Shamir提出了另一种称为CLICK的丛集算法,CLICK会不断反复确认目前的次图形,并产生一个核心列表(kernel list),此列表乃由一些可以满足某些条件功能的组件所组成。如果次图形只包含一个节点,则其会被视为一个单体(singleton),并与将来进一步的运作分开处理。使用列表来完成一个基本的丛集,最后CLICK会得到一连串的单体丛集,这些单体丛集会依据所定规则再加以合并,以形成最后的丛集。

此方法的运作原理是基于计算丛集中的最小切割重量,在此方法中,其将机率概念与图形理论相结合,利用图形与边界的加权来做一个新的解译。其节点i与j之间的边界加权定义是,其中sij表示属于相同丛集内之节点i、j;而dij则表示该节点非属相同丛集;Sij表示节点间的相似度;P在此为其存在之机率。CLICK更进一步假设,丛集内与丛集间其高斯分布的相似度值亦有不同的平均值与变异性。因此上式便可依据贝氏理论(Baye’s theorem)加以改写成,其中P0为此三对象同属一个丛集之先验机率,而及分别表示丛集内与丛集间之平均值;与则分属丛集内与丛集间之变异度。这些参数可以预先用经验加以评估,也可以用P.Duda及P.Hart等人著作里所建议的方法来决定。同样的,CAST在设计一个图形理论式(graph-based)的丛集算法时,其亦以机率模型(probabilistic model)为考虑对象。在这种方法里面,其可以循序建立丛集并且每一个丛集均可在不指定数据点的情况下随机开始。不过数据点i与丛集C0之间的关联,仍以其亲和力结果及亲和力临界参数(affinity threshold parameters,以t表示)作为其建构依据。该亲和力定义为,当其表示资料节点i之亲和力大于时,其表示该数据节点与丛集之间具有高度关联性,反则反之。利用加入高亲和力的数据点并移除低亲和力的资料点,可使丛集慢慢达到收敛条件,当丛集不再变动时其便产生丛集拘束力。

六、结合搜寻技术之丛集法

搜寻最佳化的结构问题存在于各种应用领域,不论是信息论或是生划上面蛋白质构型的搜索,最佳化结构的寻找始终是一项重要的研究话题。在一个混合之最佳化问题里面,全域最佳化或是近似全域最佳化的搜寻,通常是一种NP-hard complexity问题,即需搜寻一个大型的指数型解法空间。因此为增加其效率,其往往需要依赖对象搜寻技术之使用。丛集化问题通常亦可被视为一种最佳化类别目录的问题,也就是说在我们给定一个数据点i之后,丛集算法必须依据最佳化规则将该数据点归入适当类别,或重新构成新的丛集次集合。如果数据点有N个,那就可能被切割为k个丛集类别,其切割方法可由G.Liu所给定的公式为之,即是。不过要注意,即使在N与k都不太大的情况下,此法所付出的运算成本仍旧高昂。因此如果要将其应用在目前常用的各种大型资料丛集问题上,恐有实务上的困难,因此一些较简单局部搜寻技术(例如:hill-climbing算法)亦常被用来搜寻可用的分割点。但是这种小型搜寻技术因为标榜“局部”概念,故此会有一个常见问题存在,那就是此方法容易被局限在局部最小化的情形。故使用该种方法时,并无法保证会取得全域最佳化之情形。

一些更为复杂的搜寻方法(例如:演化运算法(evolutionary computation)),或S.Kirkpatrick及C.Gelatt等人提议之SA方法以及Tabu搜寻法…等等,都是比较知名的机率推移最佳化方法。而T.Hoffmann及J.Buhmann提议的DA(deterministic annealing)方法,则属典型的“决定型搜寻算法(deterministic search algorithm)”。利用这种方法,可以更有效率及弹性的方式,来搜寻可能之解法空间。从自然界的演化过程来看,一个演化运算可由遗传算法(genetic algorithms,GA)、演化策略(evolution strategies,ES)、遗传程序(genetic programming,GP)…等相关算法所组成,并用一连串的演化运算子(evolutionary operators)来最佳化族群结构,在这些演化运算子中又以“天择(natural selection)”、“基因重组(recombination)”以及“基因突变(mutation)”这3种运算子最为常见。在此,其最佳化函数就称为“适应性函数(fitness function)”,其乃被用以评估族群演化最佳化等级之标准,因此每个族群内之个体,都有其所对应的适应分数。利用天择的运作,使族群内有最佳适应分数的个体种类可以成为下一世代之成员,而其余的将被淘汰。换句话说,天择在此的作用乃是特殊适应环境的一种筛子,可用来筛选特殊物种(即是解法)。被选中的物种通常具有最佳适应评分,也就是说此物种较其它物种在适应此类环境上具有较佳优越性。同种个体间的特异性操作,则依据基因重组与突变条件而定。经由此二重奏,将使同种个体出现更多变异性,此亦资料多样性的主要来源之一。虽然许多EAs或GAs的方法常被用于丛集分析上,但其操作方法却有些差异存在。在遗传算法方法(GAs)里,每个个体成员均被编码成二进制格式(binary format)来表示,这些二进制位就是代表生物细胞中的染色体(chromosome)。一旦种子族群(或起始族群)依据某些启发规则或以随机方式产生后,一连串的演化运算子(例如:天择、基因交换、突变、基因重组…等等)便会开始作用,直到停止条件被满足时才会停止(即是附解除条件之演化行为,当条件成就时,演化机制失其效力)。L.Hall、I.zyurt及J.Bezdek在1999年时,提出一种可视为“中心式(center-based)”丛集问题之一般策略的GGA(genetically guided algorithm)方法。在此方法里面,适应函数乃依据平方差的总和规则重新计算,以反应一些建构问题最佳化过程中的一些改变,GGA的处理步骤可概分为以下5点:
1.为遗传算法先选择适当的参数,并随机利用一个A个体来起始化族群。定义每个个体原型矩阵(prototype matrix)之表现,并将其编码为灰阶码(gray codes)并计算每个个体之适应值。
2.利用天择作用来挑选下一个子代的起始亲代。
3.利用染色体互换(crossover)及突变运算子,将来自第2步的亲代产生变异性,并产生变异子代。
4.对一些具有高度适应性之个体,将其基因保留在基因池(gene pool),以作为下一世代之亲代来源。
5.重复步骤2~4直到终止条件被满足。

其它关于GA-based的丛集应用,主要集中在“相似”的观点上。不过此处的相似不同于族群中的个体相似部分或最适函数之定义,应用时应予帮助。除前面谈到的应用外,GAs也可以被用在阶层丛集法(HC)上,在Lezano及Larraag的论述里,其讨论了超度量距离(ultrametric distance)的属性以及重新公式化,将HC的问题视为一种最佳化的问题,以尝试去找到一个最近的欧基理德超度量距离,其中他们建议以一个order-based的GA来解决此问题。另一些基于ESs与EP的算法,可以在Babu及Murty(1994)或是A.Ghbzeil及D.Fogel(1996)之论述里找到更详尽的探讨。另外在GA-based的丛集化方法中,为了降低运算维度,其使用最近邻算法来将数据切割为最小的次集合。尤其是GA的方法在改良K-means方法的效能上是具有相当帮助的,例如1993年的时候,G.Babu及M.Murty便曾利用遗传算法来将发觉好的起始分割;此外,1999年时,K.Krishna及Murty亦利用GA与K-means的混合方法,成功发展出GKA(Genetic K-means Algorithm)算法,其利用GKA顺利搜寻到全域最佳解法的所在。不过要在GA里面要找到全域最佳解法并非易事,在大多数的单纯GA方法里,其所搜寻到的解法大多是非全域最佳解,更清楚一点而言,其多为次佳解法。搜寻全域最佳解之所以困难有两个主要因素,首先是最佳解法不一定都在满足算法的终止条件时出现。换句话说,最佳解法的出现亦可能出现在中间世代,并达演化最后而消灭(即是不存在于“演化右墙”);其次,GA的演算规则虽仿生物的演化原理,但仍未能完全掌握生物体与环境之间的其它微妙互动(演化不是只有3种因子在作用)。客观上,为使GA运算更逼真,其过程中往往还需要依靠其它定律之参与(例如:热力学的概念),但不幸的是,生物并非完全会遵守这些定律。例如:生物细胞会利用消耗能量的方式,来维持某些蛋白质结构的存在。这些信息问题有赖于人类对生物的更深入认识,才能把GA模型的参数设定更加精确化。但在此之前,许多GA运算的结果乃收敛于局部最佳化而非全域最佳化。基于GKA的灵感,2004年时Y.Lu、S.Lu及F.Fotouhi等人又发展出FGKA(Fast Genetic K-means Algorithm)方法,使其执行速度比原本的GKA要更快。

另一种结合多种技术的搜寻方法称为“禁忌搜寻法(tabu search,TS)”,其使用禁忌列表(tabu list)来引导一连串搜寻移动的过程。之所以称为“禁忌列表”的原因,乃在于此列表可以依据特定大小,储存一部份或全部先前已选择的移动过程。这些搜寻移动选择因已被选择过,所以其不会再被搜寻,故称为“禁忌列表(tabu list或taboo list)”。在TS丛集算法的发展里面,K.Al-sultan从目前的解法中依据某些策略选出一个解决方案之候选集合。每一个候选解法的集合,其表示了在K个丛集内的N个数据对象(data objects)。在这些候选解法集合内,其会依据最佳成本函数(optimal cost function),来选择目前最合成本的解法,并将之加入禁忌列表。除已无法发现不存在于禁忌列表的最佳成本解法,或已达到目的规则之情形外,其它剩余的候选的解法仍将依据成本函数值继续被评估,直到所有的条件均被满足为止。当所有的候选解法都被加入禁忌列表后,一个新的候选解法集合就会同时被创造出来,并以相同的程序再次搜索最佳解法。此搜寻循环会不断进行下去,直到完成搜寻次数达最大循环数为止。在C.Sung及H.Jin的方法里,其更利用封装(packing)及释放(release)过程来更改这些复杂的搜寻过程。在他们的方法里面,其使用了第二个禁忌列表来保存一些具有潜在实力的解决方案。另于1997年时,M.Delgado更提出Fuzzy式的TS丛集法。另一种循序且全域式的搜寻技术还有S.Kirkpatrick、C.Gelatt及M.Vecchi等人提出的SA(simulated annealing)方法,其发展背景乃基于Metallurgy的黏合程序(annealing process)。但比较特殊的一点是,该方法可被设定在某些机率情况下,去找寻处理过程可接受的较差解法。

其机率之控制则由参数为之,其中最为人所熟知的参数型态便是“温度(T)”,其常与能量之改变(△E)结合,并以exp(△E/T)表示之。例如:一种常用于扩增特定的DNA片段的遗传工程技术-“聚合酶链锁反应(Polymerase chain reaction,PCR)”,其PCR中引子(primer)的黏合温度(annealing temperature)便决定了黏合的特异性。在温度临界门坎下,温度越高特异性会越强。但超过温度临界门坎后,则发生引子和模板之结合障碍情形。若黏合温度过低,则会产生大量非特异性产物。所以在寻找PCR时需要的合适黏合温度,通常采“递减PCR”方法,也就是说,开始先设定一个比较高的黏合温度,然后将每循环黏合温度下降,直到找到一个较低的合适温度以后,便不再改变每个循环的黏合温度一直到结束,利用这种方法可用于省去多次试验最佳黏合温度的工作。在此类例子中,温度因素从起始最高处,到最后最低值之黏合排程,其意味着SA尝试去搜寻在某温度下更完整的解决空间。

关于SA-based的丛集法,可以参考D.Brown及X.Huntley(1992)或是S.Selim及K.Alsultan的研究。前者展示了利用SA丛集法来评估不同的丛集规则,后者则着重在在输入参数对丛集效能的影响研究。有关搜寻技术或丛集算法缺点,主要发生在参数的选择(parameter selection)上面。因为这种搜寻式的丛集法,引入太多参数到系统模型里面,参数多表示可变因子多,不利于我们导引出一般规则。且更糟糕的是,目前又没有一个理论基础,可作为我们选择参数的依据。虽然L.Hall、I.zyurt及J.Bezdek等人,曾于GA-based的丛集法中提出数种关于参数的设定方法,但可惜的是这些方法仍属经验规则,而无法被推广到其它模型中使用。相同的情况也出现在SA及TS的丛集方法里,其它的问题还包含欲使解法收敛于全域最佳化时所须要付出的运算复杂度,因为高度的运算需求同时也会限制该算法被应用在大型数据集(large-scale data sets)中的可能性。对于SA在TS上的改善方面,可参考2000年时S.Chu及J.Roddick有关黏合方面的丛集算法研究,该方法进一步减少了整体解法往局部最佳化移动的可能性。使禁忌列表的方法还颇受欢迎,G.Scott、D.Clark及T.Pham (2001)在GA丛集算法中,也曾使用禁忌列表的方式以保留族群之变异,并避免重复运算所可能造成的资源浪费,颇值得参考。

七、模糊理论丛集法

在Fuzzy丛集法里面,一个对象可以归属所有cluster所有(不像其它丛集法,一个对象只能指定给一个丛集),但其只是利用“会员等级(degree of membership)”来做程度上的区别,此对于位在丛集边界而无法加以区分的对象而言是特别有用的。此外,我们也可以利用会员关系来发现所给定的对象与丛集之周边环境间是否存有某些关系的存在。在F.H?ppner及F.Klawonn于1999年所出版关于Fuzzy丛集分析方面的书里面谈到,在许多模糊丛集化算法里,以FCM算法是最受欢迎的一种。在标准的FCM运作中,其距离函数使用的是欧氏几何或是L2法向量(L2 norm)距离函数。并且刚开始时先为m、c选定一个适当的值,然后选定一个小整数ε以随机方式起始化原型矩阵M,然后将算法中的step变量(以s表示)设为0。一旦s=0时,算法开始按公式先计算矩阵U,其中i=1,…,c而j=1,…,N。如果s>0时,则系统会以上式更新会员矩阵U。完成U的计算后,系统便以下式更新原型矩阵M为,其中i=1,…,c。如此过程一直重复计算U及M直到||Ms+1-Ms||<ε时为止。这种FCM算法可以被视为是J.Dunn所提议的ISODATD方法的一般型态,即是FCM尝试去找出一个对应的数据点集合,其中j=1,2,…,N,且其中最小成本函数为,其中式中的U为Fuzzy的分割矩阵(partition matrix),而ui,j属于[0,1]区间,表示第i个丛集之第j的对象之会员系数,即。M表示丛集原型数组(cluster prototype),其可以是以mean或是center的方式表示。M=[m1,…,mc],其中m则属fuzzification参数,依据R.Hathaway及J.Bezdek的研究,其通常被设定为2。最后xj与mi之间的距离量测以Dij表示,即是。 
  
由FCM的运算过程中我们可以看到,系统需要不断的计算矩阵U及原型矩阵M,此对大型数据的分析而言,便可能使系统运算出现过于沉重的负担问题。因此在2002年时,Kolen及Hutcheson结合更新二种矩阵的方式来加速其运算速度,而M.Hung及D.Yang则提出利用更精确的识别丛集中心的方式,来降低运算负载以及所需要的运算时间。因为FCM方法广受大家使用与欢迎,目前也有许研究者因应某些应用需要而提出其它FCM变种方法以及其它Fuzzy丛集算法。在这些变种方法里面,有大部分是基于强化距离测量的研究而来,例如:加权fuzziness控制指数、最佳化Fuzzy分割法及一些FCM缺点改善…等等。但和其它副本(counterpart)技术所常遭遇的问题一样,FCM方法也常受噪声及其它分离物(outliers)之影响,而变得很难去辨识其起始分割部分。1994年时,R.YagerRU6d.Filev提出一种称为山脉评估法(mountain method),以方便丛集之中心所在。这些找到的候选中心,乃由一群顶点之集合所组成。其利用在模式空间(pattern space)中建立网格(grid)方式形成可能之中心点所在,在此方法里面丛集中心点刚开始不是由一个顶点所表示,而是以一群中心点候选之顶点集合所表示,之后劲过一定程序计算后,再由这些候选顶点中选出具有最大顶点数值者做为中心点。对一个顶点vi而言,其山脉函数的定义为,而式中的D(xj,vi)表示第j个数据对象与第ι个节点(node)之间的距离;而α为一个正值常数。因此如果一个数据对象越靠近顶点,则该数据对象对山脉函数便会具有更多贡献。据此言言,一个山脉函数的最大顶点数值,表示具有更多数据对象的贡献,也将更有资格作为丛集中心的代表中心点。另外此算法机制里亦设定了解构子(destructor)的存在,其称为山解(mount destruction),用以清除这些已被选定的代表中心资料。这种清除过程是种迭代函数,其会反复进行清除动作,直到目前的最大值与最大顶点数值之比值低于某些临界值为止。

在数据的可用性分析过程里面,探索各种数据特性是一种极具意义的工作。因此为使目前各种方法的优点得以合并在一起使用,目前有许多学者尝试将丛集法加以互相连结。例如:B.Duran及P.Odell等人便将山脉法与其它Fuzzy丛集法结合在一起;另外,I.Gath及A.Geva则将FCM法与Fuzzy ML结合后提出双层式丛集策略。在FCM对于outliers的强固性改善方面,P.Kersten建议以市块(city block)距离来做而P.Hathaway、J.Bezdek及Y.Hu等人,更是利用Minkowski距离的概念,将FCM法可延伸到一般例子上使用。除了这些方法之外,另一种处理FCM outliers问题的方法还有R.Krishnapuram及J.Keller等人提议的PCM统计方法。在该模型下,所有成员之会员关系均站在机率的观点来看,利用这种方法,其噪声与分离物的干扰情形确有减轻的情况。另一种著名的Fuzzy c–shells算法(FCS)也常被用再侦测各种不同的丛集形状(cluster shapes)上面,尤其是两个数据空间领域中的外型轮廓(contours)。在此种方法里面其使用shells来作为丛集原型,以取代传统fuzzy丛集法中所常使用的点(points)或表面(surfaces)概念。在FCS例子中(更深入的探讨可参考J.Bezdek及R.Hathaway的研究),其将丛集原型表示成一个d维度的超球体壳(hyperspherical shell),因此当d=2时,可表示一个2-D平面之球形壳。此超球体壳以m(v,r)表示,其中v表示为d为度之球体中心点,r则表示其超球体半径。在此其距离函数(distance function)的定义可以表示为D(xi,mj)=(||xi-vj||-rj),以测量数据对象xi与原型mj之间的距离。

同样的方法,其它丛集的形状可藉由定义一个适当的原型表示,以及对应的距离函数方式来达成。在这方面的例子有许多,例如:FCQs(fuzzy c-quadratic shells)、FCRs(fuzzy c-rectangular shells)FCSs(fuzzy c-spherical shells)以及Y.Man与I.Gath所提之fuzzy c-ring(FCR)方法…等等。另外,fuzzy集合理论也可以被用以创造阶层式丛集架构(hierarchical cluster)。例如:Geva在1999年时,曾提出阶层式的非监督式(unsupervised)的fuzzy丛集法(其称为HUFC法),在此法中,当对象被以阶层式的方式与cluster间建立会员关系时,它便可以像HC算法一样,有效的探索数据中的不同层级数据结构。这种设计让HUFC的以克服一些HC所存在的一些缺点(例如:一旦一个对象被归属某丛集后,HC算法便不能再将该对象重新指定给其它丛集)

八、类神经网络式丛集法

类神经网络式的丛集法最常被讨论的要属SOFM及ART(adaptive resonance theory)法,尤其是在竞争式(competitive)的类神经网络里,活性神经元(active neurons)当其活性被其它神经元所抑制时,他们会增强某个范围内之邻近神经元OCOS(on-center/off-surround)竞争模式,SOFM及LVQ法便是以这种模式所发展出来的方法。不过因为SOFM其运作的原理与丛集理论在某些程度上有差异,充其量其只是一种显示技术的改进,故有些学者并不认为这两个方法可被归纳为丛集法之一种,SOFM方法在研究数据的可视化属性上面是一个很好的工具,因为它利用许多原型向量(prototype vectors)的建立来表示不同的数据集(data set),并且将原型在d-维度输入下的信息投影到低维度网格(grids)上,这种排序网格(ordered grid)可以被用来方便观察不同的数据所显示的可视化表面特征。如果SOFM的数量是很庞大的,那相似的部分就会被分类成同一群组以方便地图的量化分析。不论是SOFM-based或是SOM-based的探索分析往往具有两个阶段过程,首先是先利用SOFM来形成一个大的原型集合(其数目高于所预定的丛集数),其次将这些原型结合成最后的丛集结果。不过SOFM在实务上有一些缺点存在,例如:和K-means算法一样,SOFM也须要预先定义晶格大小(lattice size),例如:丛集数目。此对大多数的情境而言,均属处于另外未知的状态而使难其以定义;又当系统进入实际操作后,其使用大量的使用者依存性参数亦会造成使用上的困难。如果该SOFM已是经过训练的,那输入空间密度的错误表示亦会影响区域的表现。在较低模式密度中的区域将会被过度表现,而在高密度区域上,其则有表现不足的问题。因为在SOFM方法里面,其主要是利用可被2-D晶格结构(lattice structure)加以可视化之原型向量(prototype vector)来表现高维度的输入模式。在此每个晶格单元就称为神经元,并且经由将邻近神经元连结起来,将会获得一个很清楚的拓朴图形,在此图形中我们比较关心的是网络如何调适自己来适应输入的数据。要完成此动作须要经过两个关卡,一个是调适加权值(adaptive weights)的设定,另一个是经由输入训练学习方法。经由这两种方式来调整网络,输入的数据将完全与所有的神经元连结,并且邻近的输入模式会被投影到晶格内以对应邻近的神经元。正因为其运作方式主要是在于显示结构,因此有学者对于SOFM是否归纳为一种类神经网络运作方法颇有疑义,其认为该方法充其量只是以视觉方法显示晶格数据的一种显示方法而已,非属类神经网络式的丛集法。在一般标准的SOFM训练过程里,其首先将须要先定义所要使用的网络拓朴架构(topology)并随机起始化原型向量。然后才会将输入模式-X(input pattern)加入网络中,并依据argjmin{||X-mj||}原则选择最接近输入模式X之胜出节点(winning node)。然后再将原型向量更新,使,其中hci(t)表示一种邻近函数(neighborhood function),其定义为,而r所表示的是其所对应之神经元位置,其中α(t)表示单调递减学习速率,而所表示的是单调递减之核心宽度函数(kernel width function)。当邻近函数hci(t)=α(t)时,其表示该node属于胜出节点j的邻居;如果hci(t)=0则属其它情形。输入数据的胜出节点选择与原型向量之更新步骤会一直被重复,一直到这些神经元的位置不再发生变化时为止。

SOFM方法亦可以其它丛集法结合在一起使用(例如:HC方法或是K-means法),以提供更快、更有效率的丛集技术(亦可参照J.Vesanto及E.Alhoniemi的相关文章)。另外LVQ法亦是常被使用的一种技术,不过本质上而言,LVQ法和SOFM方法一样亦不被认为是一种正统的丛集法,其和SOFM不同处在于LVQ乃以监督式(supervised)的方式完成其工作。虽然LVQ不被一些学者认为是种丛集法,但是LVQ的主要贡献在于在其学习属性(learning properties)中,其提供了我们在竞争层(competitive layer)中使用原型向量时,一个洞察描述潜在数据结构的能力。经由了解LVQ的限制(例如:起始状态之敏感性、缺乏对要丛集化对象之定义),一些研究者另外又提出了一般化的LVQ算法出来以供丛集化使用,此即著名的GLVQ方法。在这种方法里面,其将丛集化的问题视为一种遗失函数(loss function)的最佳化过程。其定义乃基于输入模式与胜出原型之间的局部加权错误(local weighted error)而来,并且他们也展示了LVQ与K-means算法之间的关联性。在2001年Kohonen所写的《自我组织地图(self-organizing maps),3rd》一书里,其介绍了很多关于SOFM的变形型态方法,这些变异方法均针对原本的SOFM方法提供了一些改良,并扩展了SOFM技术的应用层面(即使它至今仍存有多方争议)。另有些学者以算法对于探索未知是否具有重要贡献,而区分其丛集法上的地位,例如:LVQ的一般化方法(QLVQ)便被视为是种丛集技术。

反观ART的情况也不是很好,其同样面临定位上的问题。一般而言ART网络与其它丛集法之间的关系,主要在于传统应用与统计语言上面。B.Moore曾使用数种丛集法来解释ART1的丛集行为,并从中得出许多非常重要的ART1属性,在某些方面,其可视为一种K-means丛集法的一种变异方法。不过有些学者认为ART技术虽有使用到学习理论技巧,但深究其架构仍未具备类神经网络架构雏形。但不可否认的是ART技术亦是重要的类神经网络式的丛集法,该种技术之发展可追溯到1987年时G.Carpenter及G.Grossberg的研究。其当时研究的目的,乃在于从可塑性(plasticity)与稳定性(stability)中寻求两全其美之方法。这对当时许多人的观念而言,具有相当的颠覆性(例如:又要马儿好又要马儿不吃草,在以前是难以想象的,但现在找到的解决方案之一便是“机器马”,或许未来会有“生化机械马”,专吃馊水、垃圾便可工作)。ART技术就是在这种时空背景下诞生,其利用自我组织学习法,可以在稳定状态中学习任一种输入模式。因此,ART克服了在其它竞争性网络中所常见的学习不稳定情形。但是ART并非是种类神经网络架构,说穿了,它只是一种学习理论的应用方法而已。其在类神经网络电路里,利用共振(resonance)原理可使它具有更快的学习能力。也因为如此,勉强将其归入类神经网络架构之一。和其它方法一样,目前也有许多ART变异方法被提出。例如:ART1是一个快速处理架构,虽然其只处理二进制模式(binary mode),但它也可以利用不同的编码机制(coding mechanism)来将其功能延伸到任意输入模式里。

有关ART1的参考架构如图5。
从图5的参考架构里面,我们可以看出来ART1有两个层级节点组成,分别称为F1 field与F2 field。前者用于“特征表示”,后者用于“目录表示”。这两个fields间以适应性加权(adaptive weights)分别由两个由F2往F1 field以及由F1往F2 field加权的个别数组(分别以W21以及W12表示)来相互连结,而丛集原型则存在于F2层级(F2 layer)。在其运算方法里面,其首先要将加权矩阵(W12及W21)起始化。使,而。其中以递减顺序排列后储存起来且要满足,其中的要大于0而S则表示任何二元输入模式。而对一个新的模式S而言,其需从F1层到F2层计算其输入,即是。如果j是未受拘束的节点(uncommitted node),则;反之则。并以“胜者为王(winner-take-all)”规则经由选择节点m来活化F2层,使。然后再由F2层与入模式比较其例外情形,如果(其中为差异比值)则进行对活化的节点更新其所对应的加权,使得由1变成而。否则利用重置讯号(reset signal)将目前活化之节点去活化,并回到胜者为王(winner-take-all)”规则重新活化F2层。
欲表现其它输入模式,则必须回到F1层到F2层去计算其输入(即是前面提到的。如果j是未受拘束的节点(uncommitted node),则;反之则)。如此运算下去,直到所有模式都已被处理。另外Carpenter、Grossberg以及Rosen等人则将模糊理论与ART的优点相结合,而提出所谓的Fuzzy ART方法。这种方法与ART1的运作非常类似,但他们以Fuzzy set的运作来取代二元运作(binary operations),因此它可被用在任何实数数据集中运作。除此之外Fuzzy ART的稳定学习特性与快速的运算方式,也是它成功之处。但Fuzzy ART并非没有缺点,其中一个较为人诟病之处在于这种方法在许多情况下,其对以超矩形(hyperrectangular)的丛集外型处理没有效率且在处理噪声上面亦是效率不彰。为解决这些问题,在1996年的时候,J.Williamson提出了一种基于高斯分布(Gaussian distribution)所建立的Gaussian ART模型,其将每个丛集以超椭圆形(hyperellipsoid)几何方式来表示,不过这种方法不像Fuzzy ART具有离线快速学习的属性。另外Anagnostoponlos等人亦为超球形以及超椭圆形丛集提出各种不同的ART架构,其分别称为超球形ART(hypersphere ART)以及椭圆形ART(ellipsoid ART),以方便探索更有效率的丛集表示方法而又可以留住Fuzzy ART的优点。除ART、ART1之外,ART3则引入生物过程概念,使其可在具有阶层架构的资料中,达到更有效率之平行搜索。另外Carpenter、Grossberg及J.Reynolds等人亦提出了一种结合了两种ART模块(modules)的混合系统,他们称为ARTMAP系统。这些模块其中一个模块负责输入(input pattern),另一个则负责对应标记(corresponding labels),其所形成的系统经研究证实,可被用在指导式的分类问题上。
而另一个与ARTMAP系统相似的概念,可参考M.Healy、T.Candell以及S.Smith等人提出的LAPART观念。此外A.Baraldi及E.Alpaydin则提议了一种称为SART的方法,其使用的原理仍是一般ART丛集网络结构,只是其经由“前馈控制(feedforward)”来与“比对机制”结合在一起。在他们举的例子中,一个比较特殊的乃是对称式模糊ART方法(symmetrical fuzzy ART,SFART)以及全自我组织网络(FOSART)。这些架构依据他们的实验结果显示,其效果比ART1及FA要好。在其它利用类神经网络作为丛集法的方法还有很多(例如:HEC、CDL及SPLL),不过这些架构多数采用的丛集方式仍是以利用原型向量方式为主。在HEC里,其利用双层网络架构来评估正规化后的Mahalanobis距离,而CDL也是用双层网络架构搭配反向平方欧氏度量法来比较输入的样本原型是否高过某些门坎差异,而SPLL则强调起始独立及适应性丛集之产生。其开始于一个输入空间的随机原型,并利用迭代选择(iterative selection)分割原型直到无可分割时为止。原型的可分割性,乃依据每一个原型只能是一个自然丛集原则为之,而不承认一个原型同时亦具备多种其它丛集之特性。