數據歸約方法主要包括:

來源:魅力女性吧 2.86W
數據歸約方法主要包括:

數據歸約是指在儘可能保持數據原貌的前提下,最大限度地精簡數據量(完成該任務的必要前提是理解挖掘任務和熟悉數據本身內容)。

數據歸約主要有兩個途徑:屬性選擇和數據採樣,分別針對原始數據集中的屬性和記錄。

假定在公司的數據倉庫選擇了數據,用於分析。這樣數據集將非常大。

在海量數據上進行復雜的數據分析扣挖掘將需要很長時間,使得這種分析不現實或不可行。

數據歸約技術可以用來得到數據集的歸約表示,它雖然小,但仍大致保持原數據的完整性。這樣,在歸約後的數據集上挖掘將更有效,併產生相同(或幾乎相同)的分析結果。

(1)計算時間:較簡單的數據,即經過數據歸約後的結果,可減少數據挖掘消耗的時間。

(2)預測/描述精度:估量了數據歸納和概括爲模型的好壞。

(3)數據挖掘模型的描述:簡單的描述通常來自數據歸約,這樣模型能得到更好理解。

數據歸約算法特徵:

(1)可測性

(2)可識別性

(3)單調性

(4)一致性

(5)收益增減

(6)中斷性

(7)優先權

二、數據歸約方法:

1、特徵歸約:

用相應特徵檢索數據通常不只爲數據挖掘目的而收集,單獨處理相關特徵可以更有效,我們希望選擇與數據挖掘應用相關的數據,以達到用最小的測量和處理量獲得最好的性能。特徵歸約處理的效果:

(1)更少的數據,提高挖掘效率

(2)更高的數據挖掘處理精度

(3)簡單的數據挖掘處理結果

(4)更少的特徵。

和生成歸約後的特徵集有關的標準任務有兩個:

(1)特徵選擇:基於應用領域的知識和挖掘目標,分析者可以選擇初始數據集中的一個特徵子集。特徵排列算法,最小子集算法

(2)特徵構成:特徵構成依賴於應用知識。

特徵選擇的目標是要找出特徵的一個子集,此子集在數據挖掘的性能上比得上整個特徵集。特徵選擇的一種可行技術是基於平均值和方差的比較,此方法的主要缺點是特徵的分佈未知。最優方法的近似:

(1)只對有前景的特徵子集進行檢查

(2)用計算簡單的距離度量替換誤差度量

(3)只根據大量數據的子集選擇特徵。

熱門標籤