數據歸約方法主要包括：

來源：魅力女性吧 2.86W

數據歸約是指在儘可能保持數據原貌的前提下，最大限度地精簡數據量（完成該任務的必要前提是理解挖掘任務和熟悉數據本身內容）。

數據歸約主要有兩個途徑：屬性選擇和數據採樣，分別針對原始數據集中的屬性和記錄。

假定在公司的數據倉庫選擇了數據，用於分析。這樣數據集將非常大。

在海量數據上進行復雜的數據分析扣挖掘將需要很長時間，使得這種分析不現實或不可行。

數據歸約技術可以用來得到數據集的歸約表示，它雖然小，但仍大致保持原數據的完整性。這樣，在歸約後的數據集上挖掘將更有效，併產生相同(或幾乎相同)的分析結果。

（1）計算時間：較簡單的數據，即經過數據歸約後的結果，可減少數據挖掘消耗的時間。

（2）預測/描述精度：估量了數據歸納和概括爲模型的好壞。

（3）數據挖掘模型的描述：簡單的描述通常來自數據歸約，這樣模型能得到更好理解。

數據歸約算法特徵：

（1）可測性

（2）可識別性

（3）單調性

（4）一致性

（5）收益增減

（6）中斷性

（7）優先權

二、數據歸約方法：

1、特徵歸約：

用相應特徵檢索數據通常不只爲數據挖掘目的而收集，單獨處理相關特徵可以更有效，我們希望選擇與數據挖掘應用相關的數據，以達到用最小的測量和處理量獲得最好的性能。特徵歸約處理的效果：

（1）更少的數據，提高挖掘效率

（2）更高的數據挖掘處理精度

（3）簡單的數據挖掘處理結果

（4）更少的特徵。

和生成歸約後的特徵集有關的標準任務有兩個：

（1）特徵選擇：基於應用領域的知識和挖掘目標，分析者可以選擇初始數據集中的一個特徵子集。特徵排列算法，最小子集算法

（2）特徵構成：特徵構成依賴於應用知識。

特徵選擇的目標是要找出特徵的一個子集，此子集在數據挖掘的性能上比得上整個特徵集。特徵選擇的一種可行技術是基於平均值和方差的比較，此方法的主要缺點是特徵的分佈未知。最優方法的近似：

（1）只對有前景的特徵子集進行檢查

（2）用計算簡單的距離度量替換誤差度量

（3）只根據大量數據的子集選擇特徵。

熱門標籤