第十八部分资料探勘技术.ppt

上传人:本田雅阁 文档编号:3170606 上传时间:2019-07-20 格式:PPT 页数:41 大小:592.52KB
返回 下载 相关 举报
第十八部分资料探勘技术.ppt_第1页
第1页 / 共41页
第十八部分资料探勘技术.ppt_第2页
第2页 / 共41页
第十八部分资料探勘技术.ppt_第3页
第3页 / 共41页
第十八部分资料探勘技术.ppt_第4页
第4页 / 共41页
第十八部分资料探勘技术.ppt_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《第十八部分资料探勘技术.ppt》由会员分享,可在线阅读,更多相关《第十八部分资料探勘技术.ppt(41页珍藏版)》请在三一文库上搜索。

1、第十八章 資料探勘技術,本章大綱,第一節 導論 第二節 資料探勘的動機及程序 第三節 資料探勘的分類技術 第四節 資料探勘的相關分析技術 第五節 時間相關的資料探勘技術 第六節 資料探勘的應用 第七節 結論,學習目標,資料探勘的基本概念 資料探勘的程序 資料探勘的常用技術,包括分類、關聯分析等 資料探勘技術在建立企業智慧及決策支援系統的應用,資料探勘的基本概念,建立企業智慧最主要的方法之一。 資料探勘是從資料中發掘知識的過程,亦有人稱為 資料庫的知識挖掘(Knowledge Discovery in Databases, KDD) 資料考古學(Data Archaeology) 資料型態分析(

2、Data Pattern Analysis) 資料探勘的定義 從大量資料中,尋找事前未知(previously unknown)、有效(valid)且可以付諸行動(actionable)之規則或知識。,資料探勘的基本概念(續),資料探勘的常用技術,依其性質分為三類 分類技術 相關分析 時間順序分析,圖18-1 資料探勘技術分類,資料探勘的動機,瞭解過去經營資料中有用的可能關係 找出有助於未來經營決策的知識 分析特定顧客的行為或市場的變化 對影響經營的因素有深入的瞭解,資料探勘的程序,決定企業探勘資料的目的 資料收集與整合 選擇適當的資料探勘技術 結果分析 知識應用,圖18-2 配合企業問題與資

3、料探勘技術的可能應用,資料探勘的分類技術,歸納分類 (Classification) 集群分析(Clustering Analysis),歸納分類,若一組資料共有N 類,分別為C1CN,而且一個案例在Ci類的機率為P(Ci),則計算該組資料的公式為,歸納分類(續),H (C | Competition=Low) = p (Up | Competition=Low) log2(Up | Competition=Low) p (Down | Competition=Low) log2(Down |Competition=Low) = = 0.918 H (C | Competition=High)

4、 = p (Up | Competition=High) log2(Up | Competition=High) p (Down | Competition=High) log2(Down |Competition=High) = = 0.811,歸納分類(續1),因為應用Competition加以分類後,會分成SalesUp及SalesDown兩類。因此其分類的總值為 H (C | A) 即以上例而言 H (C | Competition) 0.8752,表18-1 產品銷售分析,圖18-3 ID3產生的決策樹,集群分析,K平均演算法 步驟1:隨機初始k個中心點m1, m2, ., mk。

5、步驟2:將物件集合中的每個物件按照與k個中心點的不相似性,將其歸屬於最相似中心點的集群中。 步驟3:針對每一個mi所代表的集群,計算這個集群所有物件之各屬性的平均值,並以此向量取代mi。 步驟4:若所有中心點在步驟3中沒有更動,則此時已完成集群分析並停止執行,否則跳至步驟2繼續執行。,表18-2 業務員年齡與業績統計,業績單位:萬元,圖18-4 業務員年齡與業績散佈圖,表18-3 三個集群的成員,資料探勘的相關分析技術,關聯分析(Association Rule Analysis) 交易資料庫中每筆交易包含一些交易項目,關聯分析的目的是由這些交易資料中,找出交易項目的相關聯法則(associa

6、tion rule)。 鏈結分析(Link Analysis) 針對具有鏈結性的資料(如電話通信紀錄),將資料以節點(Node,如電話號碼)及鏈結(Link,如通話)來表達,並根據鏈結圖形找尋出具有某種特性之資料,或圖形中隱含的關係。,關聯法則,以XY表示,其中X與Y分別為交易項目的集合,且XY。關聯法則XY必須滿足下列兩個條件 X和Y的所有交易項目的集合必須同時出現在至少s%的交易中(其中s%稱之為最小支持率或minimum support)。 在所有包含X交易項目的交易中,至少有c%包含Y的交易項目(其中c%稱之為最小信賴度或minimum confidence)。,鏈結分析,理論來自於圖

7、形理論(Graph Theory) ,是屬於數學理論的一支。 包含兩部分 頂點(nodes,有時候稱為vertices) 稜線(edges),圖18-5 兩個鏈結圖形例子,圖18-6 John 和 Mary的通話MOU模式,鏈結分析的優缺點,優點 可以將關係資本化 在視覺化方面很有貢獻 創造出衍生的特性 缺點 無法應用於多種類型的資料 工具很少,資料探勘的相關技術,順序型態分析(Sequential Pattern Analysis) 主要目的是找出事件發生的時間順序是否有某些固定的規則可循。 演算法共包括五個階段 資料排序 初步Litemset產生 資料轉換 順序尋找 最大化確認,圖18-7

8、 順序型態分析仁寶M頭型態,仁寶M頭型態,資料探勘的相關技術(續),時間序列分析(Time Series Analysis) 針對依時間順序所記錄的資料所做的分析工作。 有兩個主要目的 找出事件沿時間變化的情形,以便找出固定的型態(如,銷售是否有季節性)。 由歷史資料中找出趨勢以便預測未來。,表18-5 交易資料庫,表18-6 顧客交易資料庫,表18-7 Litemsets與對應 代號,表18-8 轉換後之顧客交易資料庫,表18-9 Large 2-Sequence的集合,Large 3-Sequence(L3)的 集合,表18-11 Large 4-Sequence(L4)的集合,圖18-8 時間序列分析圖國家公園訪客人次圖,資料探勘的應用,購物籃分析的應用 用來幫助零售業者瞭解客戶的消費行為 運作過程詳述如下 選擇正確的物品組合 從這些資料中產生規則 克服現實的限制 金融信用分析,購物籃分析的優缺點,優點 簡單明瞭的結論 非常適合非監督式資料探勘 適用不同型式的原始資料 計算模式簡單易懂 缺點 商品增加時,運算會成幾何級數增加 個別特性不甚重視 難以決定組合的適當商品數 容易剔除罕見商品,表18-12 商品及其組合的 機率,表18-13 規則的信賴水準,表18-14 三種規則的增益效果和最高增益的增益效果,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1