资料探勘DataMining000002.ppt

上传人:本田雅阁 文档编号:2767223 上传时间:2019-05-12 格式:PPT 页数:69 大小:1.68MB
返回 下载 相关 举报
资料探勘DataMining000002.ppt_第1页
第1页 / 共69页
资料探勘DataMining000002.ppt_第2页
第2页 / 共69页
资料探勘DataMining000002.ppt_第3页
第3页 / 共69页
资料探勘DataMining000002.ppt_第4页
第4页 / 共69页
资料探勘DataMining000002.ppt_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《资料探勘DataMining000002.ppt》由会员分享,可在线阅读,更多相关《资料探勘DataMining000002.ppt(69页珍藏版)》请在三一文库上搜索。

1、1,資料探勘(Data Mining),2,課程特色,理論與實務並重 深入淺出,減少繁雜的學理性探討,著重觀念及實際應用 以SQL 2005及自行開發之DMAS 2.0作為實務講解工具 提供教學資源網站 (http:/rss.cis.nctu.edu.tw/data-mining),3,內容概要,PART I:基本與進階之資料探勘技術 PART II:資料探勘之深入應用 PART III:軟體工具和專案實作 中英對照表 P.S. 書中標示*及*的章節表示選擇性授課單元,如授課時數有限時,可略過。,4,授課計畫(1),PART I 基本與進階之資料探勘技術(38hr40hr) 第一章 簡介(4h

2、r) 第二章資料倉儲(6hr) 第三章 資料前置處理(3hr) 第四章 資料精簡(3hr) 第五章 資料分類法(6hr) 第六章 資料群集分析(6hr) 第七章 關連法則探勘(6hr) 第八章 時間序列分析(4hr6hr),5,授課計畫(2),PART II 資料探勘之深入應用 (3hr11hr) 第九章 網頁資料探勘(3hr) 第十章 網路入侵偵測系統(0hr4hr) 第十一章 數位學習(0hr4hr) PART III軟體工具和專案實作 (4hr7hr) 第十二章 工具介紹 (3hr6hr) 第十三章 案例探討-圖書借閱 (1hr),6,第一章 簡 介,7,為什麼?,8,運用探勘技術從大量

3、資料中挖掘出資料之間的關連性以及隱藏的知識,要實現神機妙算客服系統所提供的個人化服務,並非遙不可及! 企業現階段急需運用資料探勘技術,輔助決策者在對的時刻做對的決策! 學術界積極培養資料探勘技術應用人才為當務之急!,9,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,10,資料探勘的目的,從大量資料中挖掘有價值的資訊,供管 理人員做為決策參考,開創新商業契機 成功經驗 美國超級市場(Wal-Mart) 銷售資料分析發現,尿布和啤酒常會一起購買,於是將

4、商品放在一起促銷,得到意想不到的業績成長 美國銀行 (Bank of America) 從客戶資料中,找出既有客戶申請貸款的時機, 規劃全新行銷方案;該方案推出後,接受率立即 成長兩倍以上,11,資料探勘的應用,以類似PC-Home之線上購物商店為例 可獲取之資料 顧客居住地區、年齡、性別、個人資料、交易紀錄 可進行之資料探勘應用: 建立個人化行銷模式 找出潛在的客戶名單 了解顧客族群的屬性 預測目前哪些顧客可能流失,12,資料探勘的興起,歸功三項技術的成熟 大量資料的收集技術: 網路發達、關聯式資料庫(relational database)應用廣泛、整合技術成熟 高效能的多處理器電腦架構

5、平行處理架構,使大量資料處理能在可容忍的時間內完成 資料探勘演算法的成熟 包括統計學(statistics)、人工智慧(artificial intelligence) 、機器學習(machine learning) 、 基因演算法( genetic algorithms ) 等等,13,資料探勘的功能,預測未來的趨勢 股市行情預測 天氣預測 地震預測 消費行為預測 商品出貨量預測等等 找出未知的樣式 找出會購買筆記型電腦的顧客特徵 依消費習性相近的顧客進行群組 推薦鑑別消費者可能會同時購買的商品組合等等,14,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較

6、 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,15,何謂資料探勘(1),學者曾對資料探勘做過的定義 Frawley 資料庫中挖掘潛在、明確、而且非常有用資訊的過程 Grupe & Owrang 從已存在的資料庫當中挖掘出專家仍未知的新事實 Fayyad 定義知識發掘 (Knowledge Discovery) 為從大量資料中選取合適的資料,進行資料處理、轉換等工作,再進行資料探勘與結果評估的一系列過程 Berry & Linoff 使用自動或半自動的方法,對大量資料分析,找出有意義的關係或法則。,16,何謂資料探勘(2),資料探

7、勘=資料庫之知識發掘(Knowledge Discovery in Databases,簡稱KDD) 從大型資料庫裡頭所儲存的資料當中去萃取出一些有趣的知識 知識指的就是一些規則 大型資料庫包括線上作業的資料庫 (On-line Database) 及資料倉儲 (Data Warehouse)等等 知識範例 如果顧客的年齡是在三十歲到四十歲之間,而且年收入是在四十萬到六十萬之間,那麼此顧客很有可能會購買筆記型電腦。,17,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探

8、勘未來的發展與挑戰,18,資料探勘歷史,19,資料探勘的演進,20,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,21,與決策支援系統的不同點,決策支援系統 (Decision Support System,DSS) 依決策模型或推論規則、提供建議 可以來自於領域專家(Domain Expert)的經驗法則 可運用知識工程(Knowledge Engineering)的技術自專家腦中擷取 可以用資料探勘技術所分析歸納出來的隱藏規則 資料探勘系統 自

9、動化的資料分析與預測,22,與線上分析的不同點,線上分析 (On-Line Analytical Processing,簡稱OLAP) 對制式化、關連性低的資料分析,統計數據供決策人員參考 讓零售業瞭解不同產品、銷售區域對於成本及營業毛利之影響,但無法了解顧客的購買行為模式,23,與統計分析的不同點(1),統計分析(Statistical Analysis) 以假設(Hypothesis)及驗證(Verification)為基礎 對較少資料,資料間的關連性或統計學上不同標的分析 由具專業專家對統計結果加以檢測 資料探勘 以發現(Discovery)為基礎,著重樣式辨認 供不具專業背景的使用者(

10、高層決策人員)使用,24,與統計分析的不同點(2),範例 統計分析 女性和男性消費者個別在本月的消費總額 不同網域的消費者在本月的消費總額 不同年齡層的消費者在本月的消費總額等 資料探勘 找出如下的規則: IF 住在台北 AND 性別是男性 AND 年齡介於 37到42歲之間 THEN 購買筆記型電腦的可能性是 85%,25,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,26,知識發現的過程,27,資料收集,知識發現的第一個步驟 原始資料來源 資料

11、庫系統 Excel表格 文字檔 網際網路 問卷調查等等,28,資料前置處理,原因 真實的資料非常雜亂,且收集資料的工具並沒有做精確的檢查,導致收集到的資料,並不見得全都可用 資料探勘有80%時間花費在前置作業 包含資料的淨化、格式轉換、表格的連結等前置作業,29,資料倉儲的建立,決策支援系統的基礎 含整合資料、詳細資料、總合性(summarized)資料、歷史性資料、描述資料、綱要資料 線上分析處理(On-Line Analytical Processing,OLAP) 統計、分析功能 可由關聯式資料庫建構 Sybase、Oracle、Redbrick等 OLAP 提供多維度結構(multid

12、imensional structures) 使用者依據不同維度,例如產品、地區、其它更透徹的觀察角度做統計,30,資料探勘,用統計與模型化的方法 資料倉儲所提供的資訊,供資料探勘做進步挖掘,而萃取隱藏知識後,再轉到知識庫 資料探勘是知識發現的一部分 知識發現的過程會影響資料探勘的成功,31,樣式評估,樣式評估(pattern evaluation) 評估所挖掘的知識是不是真的有用 ? 過濾沒用的資訊,最後剩下有價值的知識供給使用者 範例 天氣好,旅遊人數就多;天氣差,旅遊人數就少,這樣的探勘結果我們可能認為它“有趣”的程度並不高,因為它是屬於一般常識,32,結果展示,複雜的探勘結果要讓使用者

13、看懂並不容易 需要圖形化介面,把有趣的知識做好的呈現 例如:Microsoft SQL Server 2005的圖形化介面非常豐富 用類似油表的燈號,讓使用者看到現在的預算消耗量是加滿油的狀態、還是沒有油的狀態,33,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,34,資料探勘常用的技術,傳統技術 以統計分析為代表 包括敘述統計、機率論、迴歸分析、類別資料分析 用高等統計學含括的變因分析 (factor analysis)精簡變數 用區隔分析 (d

14、iscriminated analysis) 來做分類 用群集分析 (cluster analysis) 對象 大多是變數繁多且筆數龐大的資料,35,資料探勘常用的技術(續),改良技術 類神經網路(artificial neural network) 決策樹(decision tree) 基因演算法(genetic algorithms) 規則推論法(rules induction) 模糊理論(fuzzy logic),36,類神經網路,何謂類神經網路 模仿生物神經網路,用大量人工神經元(neuron)模擬 高速的運算功能,有記憶、學習、容錯能力 運算方法 用許多參數建立一個模式,過程中需要提

15、供資料給網路,能夠產生一組最佳結果的加權值(weights) 訓練方法回溯 (back-propagation) 特性 預測根據不明確 對於測試資料可以做相當正確的預測,但對於真實資料的預測,準確性差,37,類神經網路運算範例,n維的輸入向量x,透過矩陣相乘(scalar product)和非線性函數映射的方法,對應到變數y,mk,-,f,權重加總,輸入向量 x,輸出 y,活化函數 (Activation Function),權重向量 w,w0,w1,wn,x0,x1,xn,38,決策樹,何謂決策樹 用樹狀結構產生規則 內部節點(internal node)某項屬性的測試 分支(brache)

16、被測試屬性當中一個可能的值 葉節點(leaf node)布林函數 運算方法 樹的每個節點都是判斷式,判斷所輸入資料是否等於某個屬性值,構成樹狀結構 特性 適用於所有的分類問題 不一定較準確,但容易了解,39,決策樹範例-購買筆記型電腦,40,基因演算法,1960 年代John Von Neumann 提出一個自我複製 (self-reproducing) 的理論,奠定了基因演算法的基礎 美國密西根大學教授John Holland 延續此觀念,於1970 年發展出簡單基因演算法(Simple Genetic Algorithms 簡稱SGA),使 基因演算法的架構有了初步的雛型,41,基因演算法

17、(續),基因演算法(最佳化空間搜尋法) 適合解決最佳化問題 物競天擇、適者生存,不適者淘汰 運算方法 選擇(selection)、複製 (reproduction)、交配(crossover)、突變(mutation)進行演化,求最佳解 特性 高度的問題獨立性 不容易陷入局部最佳化(local optimum),而向整體最佳解收斂(global optimum),42,基因演算法範例,43,規則推論法,規則推論法 最直接也最為一般使用者所瞭解方法 瞭解資料庫中資料之特性規律,稱之為規則(Rule) 運算方法 一連串如果./則.(If / Then)之邏輯規則對資料進行細分的技術 特性 實際運用

18、時,如何界定規則為有效是最大的問題 通常需先將資料中發生數太少的項目先剔除,以避免產生無意義的邏輯規則,44,規則推論法範例-購買筆記型電腦,以購買筆記型電腦為例: IF 婚姻狀態=單身 AND 年齡=30歲 THEN 購買筆記型電腦=是 IF 婚姻狀態=已婚 AND 收入=低 THEN 購買筆記型電腦=否 IF 婚姻狀態=已婚 AND 收入=中 THEN 購買筆記型電腦=否 IF 婚姻狀態=已婚 AND 收入=高 THEN購買筆記型電腦=是,45,模糊理論,模糊理論 嘗試用人類思維去簡化問題複雜度 美國加州大學L. A. Zadeh(扎德)教授提出模糊集合 (Fuzzy Sets) 運算方法

19、 人類主觀表現的概念作大略的定量化處理 傳統必須依靠數學模型來達成控制 特性 和人類主觀感覺有關係,人們無法清楚了解他人的感受,只能從語意做大概判斷,達到彼此溝通目的,46,模糊理論運算範例,傳統電腦決策 不是對(1)就是錯(0) 例如 168公分以下算矮,那168公分以上就算高 何謂模糊 在對(1)與錯(0)之間,再多加幾各等級 幾乎對(0.8) 可能對(0.6) 可能錯(0.4) 幾乎錯(0.2) 168公分算不算高?,47,迴歸分析,迴歸分析 分析多個獨立變數(independent variable) 對於某個依變數(dependent variable)的影響,主要功能如下 利用獨立

20、變數解釋依變數 利用獨立變數預測依變數 利用依變數控制獨立變數 分析必須做下列假設 各母體(population)之間必須要是獨立的 每個母體必須要符合常態分配 樣本是從母體當中隨機的被抽取出來,48,迴歸分析範例,原始迴歸係數: 適於預測之用。 當資料為原始分數時,則預測方程式為: Y = ab1X1b2X2biXi (a:截矩 b:斜率),範例 設客戶年齡為獨立變數X1,客戶年收入為獨立變數X2,筆記型電腦售價為依變數Y,分析客戶年齡、客戶年收入與客戶所購買的筆記型電腦售價三者之歷史數據,建立出一個迴歸分析模型 Y = 542 X1 + 0.026 X2,49,第一章 資料探勘簡介,緣起

21、何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,50,資料探勘的模型,主要有以下四種 資料分類 (data classification) 資料關連 (data association) 資料分群 (data clustering) 循序樣式探勘 (sequential pattern mining),51,資料分類,何謂分類(classification) 監督式學習 (supervised learning) 分析資料的屬性,分門別類加以定義,以建立類組(class) 適用

22、領域 顧客分類、疾病因素分析等 範例 將信用卡申請者的風險屬性,區分為高度風險、中度風險、低度風險申請者,52,資料關連,資料關連 探討資料項目間的關係,找出某一事件或資料中會同時出現的項目 也叫做關連法則探勘 適用領域 購物籃分析(market basket analyses) 幫助零售業者瞭解客戶的消費行為 範例 如果顧客買NB,同時購買隨身碟的機率是80% 如果買全麥麵包及低脂優酪乳,那麼顧客同時也買低脂牛奶的機率是85%,53,資料分群,資料分群(Clustering) 非監督式學習(unsupervised learning) 從大量資料中找出案例間相似性,案例中每個屬性都可視為一個

23、維度,如果案例有n個屬性,就可將每個案例都各投射到n維空間上的一點 適用領域 顧客分群、群組推薦等等 範例 一群住在附近的人,駕駛相同的汽車,使用相同家電,並且食用相同的食物。而另一群從事相同行業的人,家庭成員人數接近,年收入接近,出國次數也很接近。透過觀察資料為何被群集在一起的,可以更了解資料間的關係,以及這些關係將會如何影響預言的結果,54,循序樣式探勘,循序樣式探勘 分析序列狀態轉變,從相關的序列當中預測未來的狀態 與關連法則所不同的是循序樣式探勘中相關的項目(item)是以時間區分 適用領域 股市行情預測、行為預測等等 舉例 在通訊品質不佳的無線網路環境中,此舉尚可提供客戶在離開無線網

24、路涵蓋區時,仍能離線瀏覽網頁的功能,55,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,56,資料探勘的應用實例 (1),成功案例 LTV鋼鐵公司(全美第三大) 偵測品質問題,使不良品減少99% 美國匯豐銀行(HSBC-Bank-USA) 在顧客資料中進行探勘,用生活方式區隔進行行銷,對行銷資源做最佳化規劃,銷售量提高了50% Jubii(丹麥最受歡迎的入口網站) 運用資料探勘探索哪一種瀏覽路徑最有可能促成交易?,改善網站設計,使得瀏覽率提升30%

25、50%,媒體銷售業績成長10%15%,57,資料探勘的應用實例(2),金融保險業 信用評等、客製化金融服務、客戶資產管理、呆帳分析、保險潛在客戶名單分析、直效行銷、分析購買行為、偵測信用卡詐騙行為、股匯市行情預測 零售製造業 分店設點區位分析、銷售產品組合、庫存管理、即時輔助購買決策、連續銷售、促銷商品組合、DM名單、庫存分析 醫療生技業 預防醫學分析、院內感染分析、臨床病徵分析、基因圖譜比對、基因定序、演化分析 教育業 學生來源分析、課程規劃、學習評量、適性化教學,58,資料探勘在顧客關係管理之應用,零售業者而言 瞭解顧客消費特性,發掘顧客採購模式,強化客戶關係,達到留住顧客目的 銀行業者而

26、言 瞭解信用卡發放可能產生之弊端,找出最有利潤、忠誠度佳的顧客 保險業者而言 分析保戶要求理賠之模式,並可加強稽核,以防止詐財之發生 優點 有效地在不同層面增加公司收益,達成營運目標,59,資料探勘在網路行銷之應用,分析顧客於網站上之行為模式 當顧客拜訪網站時,往往提供許多寶貴的資料,如個人資料、點選的網頁內容、在網頁所停留的時間、利用搜尋引擎時所使用的關鍵字、以及顧客到訪網站的時間點等,企業可藉由分析這些資訊來瞭解顧客的行為模式,藉以提高顧客對公司所提供之產品與服務的滿意度。 應用範例 可用以下特性區分訪客的特質 地理區隔 包括訪客地址、收入、購買能力 人格特質 訪客之購買特性,是否為衝動性

27、或精打細算型 訪客使用之資訊設備 網路頻寬、操作系統、瀏覽器或伺服器,60,資料探勘在網路入侵行為分析之應用,發掘異常網路行為 傳統分析突發網路狀況,需很長時間 利用高速運算,分析異常網路行為、動態調整與更新防禦機制 應用範例 協助網管執行進階的網路控管,並動態調整與更新防禦機制,進而遏阻網路入侵攻擊的潛在威脅 協助網管建立正常網路行為模型、異常的行為模型,61,資料探勘在網路學習之應用,適性化網路學習(Adaptive E-learning) 提供適合學習路徑給不同背景學習者 建構學習概念圖(concept map)規劃學生學習路徑 分析成績了解試題關連性,推導對應之概念 應用範例 利用關連

28、法則探勘技術 分析學習者的學習成績並了解試題間的關連性 推導出相對應於試題之概念間的關連 找出可以幫助領域專家建構學習概念圖的法則 構建適切的課程概念圖。,62,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,63,資料探勘的工具,整合型系統 將資料倉儲、資料探勘、及專家系統/決策支援系統整合 Cognos出品的SCENARIO () Business Objects出品的BusinessMiner () 一般性套裝軟體 單純只做資料探勘工作 IBM

29、的Intelligent Miner SPSS的Clementine 客製化軟體 依照某企業體或是某行業的需要所量身訂做的軟體 針對零售業開發的KD1 針對信用卡詐欺或呆帳偵測所開發的HNC,64,Microsoft SQL Server,SQL 7.0 微軟率先推出綜合兩種特色的HOLAP(混雜式OLAP) 將資料存放在關聯式資料表 處理效率大幅增進 同時在最少的額外儲存空間下,能夠有不錯的查詢速度 SQL Server 2000 只有決策樹和群集分析兩種演算法 僅能進行部分的分類、分群和預測的功能 SQL Server 2005(代號Yukon) 包含了七種演算法 包括決策樹、類神經網路、

30、貝氏演算法、序列群集分析、關連法則分析、迴歸樹(regression trees)、以及時間序列分析,增加許多大廠嚴重的競爭壓力,65,(Data Mining Assistant System),交大曾憲雄教授主持的知識工程實驗室所開發的資料探勘輔助系統 以JAVA開發 包含以下幾個模組 資料描述模組: 負責連結各種不同的資料來源 資料前置處理模組:提供資料前置處理應用程式介面 資料集模組: 負責擷取訓練資料集 關連法則探勘模組:提供關連法則探勘 分類模型探勘模組:提供分類模型探勘 群集分析模組: 提供群集分析 樣式集模組: 存放探勘出的樣式或模型 展示模組: 提供瀏覽樣式集,66,運作方式

31、,運作方式 利用簡單的視窗操作介面呼叫資料探勘引擎 直接撰寫JAVA 程式呼叫相關的應用程式介面來完成探勘的工作,67,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,68,未來的發展與挑戰,不同型態的資料處理 資料探勘演算法的效能 資料探勘結果的可用性及正確性 資料探勘結果的呈現方式 多重抽象層次中的互動式知識發掘 不同來源資料的整合 隱私保護與資料安全議題 更具預測能力的模型 更具延展性的模型 更具成本效益的模型 不斷進化成長的資料探勘標準 與關聯式資料庫的整合,69,總結,資料探勘憑著可預測未來的趨勢,創造新的 商業契機 沒有高品質的資料,就沒有高品質的探勘結 果!前置處理是資料探勘最重要第一步 資料探勘是知識發現 (knowledge discovery) 過程的一部分 資料探勘技術應用人才培訓上,尚待加強,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1