六章记忆基础理解Memory-basedreasoningMBRP.ppt

资源描述

《六章记忆基础理解Memory-basedreasoningMBRP.ppt》由会员分享，可在线阅读，更多相关《六章记忆基础理解Memory-basedreasoningMBRP.ppt（30页珍藏版）》请在三一文库上搜索。

1、第六章記憶基礎理解 (Memory-based reasoning, MBR),定義：用人工智慧的方式，以現有資料庫對新資料進行分類與預測。,記憶基礎理解 (Memory-based reasoning, MBR),記憶基礎理解記憶基礎理解可以應用的行業: 詐欺案件判斷。顧客反應預測。醫療服務追蹤。問卷資料分類。,如何進行 (學習階段),如何進行 (預測階段),解決問題的三個主題,選擇適當的歷史資料關鍵：資料的範圍必須能涵蓋原始資料抽樣方法: 找出具效率的方式代表歷史資料減少歷史資料庫的記錄數量 (圖9.3、9.4) 設定距離函數、組合函數、和鄰近資料的組數 (K值),案例研究

2、新聞報導分類,案例研究新聞報導分類,選擇測試資料組 : 49,652則新聞稿, 每一則平均2700字與8個編碼 2. 設定距離函數利用一個叫 “相關回饋(Relevance Feedback)” 的測試標準, 比對任何文件的相似度 (參見課本) ; B與A的距離: d(A, B) = 1 - Score(A, B) / Score(A, A),案例研究新聞報導分類,3. 設定組合函數為未分類的新聞找出最相似者,案例研究新聞報導分類,3. 設定組合函數為未分類的新聞評分 (門檻值為1),案例研究新聞報導分類,4. 設定鄰近資料組數 1 11組若要配置在單一編碼, 則選擇較少組數

3、較合適,案例研究新聞報導分類,5. 結果(200則, 半數同意才合格),案例研究新聞報導分類,測量評分的效用:反查(Recall)與準度(Precision),距離函數,關鍵特性： 1. 明確界定(Well-defined) : d(A, B) = 0 2. 區辨性(Identity) : d(A, A) = 0 3. 可互換性(Commutability) : d(A, B) = d(B, A) 4. 三角不等式(Triangle Inequality) : d(A, C) = d(A, B)+d(B, C) 絕對值 : |A-B| ; 平方差 : (A-B)2 ; 標準化絕對值 : |

4、A-B|/(最大差值),組合函數,民主方式 (投票方式) 讓最近似的K個鄰近資料以投票的方式選出答案。加權投票著重在“加權” 最適用問題：類別變數加權對於結果和信心水準只有小幅度影響，在部份鄰近資料比較近，而部份比較遠的情況下，加權才會有較大的效果。加入迴歸分析,例子,一次建立一個單變數的距離函數,例子,例子,採用標準化絕對值與將三種距離加總,例子,同理也可對薪水做距離矩陣加總 : dsum(A,B)=ds(A,B)+do(A,B)+di(A,B) 標準化加總 : dsum(A,B)/maxdsum(A,B) 歐幾里德距離 : SQTR(ds(A,B)2+do(A,B)2+d

5、i(A,B)2),例子,每一點在三種距離函數下的最近似組合,例子,加入新顧客,例子,使用MBR與投票來判斷新顧客是否會流失與信心水準,例子,使用MBR與加權來判斷新顧客是否會流失預測,組合函數,加入迴歸分析處理數值或順序變數最適用問題：連續數值迴歸分析：將數據去適配到某些已知的函數，然後運用函數推算出未知值。實例：以通貨膨脹率推算股市漲跌 (圖9.8 , 圖9.9),其他距離函數,其他資料型態的應用五位數郵遞區號 dzip(A, B) = 0 前3碼一樣 dzip(A, B) = 1 前3碼不一樣 dzip-refined(A, B)=0.0 dzip-refined(A,

6、B)=0.1 ex. “20008” “20015” dzip-refined(A, B)=0.5 ex. “95050” “98125” dzip-refined(A, B)=1.0 ex. “02138” “90024”,如何獲得最佳結果,選擇正確的訓練資料組增加罕見分類項的資料數量距離函數鄰近資料數量(k值)的考量無一定數量的限制組合函數類別性資料加權投票連續性數值結合迴歸分析與最似鄰近方法,MBR的優點,結論容易推測能運用在任何資料型態、甚至是非關聯式資料上在任何數量的變數下都能運作良好訓練資料組容易建立,MBR的缺點,在預測階段上運算作業繁複訓練資料組需要大量記錄高度依賴距離函數和組合函數,

展开阅读全文