?? 5.txt
字號:
發信人: mining (key), 信區: DataMining
標 題: Web Mining:第二代網絡信息處理技術(2)
發信站: 南京大學小百合站 (Tue Nov 13 10:37:05 2001), 站內信件
二、 網絡信息挖掘的步驟
(1) 確立目標樣本:由用戶選擇目標樣本,作為提取用戶特征信息
的依據。
(2)建立統計詞典:建立用于特征提取和詞頻統計的主詞典和同義
詞詞典、蘊含詞詞典。
(3)特征信息提取:根據目標樣本的詞頻分布,從統計詞典中提取
挖掘目標的特征向量,并計算出相應的權值。
(4) 調整特征矢量:根據測試樣本的反饋,調整特征項權值和匹配
閾值。
(5)網絡信息獲取:先利用搜索引擎站點選擇待采集站點,再利用R
obot程序采集靜態Web頁面,最后獲取被訪問站點網絡數據庫中的動態
信息。
(6)信息特征匹配:提取源信息的特征向量,并與目標樣本的特征
向量進行匹配,將符合閾值條件的信息提交給用戶。
三、 網絡信息挖掘中的關鍵技術
1. 目標樣本的特征提取
系統采用向量空間模型(VSM:Vector Space Model),用特征詞條
及其權值代表目標信息,在進行信息匹配時,使用這些特征項評價未知
文本與目標樣本的相關程度。特征詞條及其權值的選取被稱為目標樣
本的特征提取,特征提取算法的優劣將直接影響到系統的運行效果。
詞條在不同內容的文檔中所呈現出的頻率分布是不同的,因此可以根
據詞條的頻率特性進行特征提取和權重評價。
一個有效的特征項集應該既能體現目標內容,也能將目標同其他
文檔相區分。因此, 詞條權重正比于詞條的文檔內頻數,反比于訓練
文本內出現該詞條的文檔頻數。
與普通的文本文件相比,HTML文檔中有明顯的標識符,結構信息更
加明顯,對象的屬性更為豐富。系統在計算特征詞條權值時,充分考慮
HTML文檔的特點,對于標題和特征信息較多的文本賦予較高權重。為
了提高運行效率,系統對特征向量進行降維處理,僅保留權值較高的詞
條作為文檔的特征項,從而形成維數較低的目標特征向量。
--
--
※ 來源:.南京大學小百合站 bbs.nju.edu.cn.[FROM: 202.118.237.14]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -