網(wǎng)頁是組成互聯(lián)網(wǎng)的基本數(shù)據(jù)單元,是各種面向互聯(lián)網(wǎng)的應(yīng)用系統(tǒng)最原始的數(shù)據(jù)源。網(wǎng)頁內(nèi)部含有大量噪音信息,如何從網(wǎng)頁中有效地提取有價(jià)值的內(nèi)容成為影響數(shù)據(jù)處理效果的關(guān)鍵。 網(wǎng)頁正文提取指的是從原始網(wǎng)頁中精確地提取出正文文本,比如提取新聞網(wǎng)頁中的報(bào)道內(nèi)容。能否高效地提取出網(wǎng)頁的正文
標(biāo)簽:
頁
互聯(lián)網(wǎng)
數(shù)據(jù)單元
上傳時(shí)間:
2017-06-19
上傳用戶:jiahao131