亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

? 歡迎來到蟲蟲下載站! | ?? 資源下載 ?? 資源專輯 ?? 關于我們
? 蟲蟲下載站

?? test_input.txt

?? 這是一個小的中文術語提取工具
?? TXT
?? 第 1 頁 / 共 5 頁
字號:
?加介次掌
碩士學位論文
論文題目垂直搜索引擎若干關鍵技術的研究
作者姓名王曉偉
指導教師林懷忠副教授
學科(專業)計算機應用技術
所在學院計算機科學與技術學院
提交日期二00七年五月ADissertationsubmittedtoZhejiang
    UniversityfortheDegreeof
  MasterofEngineering
    ResearchonKeyTechniquesof
  VerticalSearchEngine
Author:
SuPervisor:
Major:
 WangXiaowei
  Assoc.Prof.LinHuaizhong
ComPuterAPPlieation
College
  ZhejiangUniversity,
  ofComPuterScienee
Hangzhou, P.R.China,  310027
May,2007浙江大學碩士學位論文摘要
摘要
隨著Intemet的飛速發展,W七b的信息量越來越大,通用搜索引擎將面臨信
息采集、存儲等方面更大的挑戰。此外,由于通用搜索引擎面向所有的用戶,力
爭在返回結果上做到面面俱到,包羅萬象的結果顯然不能滿足用戶精確搜索的需
求。因此,面向專業領域的搜索引擎即垂直搜索引擎應運而生。
與通用搜索引擎不同,垂直搜索引擎的網絡蜘蛛只采集Web中的部分信息。
通過對網頁的主題相關度進行預測和判斷,專業網絡蜘蛛在爬行(Crawling)時
避開了大量主題無關的區域。由于只采集主題相關的網頁,垂直搜索引擎在查詢
的準確率和效率上都有顯著的提高。目前,垂直搜索引擎的中文分詞和主題預測
有待進一步提高精度,網絡蜘蛛的搜索策略也有待進一步改進以提高搜索引擎的
覆蓋率和效率。
本文提出了基于主題的自適應的分詞技術,使用候選詞典和專業詞庫來指導
分詞和歧義消除,能有效地提高專業領域中分詞的查全率和查準率。
本文還提出了基于父網頁的主題相關度預測算法(CPAP)、基于鏈入網頁的
主題相關度預測算法(CPAH)和TPR主題預測算法。C隊P利用了錨文本和父
網頁的主題相關度等信息進行預測;CPAH在預測主題相關度時綜合考慮了鏈接
的數量和質量;TPR算法則將網頁的主題相關性和權威性相結合,從而有效地防
止了“主題漂流”現象。
為了解決普通隧道技術隨著探索半徑的增大,主題無關網頁呈指數級增加的
問題,本文提出了稀疏隧道技術,稀疏隧道技術使專業網絡蜘蛛在整個W七b中拉
網式地探索未知網頁,從而實現“疏而不漏”地挖掘新的WebC。~unity。
最后是系統的設計與實現,在上述理論分析的基礎上提出了系統的設計思
想,并介紹了系統的體系結構和具體實現技術。
關鍵詞垂直搜索引擎,中文分詞,網絡蜘蛛,隧道技術,主題相關度預測
2浙江大學碩士學位論文AbstraCt
AbstraCt
          TheraPidgrowthoftheInternetPosesunPreeedentedsealingehallengesfor
general一   Purposesearehengines.Inaddition,general一   PurposesearchenginesProvide
   serviceforallusers,        50theresultsfromthemaretooexhaustive.Thousandsof
        irrelativeresultsobviouslydonotmeetPreeisesearchneeds.Therefore,Vertical
         SearehEnginewhiehProvidesservieeinasinglefieldemerged.
      Ratherthaneolleetingandindexingallaeeessiblew七     bdoetunentstobeableto
   answerallPossiblequeries,         afoeusederawleranalyzesitscrawlboundarytofindthe
          linksthatarelikelytobemostrelevantforthecra、vl,    andavoidsirrelevantregionsof
thew七     b.AsonlyrelatedPagesarecrawled,     aeeuracyandeffieieneyofvertiealsearch
   engineshaveimProvedremarkably.Currently,    aeeuraeyofChineseWbrd
        SeglnentationandCorrelationPredictionarestilltobeimProved,  searehstrategyof
             FocusedCrawlerhasyettobefurtherimProvedtoenhancesearehengineeoverageand
effieieney.
   InChineseW6rdSegmentation,     thisPaperPresentsnewalgorithxnnamed
         AdaptiveChineseWbrdSegmentationbasedonThemewhiehuseCandidate
        dictionaryandProfessionaldietionarytoguideseglnentationandambiguity
           elimination.ItProvedtobeeffeetiveinraisingPrecisionoftheProfessionalword
segmentation.
   InCorrelationPredietionAlgorithm,      threemodelsarePresentedinthisPager:
     CorrelationPredictionAlgorithmBasedonFather(CPAP), CorrelationPredietion
       AlgorithmBasedonHyPerlink(CPAH)andTPRCorrelationPredictionAlgorithm.
             TheanchortextandCorrelationofFatherPagesareinvolvedintheCPAPmodel:
          CPAHmodelealeulateseorrelationbythequantityandqualityofPages:TPR
       algorithmeombinestheeorrelationandauthorityofPages,  therebyiteffectively
Prevent’ .themedrift,,Phenomenon.
 Inthew七  bSearchStrategy,        thisPaperPresentsasParsetunnelingtechnology.it
        effeetivelyaddressedtheexPoneniialinereasingProblemwithoriginaltunneling
     teehnology.SParsetunnelingteehnologyexPloretheentire節  /ebsParsely, therebyit
       greatlyimProvedtheProbabilityofdiscoveringnewwebconununities.
          FinallythedesignandtherealiZationofthesystemareintrodueed, includingthe
   systemstructureandmethod.
   KeywordsVertiealSearehEngine,Chinese認  /OrdSegmentation, FoeusedCrawler,
Tunneling, CorrelationPredietion
窮浙江大學碩士學位論文目錄
目錄
摘要.........................................................................................................................……i
Abstract.............................................................................……,.............................……11
第1章緒論.....................................................……,..............................................……l
1.1背景..................................……,................................……,.....................……,....……1
1.2通用搜索引擎................................................................................................……1
1.2.1搜索引擎的發展歷史..…,..........……,......................................................……1
1.2.2搜索引擎的分類.....................................................................................……2
1.2.3搜索引擎組成及工作原理.....................................................................……3
 1.2.4現有的通用搜索引擎的局限性.............................................................……4
1.2.5搜索引擎的發展趨勢.............................................................................……5
1.3垂直搜索引擎................................................................................................……6
1.3.1垂直搜索引擎的優勢.............................................................................……6
1.3.2專業網絡蜘蛛.........................................................................................……6
1.3.3研究現狀.......……,...................................................................................……7
1.4本文的工作和組織........................................................................................……8
第2章相關技術的研究現狀............................................................................……10
2.1中文分詞技術.…,.........................................................................................……10
2.1.1基于字符串匹配的分詞方法.......................……,....……,......................……10
 2.1.2基于統計的分詞方法...........................................................................……12
2.1.3基于理解的分詞方法...........................................................................……14
2.2主題判別的研究現狀..................................................................................……14
2.2.1布爾模型..…,.......……‘.......……,................……,......................................……14
2.2.2向量空間模型.......................................................................................……巧
2.3基于鏈接的分析技術....................................……,.......................................……16
 2.3.1PageRank算法................……,.……,........................................................……16
 2.3.2HITS算法..............................................................................................……19
 2.3.3PageRank和HITS算法比較................................................................……20
2.4本章小節......................................................................................................……20
第3章中文分詞和主題預測算法....................................................................……21
3.1基于主題的自適應的分詞方法..................................................................……21
3.1.1候選詞典.............……,......................................................……,........……,..…21
3.1.2Aging技術.............................................................................................……22
必浙江大學碩士學位論文目錄
3.1.3基于主題的自適應分詞算法...............................................................……23
3.2基于 WebCommunity的URL主題相關度預測.......................................……24
3.2.1基于父網頁的主題相關度預測......................................……,,.............……25
3.2.2基于鏈入網頁的主題相關度預測.......................................................……27
 3.2.3TPR主題相關度預測算法................................................……,.............……28
3.3本章小結......................................................................................................……33
第4章基于稀疏隧道技術的專業網絡蜘蛛....................................................……35
4.1專業網絡蜘蛛................................……,.....................................................·.……35
4,1.1專業網絡蜘蛛的工作原理...................................................................……35
4.1.2專業網絡蜘蛛存在的問題...................……,.........................................……36
4.2隧道技術..........……,..........................……,....................................................……38
4.2.1隧道技術分析...........................................................................·......·····……38
4.2.2隧道技術的優點...................................................··...···························……39
4.3稀疏隧道技術.................................................................................······..·····……39
  4.3.1webCO~unity黑名單.....................................................................·..……40
4.3.2稀疏探索...............................................................................................……41
4.3.3稀疏隧道技術的流程...........................................................................……41
4.3.4策略的比較...........................................................................··.·············……42
第5章系統設計與實現....................................................................................……45
5.1設計思想......................................................................................................……45
5.2體系結構...................................................................................................……,二45
5.2.lu砒服務器..........................................................................……,.....·····……46
5.2.2網絡蜘蛛...............................................................................................……46
5.2.3主題判別器................................................................................·····...···……47
5.2.4U甩提取器...........................................................................................……48
5.2.5主題預測器...........................................................................................……49
第6章總結與展望...............................................................................·············……50
6.1總結..............................................................................................................……50
6.2展望..............................................................................................................……50
參考文獻..............................................................................................................……51
致謝......................................................................................................................……54
言浙江大學碩士學位論文第l章緒論
第1章緒論
1.1背景
隨著玩temet的飛速發展,Web的信息量越來越大,人們往往需要借助搜索
引擎來幫助他們尋找特定領域的資料,然而現有的搜索引擎如Google、百度等,
都不是專門為搜索特定領域資料而設計的,這些搜索引擎面向所有的用戶,力爭
在返回結果上做到面面俱到。因此,真正需要的資料往往淹沒在大量的無用的信
息中,在這種情況之下,面向特定專業的搜索引擎,即垂直搜索引擎應運而生。
垂直搜索引擎也叫專業搜索引擎,是相對通用搜索引擎的覆蓋率過低、查詢不準
確、更新不及時等缺點提出來的新的搜索引擎服務模式,它通過針對某一特定領
域、某一特定人群或某一特定需求而提供有一定價值的信息和相關服務,其特點
是“專、精、深”,且具有行業色彩。
目前因特網上的可索引到的網頁數量已超過110億頁【l],還有相當大的一部
分網頁無法被搜索引擎索引到,即使是世界上最大的搜索引擎Google也只能索引
到整個Web的30一40%,更新這些索引的時間從幾周到幾個月不等。這種挑戰不
是來自互聯網本身,而是來自一個簡單的哲學道理:我們沒有辦法讓一臺機器存
儲整個互聯網的信息,垂直搜索引擎是在這樣的背景下提出來的一種順應歷史潮
流的解決方案。
本文在這種背景下,結合近年來比較熱門的FocusedC~ling[2]的研究成果,
對垂直搜索引擎中的中文分詞和精確爬行(C~ling)技術提出了新的思路和解決

?? 快捷鍵說明

復制代碼 Ctrl + C
搜索代碼 Ctrl + F
全屏模式 F11
切換主題 Ctrl + Shift + D
顯示快捷鍵 ?
增大字號 Ctrl + =
減小字號 Ctrl + -
亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频
一区二区三区四区蜜桃| 3d成人h动漫网站入口| 精品一区二区三区免费播放| 亚洲成av人综合在线观看| 亚洲精品v日韩精品| 夜夜精品视频一区二区 | 午夜精品一区二区三区电影天堂| 国产精品美女久久久久久久| 国产精品私人影院| 国产精品初高中害羞小美女文| 国产精品污污网站在线观看| 国产精品乱码妇女bbbb| 亚洲综合偷拍欧美一区色| 亚洲欧美偷拍三级| 亚洲成人高清在线| 久久精品国产77777蜜臀| 国产综合久久久久久鬼色| 国产精品亚洲人在线观看| 成人v精品蜜桃久久一区| 一本久道久久综合中文字幕| 欧美日韩一区二区三区不卡 | 久久99精品久久久久久| 国产综合色视频| www.欧美日韩| 欧美视频一区二区三区在线观看| 欧美日韩高清影院| 精品国产免费一区二区三区四区 | 97超碰欧美中文字幕| 日本黄色一区二区| 日韩一本二本av| 中文字幕精品一区| 午夜久久久影院| 国产高清亚洲一区| 欧美午夜电影网| 亚洲精品在线观看网站| 亚洲欧美综合色| 裸体在线国模精品偷拍| 99精品欧美一区二区三区小说| 欧美私人免费视频| 国产婷婷一区二区| 图片区小说区区亚洲影院| 国产高清不卡二三区| 欧美日本一区二区在线观看| 国产三级精品三级| 日韩专区欧美专区| 99精品欧美一区二区蜜桃免费| 67194成人在线观看| 亚洲日本丝袜连裤袜办公室| 免费成人小视频| 日本韩国欧美一区二区三区| 久久精品视频在线看| 日韩黄色一级片| 99re视频这里只有精品| 久久久综合九色合综国产精品| 亚洲国产一区二区在线播放| 成人亚洲精品久久久久软件| 日韩一区二区视频| 视频在线观看91| 色偷偷一区二区三区| 日本一区二区三区视频视频| 免费在线视频一区| 欧美日韩中文国产| 亚洲最色的网站| 色综合久久中文综合久久97| 中文av字幕一区| 国精产品一区一区三区mba桃花| 6080国产精品一区二区| 亚洲一区在线播放| 日本高清不卡在线观看| 亚洲日本在线a| 99国产精品久久久久久久久久| 久久久久久**毛片大全| 欧美中文字幕一区二区三区亚洲| 色婷婷香蕉在线一区二区| 亚洲资源中文字幕| 久久欧美中文字幕| 成人免费视频app| 欧美日韩一区在线观看| 亚洲国产成人av网| 777亚洲妇女| 美女在线视频一区| 久久久久国产精品厨房| 成人av中文字幕| 国产精品家庭影院| 欧亚一区二区三区| 天天亚洲美女在线视频| 欧美一级一区二区| 美国毛片一区二区| 国产亚洲精品aa午夜观看| 国产成人在线免费观看| 国产精品第13页| 欧美手机在线视频| 久久99精品久久久久久动态图| 日韩精品中午字幕| 高清不卡一二三区| 色综合天天综合色综合av| 国产成人亚洲综合a∨猫咪| 日韩成人一区二区三区在线观看| 欧美成人vr18sexvr| 亚洲不卡在线观看| 久久综合九色综合97_久久久| 国产69精品久久久久毛片| 亚洲靠逼com| www国产精品av| 97久久超碰国产精品| 同产精品九九九| 欧美激情中文不卡| 欧美精品视频www在线观看| 国产一区日韩二区欧美三区| 亚洲欧美偷拍三级| 精品国产一区二区三区久久久蜜月 | 中文字幕在线视频一区| 在线观看日韩一区| 国产自产2019最新不卡| 亚洲精品视频免费看| 精品免费日韩av| 欧美在线高清视频| 国产精品资源网站| 亚洲一区二区欧美激情| 久久久久久免费| 欧美精品日日鲁夜夜添| 94色蜜桃网一区二区三区| 久久精品国产免费| 亚洲综合在线免费观看| 国产亚洲一区二区三区四区| 欧美日本国产视频| 色婷婷综合久久久久中文| 国产乱人伦偷精品视频免下载| 亚洲成人av一区二区三区| 中文字幕的久久| 欧美成人猛片aaaaaaa| 欧美日本一道本在线视频| 成人小视频免费在线观看| 美女视频网站黄色亚洲| 亚洲在线视频一区| 1024成人网色www| 国产精品美女久久久久久2018| 日韩精品一区二区三区在线播放 | 久久综合色婷婷| 欧美日韩aaa| 欧洲国内综合视频| 色婷婷综合久久久久中文| 91在线免费看| 成人av网站在线观看| 国产精品原创巨作av| 国产九色精品成人porny| 免费在线看一区| 青娱乐精品视频| 强制捆绑调教一区二区| 丝袜亚洲另类欧美| 日韩av网站在线观看| 日一区二区三区| 日韩成人一区二区三区在线观看| 婷婷成人综合网| 日韩中文字幕91| 日韩精品免费视频人成| 日本特黄久久久高潮| 青草国产精品久久久久久| 免费久久精品视频| 国产一区二区女| 成人免费视频视频在线观看免费| 成人高清视频在线| 色久综合一二码| 欧美日韩国产在线观看| 欧美一级艳片视频免费观看| 精品久久国产97色综合| 久久久久久9999| 中文字幕一区二区三中文字幕 | 在线观看91视频| 欧美日韩免费不卡视频一区二区三区| 在线观看视频一区| 日韩一级二级三级精品视频| 精品噜噜噜噜久久久久久久久试看| 欧美一级片在线看| 国产欧美日韩在线看| 亚洲人妖av一区二区| 天天av天天翘天天综合网| 欧美aaaaa成人免费观看视频| 国产精品资源在线观看| 91亚洲大成网污www| 欧美一区二区三区系列电影| 久久久久久久久99精品| 亚洲乱码国产乱码精品精98午夜| 亚洲国产wwwccc36天堂| 国产一区二区导航在线播放| 99re热这里只有精品视频| 91精品国产综合久久久久久久| 久久亚洲精华国产精华液| 亚洲视频免费在线| 久久99精品久久久| 91久久线看在观草草青青| 日韩一区二区三区在线| 亚洲视频小说图片| 激情国产一区二区| 欧美在线免费播放| 中文在线资源观看网站视频免费不卡 | 国产一区二区在线观看视频| 91麻豆高清视频| 久久―日本道色综合久久| 亚洲综合久久久久|