問題重述:有一個內含有大約40萬條常用詞匯的詞庫。現給定一篇文章,使用這個詞庫分析出常用詞匯的出現次數,并按出現次數由高到低排序這些詞語。
改進算法的思路:
1. 通常一篇文章所包含的詞語遠少于詞庫中40萬的數量;
2. 數據庫建立索引之后,可采用“二分法”對詞語進行快速定位;
3. 逐字縮小查詢范圍,如果查詢到某個字符時范圍已經為0,那么可以預測其后的詞一定也不存在,(例如查詢到forest時已經沒有匹配的詞了,就可以到此結束)。
標簽:
詞匯
上傳時間:
2017-02-25
上傳用戶:busterman