「我是中國(guó)人」,ChineseTokenizer會(huì)將之分割為五個(gè)中文字:「我、是、中、國(guó)、人」,CJKTokenizer則會(huì)將之分割為「我是、是中、中國(guó)、國(guó)人」四個(gè)二節(jié)的詞。前者的問題是沒有考慮中文詞語的問題,如搜尋「國(guó)中」一樣搜尋到「我是中國(guó)人」。後者的問題則是制做了大量沒意義的詞如「是中」「國(guó)人」,讓索引沒必要地增大、降低搜尋效率。
標(biāo)簽:
上傳時(shí)間:
2015-12-18
上傳用戶:stvnash