「我是中國(guó)人」,ChineseTokenizer會(huì)將之分割為五個(gè)中文字:「我、是、中、國(guó)、人」,CJKTokenizer則會(huì)將之分割為「我是、是中、中國(guó)、國(guó)人」四個(gè)二節(jié)的詞。前者的問(wèn)題是沒(méi)有考慮中文詞語(yǔ)的問(wèn)題,如搜尋「國(guó)中」一樣搜尋到「我是中國(guó)人」。後者的問(wèn)題則是制做了大量沒(méi)意義的詞如「是中」「國(guó)人」,讓索引沒(méi)必要地增大、降低搜尋效率。
標(biāo)簽:
上傳時(shí)間:
2015-12-18
上傳用戶(hù):stvnash