?? readme.txt
字號:
TextPreProcessing程序說明
本程序希望對文本文件進行以下預處理,包括:
1. 刪除文件中的中文、西文空格
2. 將篇章切分為一個個的句子,切分標志為:。 ! ? … ;等,句中如果有引號,要求左右匹配
3. 對句子按長度從大到小分行排序。
4. 在每行句子前加上序號
5. 統計一個文件中各種長度的句子的頻次,按照句長頻次降序輸出統計結果
以上功能一般按照1-5的順序執行
6. 將特定格式的普通文本文件加上XML標記,以.xml后綴輸出(文本文件格式不合要求,程序會出錯)
7. 將經過分詞和詞性標注的文件還原為普通文本文件(尚未實現)
示例文本文件放在 \test\目錄下
AnnotatedText.txt 為經過分詞和詞性標注的人民日報語料
CorporaSample1.txt 為從北大中文系語料庫中抽取出來的一個特定格式的文本文件(現當代文學作品)
PeopleDailySample.txt 為從北大中文系語料庫中抽取出來的一個特定格式的文本文件(人民日報語料)
test1.txt 用于測試“文本斷句”功能,該文件句中有回車隔斷
test2.txt 用于測試“文本斷句”功能,該文件句中無回車隔斷,段落之間有回車分隔
test3.txt 用于改進“文本斷句”功能,注意: !”有時候不能作為斷句的標志。
2002/10/22
詹衛東
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -