亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

? 歡迎來到蟲蟲下載站! | ?? 資源下載 ?? 資源專輯 ?? 關于我們
? 蟲蟲下載站

?? code3.txt

?? 我做了幾個英文分詞的程序
?? TXT
字號:
 分詞程序集成了一個可以提取詞干的開源項目成果 
這兩天正好在項目中需要提取詞干(word stemming),詞干是什么?比如documentation這個詞,它的詞干就是document。再比如tables這個復數形式,它的詞干就是tabl。詞干也許可以理解為類似于詞根一樣的概念。我沒有去查準確的定義,不過我想它的用處是顯而易見的。我們如果想比較兩個詞的相似程度,比如下面兩個詞:go和went。這怎么辦,其實從目的上講我們是希望這兩個詞有較高的相似度的(語義上極為相似),然而從簡單的字符串處理方法上,比如編輯距離的處理方式,這兩個詞也許就很不相似了。然而經過提取詞干以后,一切就不一樣了,went能夠被還原成go,很有用的方法。再比如典型的應用:stem和stemming這兩個詞如果要考慮語義相似性,那應當是非常相似的(只不過是兩種時態而已),可是從編輯距離或者VSM的角度考慮,也許他們的相似性要大打折扣。然而stemming提取詞干以后,就還原成了stem。

我想過自己去實現一個這樣的工具,然而翻閱了一些經典的英語語法書籍,發現要考慮的事情太多了,感興趣的可以去這個地方看看:http://www.phon.ucl.ac.uk/home/dick/enc/intro.htm  于是我尋找各種現有的開源項目。其實首先接觸到的是一個叫做KIMMO的工具,我也是無意中通過它才知道了提取詞干這回事。它是用腳本語言編寫的,我對這個方面不很熟悉,不敢貿然使用。然后才知道提取詞干方面也許是一個很權威的方法:Porter Stemming算法,它的主頁是:http://www.tartarus.org/~martin/PorterStemmer/  幸運的,我找到了它的一個開源的應用,是他們自己的工作結晶,一個叫做Snowball的項目,地址是:http://snowball.tartarus.org/  他們的庫可以在這兒下載:http://snowball.tartarus.org/dist/libstemmer_java.tgz

集成這個工具來提取詞干是很方便的,要注意的是這個工具不僅支持提取英文詞干,也支持法語、俄語等多種其他語言(當然不包括中文)。下面是一個典型的應用實例,我將它集成到了我的分詞程序中,以下是全部源代碼。其中,為了適合我們應用的需要,將數字部分保留了,浮點數也可以被提取和保留下來,然而因為時間緊迫的關系暫時用了兩邊掃描。


import java.util.*;
import java.lang.reflect.Method;
import org.tartarus.snowball.*;

public class SplitWords {
    /* 分隔符的集合 */
    private final String delimiters = " \t\n\r\f~!@#$%^&*()_+|`-=\\{}[]:\";'<>?,./'1234567890";

    /* 語言 */
    private final String language = "english";

    public String[] split(String source) {
        /* 提取數字 */
        Vector vectorForNumber = new Vector();
        flag3: for (int i = 0; i < source.length(); i++) {
            char thisChar = source.charAt(i);
            StringBuffer thisNumber = new StringBuffer();
            boolean hasDigit = false;
            if (Character.isDigit(thisChar)) {
                thisNumber.append(thisChar);
                for (++i; i < source.length(); i++) {
                    thisChar = source.charAt(i);
                    if ((thisChar == '.') && !hasDigit) {
                        thisNumber.append(thisChar);
                        hasDigit = true;
                    } else if (Character.isDigit(thisChar)) {
                        thisNumber.append(thisChar);
                    } else {
                        if (thisNumber.length() != 0) {
                            vectorForNumber.addElement(thisNumber.toString());
                            continue flag3;
                        }
                    }
                }
                if (thisNumber.length() != 0) {
                    vectorForNumber.addElement(thisNumber.toString());
                }
            }
        }

        /* 剔除. */
        int positionOfDot;
        StringBuffer tempSource = new StringBuffer(source);
        while ((positionOfDot = tempSource.indexOf(".")) != -1) {
            tempSource.deleteCharAt(positionOfDot);
        }
        source = tempSource.toString();

        /* 根據分隔符分詞 */
        StringTokenizer stringTokenizer = new StringTokenizer(source,
                delimiters);

        /* 所有的詞 */
        Vector vector = new Vector();

        /* 全大寫的詞 -- 不用提詞干所以單獨處理 */
        Vector vectorForAllUpperCase = new Vector();

        /* 根據大寫字母分詞 */
        flag0: while (stringTokenizer.hasMoreTokens()) {
            String token = stringTokenizer.nextToken();

            /* 全大寫的詞單獨處理 */
            boolean allUpperCase = true;
            for (int i = 0; i < token.length(); i++) {
                if (!Character.isUpperCase(token.charAt(i))) {
                    allUpperCase = false;
                }
            }
            if (allUpperCase) {
                vectorForAllUpperCase.addElement(token);
                continue flag0;
            }

            /* 非全大寫的詞 */
            int index = 0;
            flag1: while (index < token.length()) {
                flag2: while (true) {
                    index++;
                    if ((index == token.length())
                            || !Character.isLowerCase(token.charAt(index))) {
                        break flag2;
                    }
                }
                vector.addElement(token.substring(0, index).toLowerCase());
                token = token.substring(index);
                index = 0;
                continue flag1;
            }
        }

        /* 提詞干 */
        try {
            Class stemClass = Class.forName("org.tartarus.snowball.ext."
                    + language + "Stemmer");
            SnowballProgram stemmer = (SnowballProgram) stemClass.newInstance();
            Method stemMethod = stemClass.getMethod("stem", new Class[0]);
            Object[] emptyArgs = new Object[0];
            for (int i = 0; i < vector.size(); i++) {
                stemmer.setCurrent((String) vector.elementAt(i));
                stemMethod.invoke(stemmer, emptyArgs);
                vector.setElementAt(stemmer.getCurrent(), i);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }

        /* 合并 */
        for (int i = 0; i < vectorForAllUpperCase.size(); i++) {
            vector.addElement(vectorForAllUpperCase.elementAt(i));
        }
        for (int i = 0; i < vectorForNumber.size(); i++) {
            vector.addElement(vectorForNumber.elementAt(i));
        }

        /* 轉為數組形式 */
        String[] array = new String[vector.size()];
        Enumeration enumeration = vector.elements();
        int index = 0;
        while (enumeration.hasMoreElements()) {
            array[index] = (String) enumeration.nextElement();
            index++;
        }

        /* 打印顯示 */
        for (int i = 0; i < array.length; i++) {
            System.out.print(array[i] + " ");
        }

        /* 返回 */
        return array;
    }

    public static void main(String args[]) {
        SplitWords sw = new SplitWords();
        sw
                .split("These 232 tables are for ARE-Company using only. The I.S.B.N number of J.Smith's book is ISBN302.1.2.");
        //sw.split("123");
    }
}




Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=429056




public class SplitWords {
    /* 分隔符的集合*/
    private String delimiters = " \t\n\r\f~!@#$%^&*()_+|`-=\\{}[]:\";'<>?,./'1234567890";

    /* 語言*/
    private String language = "english";

    public String[] split(String source) {
        /* 提取數字*/
        Vector vectorForNumber = new Vector();
        flag3: for (int i = 0; i < source.length(); i++) 
        {
            char thisChar = source.charAt(i);
            StringBuffer thisNumber = new StringBuffer();
            boolean hasDigit = false;
            if (Character.isDigit(thisChar)) 
            {
                thisNumber.append(thisChar);
                for (++i; i < source.length(); i++) 
                {
                    thisChar = source.charAt(i);
                    if ((thisChar == '.') && !hasDigit) 
                    {
                        thisNumber.append(thisChar);
                        hasDigit = true;
                    }
                    else 
                        if (Character.isDigit(thisChar)) 
                        {
                            thisNumber.append(thisChar);
                        } 
                        else 
                        {
                            if (thisNumber.length() != 0)    
                            {
                                vectorForNumber.addElement(thisNumber.toString());
                                continue flag3;
                            }
                        }
                }
                if (thisNumber.length() != 0) 
                {
                    vectorForNumber.addElement(thisNumber.toString());
                }
            }
        }

        /* 剔除. */
        int positionOfDot;
        StringBuffer tempSource = new StringBuffer(source);
        while ((positionOfDot = tempSource.indexOf(".")) != -1) {
            tempSource.deleteCharAt(positionOfDot);
        }
        source = tempSource.toString();

        /* 根據分隔符分詞*/
        StringTokenizer stringTokenizer = new StringTokenizer(source,
                delimiters);

        /* 所有的詞*/
        Vector vector = new Vector();

        /* 全大寫的詞-- 不用提詞干所以單獨處理*/
        Vector vectorForAllUpperCase = new Vector();

        /* 根據大寫字母分詞*/
        flag0: while (stringTokenizer.hasMoreTokens()) 
        {
            String token = stringTokenizer.nextToken();

            /* 全大寫的詞單獨處理*/
            boolean allUpperCase = true;
            for (int i = 0; i < token.length(); i++) {
                if (!Character.isUpperCase(token.charAt(i))) {
                    allUpperCase = false;
                }
            }
            if (allUpperCase) {
                vectorForAllUpperCase.addElement(token);
                continue flag0;
            }

            /* 非全大寫的詞*/
            int index = 0;
            flag1: while (index < token.length()) 
            {
                flag2: while (true) 
                {
                    index++;
                    if ((index == token.length()) || !Character.isLowerCase(token.charAt(index))) 
                    {
                        break flag2;
                    }
                }
                vector.addElement(token.substring(0, index).toLowerCase());
                token = token.substring(index);
                index = 0;
                continue flag1;
            }
        }

        /* 提詞干*/
        try {
            Class stemClass = Class.forName("org.tartarus.snowball.ext."
                    + language + "Stemmer");
            SnowballProgram stemmer = (SnowballProgram) stemClass.newInstance();
            Method stemMethod = stemClass.getMethod("stem", new Class[0]);
            Object[] emptyArgs = new Object[0];
            for (int i = 0; i < vector.size(); i++) {
                stemmer.setCurrent((String) vector.elementAt(i));
                stemMethod.invoke(stemmer, emptyArgs);
                vector.setElementAt(stemmer.getCurrent(), i);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }

        /* 合并*/
        for (int i = 0; i < vectorForAllUpperCase.size(); i++) {
            vector.addElement(vectorForAllUpperCase.elementAt(i));
        }
        for (int i = 0; i < vectorForNumber.size(); i++) {
            vector.addElement(vectorForNumber.elementAt(i));
        }

        /* 轉為數組形式*/
        String[] array = new String[vector.size()];
        Enumeration enumeration = vector.elements();
        int index = 0;
        while (enumeration.hasMoreElements()) {
            array[index] = (String) enumeration.nextElement();
            index++;
        }

        /* 打印顯示*/
        for (int i = 0; i < array.length; i++) {
            System.out.print(array[i] + " ");
        }

        /* 返回*/
        return array;
    }

    public static void main(String args[]) {
        SplitWords sw = new SplitWords();
        sw.split("These 232 tables are for ARE-Company using only. The I.S.B.N number of J.Smith's book is ISBN302.1.2.");
        //sw.split("123");
    }
}




?? 快捷鍵說明

復制代碼 Ctrl + C
搜索代碼 Ctrl + F
全屏模式 F11
切換主題 Ctrl + Shift + D
顯示快捷鍵 ?
增大字號 Ctrl + =
減小字號 Ctrl + -
亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频
国产一区二区三区在线看麻豆| 亚洲bt欧美bt精品777| 亚洲视频在线观看一区| 亚洲乱码精品一二三四区日韩在线| 午夜电影网一区| 盗摄精品av一区二区三区| 欧美无人高清视频在线观看| 日韩精品自拍偷拍| 亚洲欧洲av一区二区三区久久| 日韩电影在线一区二区| 色婷婷久久99综合精品jk白丝| 日韩久久久久久| 一区二区三区精品| 不卡的av电影在线观看| 亚洲精品一区在线观看| 中文字幕在线一区免费| 精品一区二区久久| 精品视频全国免费看| 综合色天天鬼久久鬼色| 国产91高潮流白浆在线麻豆| 欧美一区二区三区白人 | 9191精品国产综合久久久久久| 国产视频一区二区在线| 美腿丝袜亚洲色图| 欧美久久一二区| 亚洲一二三四区| 色素色在线综合| 国产欧美日韩在线看| 国产精品自拍在线| 日韩三级在线观看| 偷窥少妇高潮呻吟av久久免费| 96av麻豆蜜桃一区二区| 久久久五月婷婷| 国产乱码精品一区二区三区av | 色综合色狠狠天天综合色| 久久久久国产精品人| 国产福利电影一区二区三区| 久久午夜色播影院免费高清| 精品一区二区三区在线播放视频| 日韩欧美自拍偷拍| 精品一区二区三区香蕉蜜桃| 欧美xxxxx裸体时装秀| 麻豆精品一区二区| 久久嫩草精品久久久精品一| 国产成人免费视频一区| 亚洲另类在线视频| 91免费精品国自产拍在线不卡| 亚洲欧美在线aaa| 色综合激情五月| 午夜欧美一区二区三区在线播放| 欧美电影影音先锋| 免费成人av在线播放| 精品剧情v国产在线观看在线| 紧缚奴在线一区二区三区| 国产日韩欧美不卡在线| 99精品欧美一区| 亚洲国产一区二区三区青草影视| 91精品国产综合久久久久久久 | 亚洲综合久久久| 欧美美女激情18p| 久久99精品视频| 欧美国产日韩在线观看| 色综合久久综合网97色综合| 午夜国产不卡在线观看视频| 久久久国产精华| 欧美三级资源在线| 国产91丝袜在线观看| 中文字幕一区二区视频| 欧美性色欧美a在线播放| 日本va欧美va瓶| 欧美激情一区二区三区四区| 色网站国产精品| 久久激五月天综合精品| 亚洲视频一区二区在线| 91精品国产综合久久精品性色| 国产一区不卡视频| 亚洲影视资源网| 国产网红主播福利一区二区| 欧美四级电影网| 国产麻豆欧美日韩一区| 亚洲成av人影院| 国产精品色在线观看| 欧美一区二区福利在线| av在线播放一区二区三区| 日韩精品成人一区二区三区| 国产精品女同一区二区三区| 欧美电影一区二区| 日本高清不卡视频| 日本精品免费观看高清观看| 久久精品国产免费看久久精品| 亚洲视频综合在线| 国产日韩欧美电影| 欧美大片日本大片免费观看| 日本精品裸体写真集在线观看 | 麻豆精品久久精品色综合| 亚洲婷婷综合久久一本伊一区| 日韩视频一区二区在线观看| 欧美在线综合视频| 99riav一区二区三区| 国产在线播放一区三区四| 日韩黄色在线观看| 亚洲午夜久久久久中文字幕久| 国产精品午夜久久| 久久精品视频免费| 久久综合九色综合久久久精品综合| 欧美日韩在线一区二区| 色成人在线视频| 99在线热播精品免费| 国产黄人亚洲片| 国产乱子轮精品视频| 美日韩黄色大片| 国产在线视频不卡二| 青青草91视频| 三级久久三级久久久| 午夜电影久久久| 日韩av中文字幕一区二区| 日本视频一区二区| 日韩黄色小视频| 极品美女销魂一区二区三区| 看国产成人h片视频| 久久国内精品自在自线400部| 婷婷久久综合九色综合绿巨人 | 91精品国产综合久久久久久| 欧美日韩一区在线观看| 欧美无砖砖区免费| 91精品中文字幕一区二区三区| 欧美日韩国产天堂| 欧美一区午夜精品| 欧美xxxxx裸体时装秀| 国产午夜三级一区二区三| 国产亚洲制服色| 最好看的中文字幕久久| 亚洲狠狠丁香婷婷综合久久久| 亚洲午夜日本在线观看| 青娱乐精品视频在线| 色综合一个色综合亚洲| 日本道精品一区二区三区| 欧美日韩在线不卡| 日韩小视频在线观看专区| 久久久久久久久久美女| 亚洲欧美一区二区视频| 亚洲成a人v欧美综合天堂| 男女男精品视频网| 国产一区二区导航在线播放| 99精品久久只有精品| 在线播放中文字幕一区| 亚洲精品一线二线三线无人区| 国产精品久久午夜夜伦鲁鲁| 亚洲乱码日产精品bd| 蜜臀av国产精品久久久久| 丁香婷婷深情五月亚洲| 在线这里只有精品| 精品久久一二三区| 综合分类小说区另类春色亚洲小说欧美| 一个色在线综合| 精东粉嫩av免费一区二区三区| 色香蕉久久蜜桃| 久久午夜电影网| 一区二区三区不卡视频在线观看 | 免费黄网站欧美| 大桥未久av一区二区三区中文| 在线欧美日韩精品| 精品少妇一区二区三区在线播放 | 国产suv精品一区二区三区| 97se狠狠狠综合亚洲狠狠| 欧美一级艳片视频免费观看| 国产精品视频你懂的| 日韩和的一区二区| 99热精品一区二区| 日韩免费电影一区| 亚洲国产日韩a在线播放| 粉嫩一区二区三区在线看| 欧美日韩在线播放一区| 国产精品成人免费在线| 麻豆freexxxx性91精品| 在线看不卡av| 国产精品久久久久一区| 精品中文字幕一区二区小辣椒| 91小视频在线| 久久免费偷拍视频| 国产v综合v亚洲欧| 日韩一级片网站| 亚洲精品久久久蜜桃| 国产999精品久久久久久绿帽| 欧美一级专区免费大片| 洋洋成人永久网站入口| 菠萝蜜视频在线观看一区| 精品国产免费人成电影在线观看四季| 亚洲在线观看免费视频| 成人免费三级在线| 久久精品亚洲精品国产欧美| 奇米精品一区二区三区四区| 欧美在线观看一区二区| 中文字幕一区二区三区不卡在线| 国产原创一区二区| 久久精品在线免费观看| 麻豆国产精品视频| 欧美变态tickling挠脚心| 美女视频一区二区| 日韩欧美在线123|