亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

? 歡迎來到蟲蟲下載站! | ?? 資源下載 ?? 資源專輯 ?? 關(guān)于我們
? 蟲蟲下載站

?? cdict.py

?? 在網(wǎng)上下載的程序
?? PY
字號(hào):
# -*- coding: cp936 -*-
# author:sunjoy
# email:ccnusjy@gmail.com

import bsddb,os
import re
class CDict:
    def __init__(self):
        #print os.path.split(__file__)[0]+'/data/dict.dat'
        self.d=bsddb.btopen('data/dict.dat','c')
    def __del__(self):
        self.d.close()
        
    def segWords(self,sentence):
        # 將字符的編碼轉(zhuǎn)換為utf-8編碼
        try:
            sentence=sentence.decode('utf-8')
        except:
            return []
        # 將字符串中的一些諸如。,,等字符全都用空格來替代
        sentence=re.sub(u"[。,,!……!《》<>\"'::?\?、\|“”‘’;]"," ",sentence)
        print "sentence   :"+sentence
        
        # 進(jìn)行一些下面將會(huì)用到的變量的初始化
        length=len(sentence)
        i=length
        result=[]

        # 
        while True:
            # 只有當(dāng)i小于等于0的時(shí)候,while循環(huán)才會(huì)跳出
            if i<=0:
                break
            #
            found=-1
            tempi=i
            # tok 為第i-1個(gè)字符
            tok=sentence[i-1:i]

            # ------英文的情況
            # 如果tok為0-9A-Za-z\-\+#@_\.中的任何一個(gè)字符,則將i前移,以便找到一個(gè)不出現(xiàn)上述字符的位置,這些字符就都為英文字符,可以用英語(yǔ)單詞的方法來切分
            while re.search("[0-9A-Za-z\-\+#@_\.]{1}",tok)<>None:
                i-=1
                tok=sentence[i-1:i]
                print "tok   "+tok
            # 如國(guó)tempi-i>0,即存在0-9A-Za-z\-\+#@_\.中的任何一個(gè)字符或他們組成的單詞,則將單詞保存值結(jié)果列表result中
            if tempi-i>0:
                result.append(sentence[i:tempi].lower().encode('utf-8'))


            # ------中文的情況
            for j in xrange(4,0,-1):    # j 分別等于4,3,2,1
                if i-j<0:
                    continue
                utf8Word=sentence[i-j:i].encode('utf-8')
                print "utf8Word raw   "+utf8Word
                if(self.d.has_key(utf8Word)):
                    found=i-j
                    result.append(utf8Word)
                    print "utf8Word result "+utf8Word
                    #print "the total result "
                    #for dddd in result:
                    #    print dddd
                    break

            if found==-1:
                if i<length and sentence[i].strip()=="":
                    result.append(sentence[i-1].encode('utf-8'))
                    print "the total result when found = -1 "
                    for dddd in result:
                        print dddd
                    print "-------------------"
                elif(sentence[i-1:i].strip()!=""):
                    if len(result)>0 and len(result[-1])<12:
                        result.append(sentence[i-1:i].encode('utf-8')+result[-1])
                        print """en(result)>0 and len(result[-1])<12:"""
                        for dddd in result:
                            print dddd
                        print "-------------------"
                    else:
                        result.append(sentence[i-1:i].encode('utf-8'))
                        print """len(result)>0 and len(result[-1])<12 is false"""
                        for dddd in result:
                            print dddd
                        print "-------------------"
                i-=1
            else:
                i=found
        print "the finally result is :-----------------------"
        for dddd in result:
            print dddd
        print "----------------------------------------------"
        goodR=[]
        for w in result:
            if w.strip()<>"":
                goodR.append(w)
        return goodR
    
    def segWords2(self,sentence):
        # 將字符的編碼轉(zhuǎn)換為utf-8編碼
        try:
            sentence=sentence.decode('utf-8')
        except:
            return []
        # 進(jìn)行一些下面將會(huì)用到的變量的初始化
        length=len(sentence)
        i=length
        result=[]
        
        while True:
            # 只有當(dāng)i小于等于0的時(shí)候,while循環(huán)才會(huì)跳出
            if i<=0:
                break
            # 
            found=-1
            tempi=i
            # tok 為第i-1個(gè)字符
            tok=sentence[i-1:i]
            # 如果tok為0-9A-Za-z\-\+#@_\.中的任何一個(gè)字符,則將i前移,以便找到一個(gè)不出現(xiàn)上述字符的位置,這些字符就都為英文字符,
            # 即按照英文單詞的切分方法來切分,這里使用循環(huán)是為了找出一個(gè)單詞的開始位置(結(jié)束位置已經(jīng)有了)
            while re.search("[0-9A-Za-z\-\+#@_\.]{1}",tok)<>None:
                i-=1
                tok=sentence[i-1:i]
               # print "一個(gè)個(gè)的單個(gè)字符為: "+tok
            # 有了一個(gè)單詞的開始和結(jié)束位置以后,就可以確定這個(gè)單詞是什么了,于是就可以將整個(gè)單詞存入結(jié)果列表result,而不是一個(gè)個(gè)的字符
            if tempi-i>0:
                result.append(sentence[i:tempi].lower().encode('utf-8'))
                #print "將上述單個(gè)的字符連接在一起形成單詞為:"
                #print "ddd"
                #print result.decode('utf-8')
                print result[0:]
                iii=0
            # xrange里面的4表明是最大匹配4個(gè)字,比如"中華人民共和國(guó)"就不能完整匹配,把4改為大于等于7的整數(shù)就可以完整匹配了
            for j in xrange(4,0,-1):    # j 分別等于4,3,2,1 ,
                if i-j<0:
                    continue
                utf8Word=sentence[i-j:i].encode('utf-8')#這里的匹配方法為逆向最大匹配方法
                if(self.d.has_key(utf8Word)):
                    print "utf8Word result  "+str(iii)+"   "+utf8Word
                    iii=iii+1
                    found=i-j
                    result.append(utf8Word)
                    break

            #-----------------------------------------
            # 如果字典中不存在所要查找的詞,則將其直接保存進(jìn)結(jié)果列表result
            if found==-1:
                result.append(sentence[i-1:i].encode('utf-8'))
                print "found==-1  utf-8  :"+sentence[i-1:i].encode('utf-8')
                print "found==-1  :"+sentence[i-1:i]
                i-=1
            # 如果在字典中找到了所需要的單詞,則重置i,詞已經(jīng)在前面保存進(jìn)結(jié)果列表result
            else:
                i=found
            #--------------------------------------------------
        # 將結(jié)果輸出
        print "-----------"
        print result[0:]
        goodR=[]
        for w in result:
            if w.strip()<>"":
                goodR.append(w)
        return goodR



if __name__=="__main__":
    d=CDict()
    #words=d.segWords("""我愛北京天安門,我叫孫君意,我愛python and c++""".decode('gbk').encode('utf-8'))
    #print "==========保守模式============="
    #for w in words:
     #   print w.decode('utf-8')
        
    words=d.segWords2("""我愛北京天安門,我叫孫君意,我愛python and CAAA++ 我是張永偉中華人民共和國(guó)iwy what?""".decode('gbk').encode('utf-8'))
    #ssss="""我愛北京天安門,我叫孫君意,我愛python and CAAA++ 我是張永偉iwy what?""".decode('gbk').encode('utf-8')
    d=[]
    #for i in ssss:
    #    d[i]=ssss[i]
    print "==========冗余模式============="
    for w in words:
        print w.decode('utf-8')
        



?? 快捷鍵說明

復(fù)制代碼 Ctrl + C
搜索代碼 Ctrl + F
全屏模式 F11
切換主題 Ctrl + Shift + D
顯示快捷鍵 ?
增大字號(hào) Ctrl + =
減小字號(hào) Ctrl + -
亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频
日本精品一区二区三区高清| 国产精品66部| 欧美怡红院视频| 亚洲最大的成人av| 欧美三级一区二区| 天堂成人免费av电影一区| 日韩三级电影网址| 国产一区中文字幕| 亚洲视频狠狠干| 91麻豆精品国产综合久久久久久 | 56国语精品自产拍在线观看| 日韩和欧美一区二区| 欧美tickling网站挠脚心| 国产精品一级二级三级| 国产日韩精品一区二区三区 | 天堂午夜影视日韩欧美一区二区| 91精品国产高清一区二区三区蜜臀| 奇米一区二区三区| 久久精品亚洲乱码伦伦中文| 菠萝蜜视频在线观看一区| 亚洲高清中文字幕| 精品日韩一区二区三区免费视频| 国产**成人网毛片九色| 亚洲综合色自拍一区| 欧美成人三级在线| 色综合久久中文综合久久97| 免费视频一区二区| 国产精品入口麻豆九色| 欧美性一区二区| 国产一级精品在线| 亚洲图片欧美一区| 欧美国产一区在线| 欧美日韩激情一区二区| 国产.欧美.日韩| 日韩高清欧美激情| 综合久久国产九一剧情麻豆| 欧美一区二区视频观看视频| 不卡视频一二三| 蜜桃久久精品一区二区| 亚洲女同女同女同女同女同69| 日韩欧美一级在线播放| 91在线免费看| 激情小说欧美图片| 午夜欧美视频在线观看 | 亚洲欧美另类久久久精品2019| 日韩一本二本av| 欧洲精品在线观看| 粉嫩嫩av羞羞动漫久久久 | 国产一区二区美女| 性久久久久久久久| 亚洲欧洲成人av每日更新| 精品国产一区二区三区久久久蜜月| 欧美主播一区二区三区美女| 国产成人精品综合在线观看| 视频一区视频二区在线观看| 一区二区久久久久| 国产欧美日本一区二区三区| 日韩一级高清毛片| 欧美综合一区二区三区| 高清国产午夜精品久久久久久| 蜜桃视频第一区免费观看| 五月天一区二区三区| 亚洲精品少妇30p| 中文字幕精品在线不卡| 久久亚洲春色中文字幕久久久| 欧美日本在线一区| 精品视频999| 欧美探花视频资源| 91福利国产成人精品照片| aaa亚洲精品一二三区| 国产激情视频一区二区三区欧美| 久久爱www久久做| 免费日韩伦理电影| 极品尤物av久久免费看| 美女视频黄 久久| 免费在线看成人av| 久久精品国产色蜜蜜麻豆| 日韩成人午夜精品| 麻豆免费精品视频| 国产又黄又大久久| 国产美女在线观看一区| 国产精品一区二区三区四区| 国产一区二区三区免费看 | 中文在线免费一区三区高中清不卡| 久久久久久久免费视频了| 精品国产亚洲在线| 久久久精品黄色| 国产精品成人免费| 亚洲综合在线第一页| 天堂va蜜桃一区二区三区| 青青草原综合久久大伊人精品 | 精品美女一区二区| 26uuu国产日韩综合| 国产女同互慰高潮91漫画| 国产精品久久久久一区| 亚洲欧美一区二区不卡| 亚洲一区二区三区四区在线免费观看| 亚洲午夜国产一区99re久久| 日本vs亚洲vs韩国一区三区二区| 三级欧美在线一区| 国内精品在线播放| jvid福利写真一区二区三区| 欧美天堂一区二区三区| 日韩欧美国产高清| 国产精品成人午夜| 肉丝袜脚交视频一区二区| 精品一区二区三区影院在线午夜 | 一区二区成人在线| 婷婷久久综合九色综合伊人色| 精品一二线国产| 99re6这里只有精品视频在线观看| 欧美最猛黑人xxxxx猛交| 欧美一级片在线观看| 国产精品视频一二| 午夜精彩视频在线观看不卡| 国产一区二区三区四区在线观看| 一本色道a无线码一区v| 日韩免费视频一区二区| 亚洲欧美一区二区视频| 午夜视频一区二区| 丁香婷婷综合网| 欧美高清hd18日本| 国产精品无人区| 日本免费新一区视频| 成人免费黄色大片| 日韩一区二区高清| 国产精品久久网站| 美女视频免费一区| 色噜噜久久综合| 国产午夜三级一区二区三| 亚洲永久精品国产| 成人免费看的视频| 欧美α欧美αv大片| 亚洲国产日韩a在线播放| 豆国产96在线|亚洲| 欧美一区二区三区免费视频| 亚洲美女一区二区三区| 国产精品自产自拍| 欧美一级淫片007| 亚洲国产精品精华液网站| 国产**成人网毛片九色 | 亚洲天堂2016| 国产伦精一区二区三区| 制服丝袜亚洲网站| 亚洲影视在线观看| 成人av网站大全| 久久久美女毛片| 麻豆国产欧美日韩综合精品二区| 欧美在线free| 亚洲精品高清在线| 成人的网站免费观看| 久久综合九色综合欧美就去吻| 蜜臀av一级做a爰片久久| 欧美日韩一区二区三区四区| 亚洲欧美在线高清| www..com久久爱| 欧美极品美女视频| 国产精品一卡二| 国产日韩精品一区| 国产v综合v亚洲欧| 久久蜜桃av一区二区天堂| 精品一区二区三区在线观看| 日韩区在线观看| 免费日本视频一区| 精品伦理精品一区| 久久er精品视频| 久久综合色婷婷| 国产伦精品一区二区三区免费迷| 26uuu久久天堂性欧美| 国产精品亚洲第一区在线暖暖韩国| 日韩精品在线看片z| 九色porny丨国产精品| 精品成人免费观看| 国产宾馆实践打屁股91| 国产日本欧美一区二区| 国产不卡免费视频| 成人免费在线视频| 色婷婷综合视频在线观看| 亚洲成人高清在线| 日韩午夜激情av| 韩国中文字幕2020精品| 精品精品欲导航| 国产大陆亚洲精品国产| 欧美国产1区2区| 91麻豆免费视频| 午夜国产精品影院在线观看| 欧美电影免费观看高清完整版在线| 看电影不卡的网站| 国产拍欧美日韩视频二区 | 欧美主播一区二区三区| 日韩福利视频网| 国产欧美一区二区精品忘忧草| 成人激情开心网| 亚洲国产一区二区三区青草影视| 91精品国产综合久久久久久久| 国产一区高清在线| 一区二区三区四区av| 日韩一区二区免费视频| 成人在线视频首页| 亚洲国产精品视频|