亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

? 歡迎來到蟲蟲下載站! | ?? 資源下載 ?? 資源專輯 ?? 關于我們
? 蟲蟲下載站

?? mpwordseg.cpp

?? 基于最大概率的分詞
?? CPP
字號:
#include "stdafx.h"
#include "math.h" // 包含log函數的定義

#include "MPWordSeg.h"
#include "MyDictionary.h"
#include "MyFileApp.h"

/*
# define MaxWordLength 8  // 最大詞長為8個字節(即4個漢字)
# define Separator "/  "    // 詞界標記

# define CorpusSize 200000 // 定義語料庫規模
*/

extern CString Separator;
extern int MaxWordLength;
extern long CorpusSize;
 
CMyDictionary pDict; // 定義一個詞典類對象,全局變量

// 以下是最大概率法分詞程序

struct Candidate {
	short offset, length;  // 候選詞在輸入串中的起點,長度
	short goodPrev;  // 最佳前趨詞的序號
	float fee, sumFee; // 候選詞的費用,路徑上的累計費用
} Candidates[100];// 假定最多100個候選詞

short getTmpWords(CString &s)
{ // 從輸入串中挑選可能是詞的單位作為最大概率法分詞的候選詞
	short i=0,j,len,restlen,n=s.GetLength();
	long freq;
	CString w;
	for(j=0;j<n;j+=2) {
		for(len=2;len<=MaxWordLength;len+=2) {
			restlen=n-j; 
			
			if (len<=restlen) // 如果剩余詞長度不夠長,跳出循環
				w=s.Mid(j,len);
			else
				break;

			freq=pDict.GetFreq(w); // 如果在數據庫中將wfreq字段設為雙精度型數字,則返回0值
			if(len>2 && freq==-1)
				continue;
			if(freq==-1) 
				freq=0;
			Candidates[i].offset=j;
			Candidates[i].length=len;
			Candidates[i].fee = (float)(-log((double)(freq+1)/CorpusSize));
			Candidates[i].sumFee=0.0F;// 置初值
			i++;
		}
	}
	return i;
}

void getPrev(short i)
{ // 計算每一個候選詞的最佳前趨詞,以及當前詞的最小累計費用
	if(Candidates[i].offset==0) {
		Candidates[i].goodPrev=-1;
		Candidates[i].sumFee=Candidates[i].fee;
		return;
	}
	
	short j,minID=-1;
	
//	for(j=i-1;j>=0;j--) {
//		if(Candidates[j].offset+Candidates[j].length==Candidates[i].offset)
//			break;
//	}
//	for(;Candidates[j].offset+Candidates[j].length==Candidates[i].offset;j--)

	for(j=i-1;j>=0;j--) 
	{ //向左查找所有候選詞,得到前驅詞集合,從中挑選最佳前趨詞
		if(Candidates[j].offset+Candidates[j].length==Candidates[i].offset) {
			if(minID==-1 || Candidates[j].sumFee<=Candidates[minID].sumFee)
				minID=j;
		}
		if(Candidates[i].offset-Candidates[j].offset>=8) // 向左查找候選詞最遠不超過4個漢字
			break;
	}
	
	Candidates[i].goodPrev=minID;
	Candidates[i].sumFee=Candidates[i].fee+Candidates[minID].sumFee;
	return;
}

CString SegmentHzStrMP(CString s1)
{//最大概率法分詞程序,處理一個字符串

	int len=s1.GetLength();
	short n=getTmpWords(s1);
	short minID=-1;
	short i;

	for(i=0;i<n;i++) {
		getPrev(i);
		if(Candidates[i].offset+Candidates[i].length==len) { // 如果當前詞是s1中最后一個可能的候選詞
			if(minID==-1||Candidates[i].sumFee<Candidates[minID].sumFee) // 如果這個末尾候選詞的累計費用最小
				minID=i; // 把當前詞的序號賦給minID,這就是最小費用路徑的終點詞的序號
						 // 這就是最后分詞結果最右邊的那個詞的序號
		}
	}

	CString s2=""; // s2是輸出結果
	for(i=minID;i>=0;i=Candidates[i].goodPrev) // 從右向左取詞候選詞
		s2=s1.Mid(Candidates[i].offset,Candidates[i].length)+Separator+s2; 

	return s2;
}

CString SegmentSentenceMP (CString s1)  
{// 最大概率法分詞程序:對句子進行分詞處理的函數
	CString s2="";
	int i,dd;
	while(!s1.IsEmpty()) {
		unsigned char ch=(unsigned char) s1[0];
		if(ch<128) { // 處理西文字符
			i=1;
			dd=s1.GetLength();
			while(i<dd && ((unsigned char)s1[i]<128) && (s1[i]!=10) && (s1[i]!=13)) // s1[i]不能是換行符或回車符
				i++;
			if ((ch!=32) && (ch!=10) && (ch!=13)) // 如果不是西文空格或換行或回車符
				s2 += s1.Left(i) + Separator;
			else {
				if (ch==10 || ch==13)   // 如果是換行或回車符,將它拷貝給s2輸出
					s2+=s1.Left(i);
			}
			s1=s1.Mid(i);
			continue;
		}
		else { 
			if (ch<176) { // 中文標點等非漢字字符
				i=0;
				dd=s1.GetLength();
				while(i<dd && ((unsigned char)s1[i]<176) && ((unsigned char)s1[i]>=161)
							&& (!((unsigned char)s1[i]==161 && ((unsigned char)s1[i+1]>=162 && (unsigned char)s1[i+1]<=168)))
							&& (!((unsigned char)s1[i]==161 && ((unsigned char)s1[i+1]>=171 && (unsigned char)s1[i+1]<=191)))
							&& (!((unsigned char)s1[i]==163 && ((unsigned char)s1[i+1]==172 || (unsigned char)s1[i+1]==161) 
							|| (unsigned char)s1[i+1]==168 || (unsigned char)s1[i+1]==169 || (unsigned char)s1[i+1]==186
							|| (unsigned char)s1[i+1]==187 || (unsigned char)s1[i+1]==191))) // 
					i=i+2; // 假定沒有半個漢字
				if (i==0)
					i=i+2;
				if (!(ch==161 && (unsigned char)s1[1]==161)) // 不處理中文空格
					s2+=s1.Left(i) + Separator; // 其他的非漢字雙字節字符可能連續輸出
				s1=s1.Mid(i);
				continue;
			}
		}
		
		// 以下處理漢字串

		i=2;
		dd=s1.GetLength();
		while(i<dd && (unsigned char)s1[i]>=176) 
//		while(i<dd && (unsigned char)s1[i]>=128 && (unsigned char)s1[i]!=161)
			i+=2;
		
		s2+=SegmentHzStrMP(s1.Left(i));
		s1=s1.Mid(i);
	}

	//////////////////////////////////////////////////////////
	// 以下程序用于將表示時間的單位合并成一個分詞單位

	int TmpPos;
	const char * p;
	CString s2_part_1;
	
	if (s2.Find("  年/")>=0) {
		TmpPos=s2.Find("  年/");
		s2_part_1=s2.Mid(0,TmpPos);
		p=(LPCTSTR) s2_part_1;
		p=p+TmpPos-2;
		if (p[0]=='1'||p[0]=='2'||p[0]=='3'||p[0]=='4'||p[0]=='5'||p[0]=='6'||p[0]=='7'||p[0]=='8'||p[0]=='9'||p[0]=='0') {
			s2_part_1=s2_part_1.Mid(0,TmpPos-1);
			s2=s2_part_1+s2.Mid(TmpPos+2);
		}
	}
	
	if (s2.Find("  月/")>=0) {
		TmpPos=s2.Find("  月/");
		s2_part_1=s2.Mid(0,TmpPos);
		p=(LPCTSTR) s2_part_1;
		p=p+TmpPos-2;
		if (p[0]=='1'||p[0]=='2'||p[0]=='3'||p[0]=='4'||p[0]=='5'||p[0]=='6'||p[0]=='7'||p[0]=='8'||p[0]=='9'||p[0]=='0') {
			s2_part_1=s2_part_1.Mid(0,TmpPos-1);
			s2=s2_part_1+s2.Mid(TmpPos+2);
		}
	}

	if (s2.Find("  日/")>=0) {
		TmpPos=s2.Find("  日/");
		s2_part_1=s2.Mid(0,TmpPos);
		p=(LPCTSTR) s2_part_1;
		p=p+TmpPos-2;
		if (p[0]=='1'||p[0]=='2'||p[0]=='3'||p[0]=='4'||p[0]=='5'||p[0]=='6'||p[0]=='7'||p[0]=='8'||p[0]=='9'||p[0]=='0') {
			s2_part_1=s2_part_1.Mid(0,TmpPos-1);
			s2=s2_part_1+s2.Mid(TmpPos+2);
		}
	}
	//合并時間單位程序段結束
	//////////////////////////////////////////////////////////

	return s2;
}

void SegmentAFileMP (CString FileName)
{  // 最大概率法分詞程序:對文件進行分詞處理
	if (pDict.myDatabaseName.IsEmpty()) {
		AfxMessageBox("您沒有打開詞庫,無法進行分詞處理");
		if(pDict.OpenMDB()==FALSE)
			return;
	}

	FILE * in, * out;
	in = fopen((const char*) FileName,"rt");
	if(in==NULL) {
		AfxMessageBox("無法打開文件");
		return;
	}
	FileName=ChangeFileName(FileName,"-seg");
	out = fopen((const char*) FileName,"wt");
	if(out==NULL) {
		AfxMessageBox("無法創建文件");
		fclose(in);
		return;
	}

	CStdioFile inFile(in),outFile(out);

	char s[2048];
	CString line;

	while(inFile.ReadString(s,2048)) {// 循環讀入文件中的每一行
		line = s;
		line = SegmentSentenceMP(line); // 調用句子分詞函數進行分詞處理
		outFile.WriteString(line); // 將分詞結果寫入目標文件
	}
	inFile.Close();
	outFile.Close();
}

// 最大概率法分詞程序結束

?? 快捷鍵說明

復制代碼 Ctrl + C
搜索代碼 Ctrl + F
全屏模式 F11
切換主題 Ctrl + Shift + D
顯示快捷鍵 ?
增大字號 Ctrl + =
減小字號 Ctrl + -
亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频
国产欧美精品区一区二区三区 | 欧美大黄免费观看| 久久97超碰国产精品超碰| 亚洲女同ⅹxx女同tv| 久久夜色精品国产噜噜av| 欧美裸体bbwbbwbbw| 97精品国产露脸对白| 久久www免费人成看片高清| 悠悠色在线精品| 国产精品久久久久国产精品日日 | 精品国产乱码久久久久久免费| 99r国产精品| 国产成人欧美日韩在线电影| 日本欧美一区二区三区乱码| 亚洲综合激情另类小说区| 国产精品不卡视频| 久久久久久久久97黄色工厂| 欧美日韩国产bt| 色一情一乱一乱一91av| 成人性生交大片免费看在线播放| 蜜桃av一区二区| 日韩一区精品字幕| 亚洲色图一区二区| 国产精品久久久久永久免费观看| 国产亚洲综合性久久久影院| 欧美mv日韩mv国产网站app| 欧美高清视频一二三区| 欧美视频中文一区二区三区在线观看| 成人免费av在线| 成人免费观看男女羞羞视频| 国产一区二区免费看| 黄色精品一二区| 久久精品99国产国产精| 蜜桃精品在线观看| 看片的网站亚洲| 蜜臀av性久久久久蜜臀aⅴ流畅| 亚洲影视资源网| 一区二区日韩电影| 一区二区三区四区在线播放| 亚洲日本在线观看| 亚洲精品中文字幕乱码三区| 亚洲美女视频在线观看| 夜夜揉揉日日人人青青一国产精品| 亚洲人成人一区二区在线观看| 中文字幕一区二区三区四区不卡 | 亚洲自拍偷拍欧美| 亚洲电影中文字幕在线观看| 亚洲国产乱码最新视频 | 欧美亚洲动漫另类| 欧美视频三区在线播放| 欧美高清性hdvideosex| 精品理论电影在线| 国产亚洲一本大道中文在线| 国产精品久久毛片av大全日韩| 自拍偷拍亚洲综合| 亚洲综合另类小说| 蜜桃视频一区二区| 国产精品一区二区免费不卡| 国产精品99久久久久| 91网址在线看| 精品视频一区三区九区| 日韩精品一区二区在线| 精品动漫一区二区三区在线观看| 久久免费午夜影院| 亚洲欧洲综合另类| 日韩精品电影在线| 国产精品夜夜嗨| 色诱视频网站一区| 日韩亚洲欧美成人一区| 国产精品美女久久久久久久久久久| 一区二区在线观看免费视频播放| 亚洲va中文字幕| 国内精品第一页| 日本韩国欧美一区| 欧美电影精品一区二区| 国产精品久久久久影院色老大| 亚洲成人动漫在线观看| 国产一区二区三区四区五区入口| 91美女片黄在线观看91美女| 777午夜精品免费视频| 中文字幕不卡的av| 日韩高清欧美激情| 99久久精品免费看国产免费软件| 欧美区在线观看| 国产视频一区二区在线| 亚洲国产另类av| 欧美视频精品在线观看| 精品国产sm最大网站免费看| 亚洲精品视频在线看| 国产露脸91国语对白| 欧美日韩一区二区三区视频| 国产欧美视频一区二区三区| 亚洲va欧美va国产va天堂影院| 国产盗摄精品一区二区三区在线| 欧美日韩亚洲高清一区二区| 中文字幕av一区二区三区高 | 成人天堂资源www在线| 欧美三级一区二区| 国产拍欧美日韩视频二区| 日本欧美一区二区| 91国偷自产一区二区三区观看 | 欧美视频一区在线| 国产精品视频观看| 激情综合网激情| 欧美日韩另类一区| 亚洲欧美国产77777| 国产凹凸在线观看一区二区| 欧美福利电影网| 一区二区三区欧美日韩| 成人美女在线视频| 国产亚洲一本大道中文在线| 免费的国产精品| 欧美日韩国产一区| 亚洲综合一区二区| 色综合一区二区| 日韩久久一区二区| 99re视频精品| 一区视频在线播放| 国产在线精品一区二区不卡了| 56国语精品自产拍在线观看| 夜夜操天天操亚洲| 色综合久久综合网欧美综合网| 国产精品久久久久影院色老大| 国产成人免费在线| 国产亚洲欧美在线| 国产91精品精华液一区二区三区| 精品日韩欧美在线| 久久国产精品免费| 日韩欧美区一区二| 精品一区二区三区在线播放视频 | 99精品在线观看视频| 国产精品乱码久久久久久| 国产成人精品免费| 欧美韩国日本一区| 国产成人精品1024| 国产精品毛片大码女人| 成人精品亚洲人成在线| 国产精品国产三级国产专播品爱网| 国产精品1区2区3区| 国产亚洲精品久| 国产91精品露脸国语对白| 国产精品免费久久| 91污在线观看| 亚洲国产婷婷综合在线精品| 欧美老年两性高潮| 青青草一区二区三区| 26uuu亚洲综合色| 成人性色生活片免费看爆迷你毛片| 国产精品午夜久久| 一本高清dvd不卡在线观看| 亚洲精品免费在线观看| 欧美顶级少妇做爰| 久久99深爱久久99精品| 久久日韩粉嫩一区二区三区| 处破女av一区二区| 蜜桃av噜噜一区| 久久中文娱乐网| caoporn国产一区二区| 亚洲欧美激情视频在线观看一区二区三区 | 自拍偷拍亚洲欧美日韩| 欧美三级中文字幕| 极品瑜伽女神91| 国产精品久久久久久户外露出 | 亚洲sss视频在线视频| 欧美一区二区三区白人| 国产乱码字幕精品高清av| 综合久久久久久| 91精品国产综合久久精品图片| 国产综合久久久久影院| 成人欧美一区二区三区在线播放| 欧美日韩国产高清一区二区三区| 精品亚洲免费视频| 亚洲欧美日韩成人高清在线一区| 欧美日韩一区二区三区不卡| 国内精品自线一区二区三区视频| 中文字幕一区二区三区不卡| 在线不卡免费av| 成人免费毛片片v| 日本亚洲一区二区| 国产精品女主播av| 制服丝袜亚洲网站| 99综合电影在线视频| 蜜臀国产一区二区三区在线播放 | 亚洲国产精品影院| 久久精品亚洲乱码伦伦中文 | 日韩一区二区影院| 99精品国产一区二区三区不卡| 日本三级韩国三级欧美三级| 国产精品理论片| 精品国产一区二区亚洲人成毛片| 91麻豆免费在线观看| 激情综合色综合久久| 亚洲成人激情av| 最新国产成人在线观看| 亚洲精品在线一区二区| 欧美影片第一页| 99re成人精品视频| 国产大陆精品国产| 久久成人免费电影| 亚洲第一会所有码转帖|