亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

? 歡迎來到蟲蟲下載站! | ?? 資源下載 ?? 資源專輯 ?? 關于我們
? 蟲蟲下載站

?? extract.cpp

?? 從htm/html格式的網頁文件中提取內容。將要提取內容的網頁文件用鼠標拖入窗口
?? CPP
?? 第 1 頁 / 共 2 頁
字號:
//================================================================================
// CLASS   : Extract
// FUNCTION: 提取網頁內容,去除html標簽。
// AUTHOR  : 2006-05-21 Created by navy
// REFER   : 輸入文件名(*.htm/html)
// NOTE    : Extract.cpp , implementation file
//================================================================================
#include "StdAfx.h"
#include "Extract.h"
#include "windows.h"

Extract::Extract()
{	
	strUseful = STR_USEFUL ;           // "<TITLE>,<TR>,<TD>,<P>,<BR>,<DIV>"
}

//--------------------------------------------------------------------------------
// FUNCTION: 處理文件。
// IN      : 文件名。
// OUT     : .txt文件
// AUTHOR  : 2006-05-24 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funProcessFile(string strFileName)
{
	funProcess(strFileName);
}

//--------------------------------------------------------------------------------
// FUNCTION: 處理目錄中所有擴展名為strExteName的文件
// IN      : 源目錄、目標目錄、擴展名
// OUT     : txt文件。
// AUTHOR  : 2006-05-24 Created by navy .
// NOTE    : 目標目錄為空時,默認為源目錄
//--------------------------------------------------------------------------------
void Extract::funProcessDirectory(string strDirSour,string strDirDest,string strExteName)
{
	long h;
	_finddata_t fdata;
	string filename;
	int nCount = 0 ;
	if(strDirDest.empty())
	{
		strDirDest = strDirSour ;
	}
	strDirSource = strDirSour + "\\" ;
	strDirDestination = strDirDest + "\\" ; 
	h = _findfirst((strDirSource+"\\*."+strExteName).c_str(),&fdata);
	if (h == -1) 
	{
		//cout << "No match files .";
		return;
	}
	//funProcess( strDirDest+"\\"+fdata.name);
	if (fdata.size < 3*1024*1024) 
	{
		nCount ++ ;
		cout << nCount << " : " <<"processing " << fdata.name << "    ";
		funProcess(fdata.name);
	}
	else
	{
		//nCount ++ ;
		cout << "********************************************************" << endl;
		cout << "* size over 3M !" << endl;
		cout << "* file name : " << fdata.name << "  did not process .  "  << endl;
		cout << "********************************************************" << endl;
	}
	
	while (1)
	{
		if (_findnext(h,&fdata) == 0)
		{
			//funProcess( strDirDest+"\\"+fdata.name);
			if (fdata.size < 3*1024*1024) 
			{
				nCount ++ ;
				cout << nCount << " : " <<"processing " << fdata.name << "    ";
				funProcess(fdata.name);
			}
			else
			{
				//nCount ++ ;
				cout << "********************************************************" << endl;
				cout << "* size over 3M !" << endl;
				cout << "* file name : " << fdata.name << "  did not process .  "  << endl;
				cout << "********************************************************" << endl;
			}
		}
		else
		{
			break;
		}		
	}
	_findclose(h);
}

//--------------------------------------------------------------------------------
// FUNCTION: 打開網頁文件,去除標簽,提取內容。
// IN      : 網頁文件(*.htm/html)。
// OUT     : txt文件。
// AUTHOR  : 2006-05-22 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funProcess(string filename)
{
	ifstream fin((strDirSource + filename).c_str());
	string strLine,strResult;
	int i = 1 , j = 1 ;
	char *sResultFile;
	sResultFile=new char[100];
	//strUseful = STR_USEFUL ;           // "<TITLE>,<TR>,<TD>,<P>,<BR>,<DIV>"

	funDestFilename(filename.c_str(),sResultFile);
	cout << "." ;                      //輸出“.”號

	if (!fin) 
	{
		cout<<"Can't open the file !"<<endl ;
		return ; 
	}


	while ( getline(fin,strLine) )
	{
		if (i%3000 == 0) cout << "." ;
		if (i++ == 10000)
		{
			cout <<" " << j++ << "W";
			i = 1 ;
		}
		funConvCapital(strLine);
		//funPreProcess(strLine);		
		while((strLine[strLine.size()-1] =='\r') || (strLine[strLine.size()-1] =='\n')) //\r是換行,\n回車
		{
			strLine = strLine.substr(0, strLine.size()-1);
		}
		strResult+=strLine;		
	}
	
	cout << "." ;                      //輸出“.”號
	funDelete2(strResult,"SCRIPT",0);    //去除<SCRIPT></SCRIPT>間的內容
	funDelete2(strResult,"STYLE",0);     //去除<STYLE></STYLE>間的內容
	funDelete2(strResult,"XML",0);     //去除<XML></XML>間的內容

	if ( STR_A ) funDelete2(strResult,"A",0); 
	funDelete(strResult,"<A");         //將<A ...>變為<A>
	funDelete(strResult,"<P");         //將<P ...>變為<P>
	funDelete(strResult,"<TD");

	if ( STR_REPLACE_VERTICAL ) funReplace(strResult,"|"," "); 
	if ( STR_SPACE )   funReplace(strResult," ",""); //是否刪除所有空格

	funDelUselessLink(strResult);      //刪除無用鏈接

	cout << "." ;                      //輸出“.”號
	funKeepListLabel(strResult,0);     //0表示從第一個字符開始查找
	cout << "." ;                      //輸出“.”號
	funReplace(strResult,"	"," ");      //用空格替換TAB
	funReplace(strResult,"  "," ");      //最多保留一個空格
	cout << "." ;                      //輸出“.”號
	funResult(strResult);
	cout << "." ;                      //輸出“.”號
	funOutput(sResultFile);

	/**debug*******************/
//	ofstream fout(sResultFile);
//	fout<< strResult << endl;
//	fout.close();
	/**debug*******************/

	//delete sResultFile;
	fin.close();
}


//--------------------------------------------------------------------------------
// FUNCTION: 將處理結果存入向量中。
// IN      : strResult
// OUT     : vecResult
// AUTHOR  : 2006-05-22 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funResult(string strResult)
{
	int nPos;
	string strTmp;

	funDelBegAnd(strResult,0); //替換以&開頭以;結束的字符串
	vecResult.clear();
	nPos = strResult.find("<BR");
	while (nPos != -1)
	{
		strTmp = strResult.substr(0,nPos);
		funDelSideSpace(strTmp);       //去除前后空格
		if ( !strTmp.empty() ) {
			vecResult.push_back(strTmp);
		}
		strResult = strResult.substr(nPos+3);
		nPos = strResult.find("<BR");
	} 
	if (!strResult.empty()) 
	{
		vecResult.push_back(strResult);
	}
}

//--------------------------------------------------------------------------------
// FUNCTION: 將vecResult輸出到filename.txt中。
// IN      : filename
// OUT     : 將結果保存在文件中。
// AUTHOR  : 2006-05-22 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funOutput(char* filename)
{
	ofstream fout;
	int i,n;
	string strTmp,strTmpOld;
	
	fout.open((strDirDestination + filename).c_str());
	n=vecResult.size();

	for ( i=0;i<n;i++ )
	{
		strTmpOld = strTmp ; 
		strTmp = vecResult[i] ;	     //cout << strTmp <<endl;
		funDelSideSpace(strTmp);     //cout << strTmp <<endl;
		if((i > 0) && (strTmp == strTmpOld)) continue;
		if ( strTmp == "·" ) continue;
		//fout << "" << strTmp << endl;
		//fout << "    " << strTmp << endl; //加空格,好看一些。
		fout << strTmp << endl; //不加空格
	}

	cout << "  Finish !" << endl;

	fout.close();
}

//--------------------------------------------------------------------------------
// FUNCTION: 將小寫字母轉為大寫。
// IN      : 一行。
// OUT     : 
// AUTHOR  : 2006-05-27 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funConvCapital(string& strLine)
{
	if(STR_TI_CAPITAL)  
	{
		funReplace(strLine,"<ti","<TI");
		funReplace(strLine,"</ti","</TI");
	}
	if(STR_TR_CAPITAL)  
	{
		funReplace(strLine,"<tr","<TR");
		funReplace(strLine,"</tr","</TR");
	}
	if(STR_TD_CAPITAL)  
	{
		funReplace(strLine,"<td","<TD");
		funReplace(strLine,"</td","</TD");
	}
	if(STR_P_CAPITAL)   
	{
		funReplace(strLine,"<p","<P");
	}
	if(STR_BR_CAPITAL)  
	{
		funReplace(strLine,"<br","<BR"); 
	}
	if(STR_DI_CAPITAL)  
	{
		funReplace(strLine,"<di","<DI");
		funReplace(strLine,"</di","</DI");
	}
	if(STR_XML_CAPITAL) 
	{
		funReplace(strLine,"xml","XML");
	}
	if(STR_A_CAPITAL ) 
	{		
		funReplace(strLine,"<a","<A");
		funReplace(strLine,"</a>","</A>");
	}
	if(STR_SPACE ) 
	{
		funReplace(strLine," ",""); 
	}
	funReplace(strLine,"script","SCRIPT");
	funReplace(strLine,"style","STYLE");
}


//--------------------------------------------------------------------------------
// FUNCTION: 對strLine進行預處理。
// IN      : 一行。
// OUT     : 將結果保存在變量中。
// AUTHOR  : 2006-05-21 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funPreProcess(string& strLine)
{
	wchar_t ws[1024];
	char ss[2048];
	int nTrans = MultiByteToWideChar(CP_ACP, 0, strLine.c_str(), strLine.size(), ws, 1024 );
	ws[nTrans] =0;

	wstring wss=ws;

	funReplace(wss,L" ",L" ");        //將" "(全角的空格)替換成空格

	nTrans = WideCharToMultiByte(CP_ACP, 0, wss.c_str(), wss.size(), ss, 2048, NULL, NULL );
	ss[nTrans] = 0;
	strLine=ss;
}

?? 快捷鍵說明

復制代碼 Ctrl + C
搜索代碼 Ctrl + F
全屏模式 F11
切換主題 Ctrl + Shift + D
顯示快捷鍵 ?
增大字號 Ctrl + =
減小字號 Ctrl + -
亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频
日韩一二三区不卡| 亚洲乱码国产乱码精品精98午夜| 亚洲精品视频自拍| 亚洲一区二区三区四区中文字幕| 3751色影院一区二区三区| 午夜视频一区二区三区| 欧美日韩久久一区二区| 懂色av一区二区三区蜜臀| 日韩高清在线观看| 日韩欧美一区二区视频| 狠狠色丁香久久婷婷综| 六月丁香综合在线视频| 亚洲丝袜制服诱惑| 夜夜精品视频一区二区 | 青青草成人在线观看| 亚洲sss视频在线视频| 亚洲成av人片在线| 亚洲欧美aⅴ...| 韩国视频一区二区| 国产69精品久久777的优势| 91小视频在线免费看| 久久女同性恋中文字幕| 亚洲欧美日韩国产另类专区| 日本亚洲欧美天堂免费| 91色|porny| 日韩码欧中文字| 国产精品综合久久| 日韩免费视频一区二区| 亚洲国产一二三| 在线观看日产精品| 久久久99免费| 色综合婷婷久久| 久久99久久99| 亚洲综合激情另类小说区| 国产精品三级久久久久三级| 国产在线国偷精品产拍免费yy | 日韩一区二区三区在线视频| 亚洲制服丝袜一区| 欧美日韩久久一区| 日韩不卡免费视频| 日韩一区二区精品| 奇米一区二区三区| 久久精品视频网| av在线不卡免费看| 亚洲免费av在线| 欧美色老头old∨ideo| 调教+趴+乳夹+国产+精品| 欧美一三区三区四区免费在线看| 亚洲国产精品久久艾草纯爱| 91女神在线视频| 亚洲国产日韩在线一区模特| 日韩三级高清在线| 丁香婷婷综合五月| 亚洲国产成人av网| 久久综合成人精品亚洲另类欧美 | 欧美精品一区二区三区一线天视频 | 亚洲一二三区在线观看| 国产精品中文欧美| 亚洲一区二区三区美女| 精品国产91洋老外米糕| 91在线观看地址| 蜜芽一区二区三区| 亚洲人123区| 国产午夜三级一区二区三| 色综合久久88色综合天天6 | 欧美一区二区三区公司| 成人精品鲁一区一区二区| 亚洲高清视频在线| 国产精品久久久久久福利一牛影视 | 麻豆91免费观看| 亚洲精品成人精品456| 精品理论电影在线| 成人免费看黄yyy456| 久久se精品一区二区| 性欧美疯狂xxxxbbbb| 亚洲国产成人va在线观看天堂| 国产精品福利在线播放| 欧美激情一区不卡| 久久一日本道色综合| 精品国产乱码久久久久久1区2区| 欧美系列亚洲系列| 欧美午夜电影一区| 欧美亚洲国产bt| 色综合久久久久综合体| 色综合视频在线观看| 91黄色免费版| 欧美日韩久久一区二区| 7777精品伊人久久久大香线蕉最新版 | 日本一区二区三区电影| 久久久国产午夜精品| 欧美激情一区二区在线| 欧美精品一区二区三区蜜桃视频| 日韩精品一区二区在线| 日韩你懂的在线观看| 中文在线资源观看网站视频免费不卡| 国产片一区二区| 亚洲免费观看高清| 免费在线看成人av| 岛国精品一区二区| 欧美日韩精品一区二区| 久久免费视频色| 亚洲一区中文日韩| 国产成人三级在线观看| 色综合久久中文字幕| 欧美精品一区二区三区蜜桃视频| 欧美国产日韩一二三区| 午夜精品一区二区三区免费视频| 日本不卡123| 色综合久久久久久久久久久| 欧美一区二区在线免费播放| 国产精品久久二区二区| 麻豆精品国产传媒mv男同| 色视频成人在线观看免| 国产偷国产偷亚洲高清人白洁| 亚洲自拍偷拍综合| 99久久精品久久久久久清纯| 欧美成人精精品一区二区频| 亚洲综合在线电影| 国产成人亚洲综合色影视| 日韩一卡二卡三卡国产欧美| 一区二区三区在线观看网站| 不卡一区二区三区四区| 久久九九99视频| 久久99国产乱子伦精品免费| 欧美另类久久久品| 婷婷久久综合九色国产成人| 欧美色大人视频| 午夜精品免费在线观看| 欧美日韩一级片在线观看| 亚洲第一狼人社区| 91精品国产免费| 青青草97国产精品免费观看| 日韩欧美国产麻豆| 麻豆精品视频在线| 欧美变态口味重另类| 97成人超碰视| 偷窥少妇高潮呻吟av久久免费| 欧美精品在线一区二区三区| 丝袜美腿亚洲一区二区图片| 日韩视频123| 国产激情一区二区三区四区 | 欧美羞羞免费网站| 日本三级亚洲精品| 日本一区二区视频在线| 97久久精品人人爽人人爽蜜臀| 一区二区三区日韩在线观看| 欧美人与性动xxxx| 国产福利91精品| 亚洲一区日韩精品中文字幕| 欧美精选在线播放| 91欧美一区二区| 美女视频一区二区| 亚洲黄一区二区三区| 26uuu色噜噜精品一区二区| 91在线视频网址| 国产一区二区三区免费播放| 亚洲综合色成人| 国产精品乱人伦| 日韩一区二区在线看| 一本色道**综合亚洲精品蜜桃冫 | 国产欧美日韩三区| 日韩一区二区在线看| 欧美日本视频在线| 91激情在线视频| 91美女蜜桃在线| 99在线视频精品| 成人av在线资源网| 成人免费毛片app| 国产激情91久久精品导航| 免费不卡在线观看| 美国十次了思思久久精品导航| 日韩在线卡一卡二| 蜜臀久久99精品久久久久久9| 亚洲高清免费观看高清完整版在线观看| 欧美国产精品久久| 国产精品久久久久精k8| 亚洲精品国产a久久久久久| 亚洲精品福利视频网站| 日韩美女啊v在线免费观看| 国产精品毛片高清在线完整版| 国产三级欧美三级| 欧美国产精品一区二区| 国产精品美女一区二区在线观看| 国产精品婷婷午夜在线观看| 国产欧美精品区一区二区三区| 国产日韩三级在线| 国产欧美日韩精品一区| 一区二区三区在线观看欧美 | 色网站国产精品| 宅男噜噜噜66一区二区66| 日韩欧美国产一区在线观看| 国产日韩精品一区二区三区 | 欧美另类高清zo欧美| 亚洲精品一区二区三区影院| 国产精品三级av| 天天综合色天天综合| 粉嫩av亚洲一区二区图片| 欧美日韩精品是欧美日韩精品| 精品国产1区二区| 一区二区三区四区五区视频在线观看|