亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

? 歡迎來到蟲蟲下載站! | ?? 資源下載 ?? 資源專輯 ?? 關于我們
? 蟲蟲下載站

?? extract.cpp

?? 從網頁中提取內容
?? CPP
?? 第 1 頁 / 共 2 頁
字號:
//================================================================================
// CLASS   : Extract
// FUNCTION: 提取網頁內容,去除html標簽。
// AUTHOR  : 2006-05-21 Created by navy
// REFER   : 輸入文件名(*.htm/html)
// NOTE    : Extract.cpp , implementation file
//================================================================================
#include "StdAfx.h"
#include "Extract.h"
#include "windows.h"
Extract::Extract()
{	
	strUseful = STR_USEFUL ;           // "<TITLE>,<TR>,<TD>,<P>,<BR>,<DIV>"
}

//--------------------------------------------------------------------------------
// FUNCTION: 處理文件。
// IN      : 文件名。
// OUT     : .txt文件
// AUTHOR  : 2006-05-24 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funProcessFile(string strFileName)
{
	funProcess(strFileName);
}

//--------------------------------------------------------------------------------
// FUNCTION: 處理目錄中所有擴展名為strExteName的文件
// IN      : 源目錄、目標目錄、擴展名
// OUT     : txt文件。
// AUTHOR  : 2006-05-24 Created by navy .
// NOTE    : 目標目錄為空時,默認為源目錄
//--------------------------------------------------------------------------------
void Extract::funProcessDirectory(string strDirSour,string strDirDest,string strExteName)
{
	long h;
	_finddata_t fdata;
	string filename;
	int nCount = 0 ;
	if(strDirDest.empty())
	{
		strDirDest = strDirSour ;
	}
	strDirSource = strDirSour + "\\" ;
	strDirDestination = strDirDest + "\\" ; 
	h = _findfirst((strDirSource+"\\*."+strExteName).c_str(),&fdata);
	if (h == -1) 
	{
		//cout << "No match files .";
		return;
	}
	//funProcess( strDirDest+"\\"+fdata.name);
	if (fdata.size < 3*1024*1024) 
	{
		nCount ++ ;
		cout << nCount << " : " <<"processing " << fdata.name << "    ";
		funProcess(fdata.name);
	}
	else
	{
		//nCount ++ ;
		cout << "********************************************************" << endl;
		cout << "* size over 3M !" << endl;
		cout << "* file name : " << fdata.name << "  did not process .  "  << endl;
		cout << "********************************************************" << endl;
	}
	
	while (1)
	{
		if (_findnext(h,&fdata) == 0)
		{
			//funProcess( strDirDest+"\\"+fdata.name);
			if (fdata.size < 3*1024*1024) 
			{
				nCount ++ ;
				cout << nCount << " : " <<"processing " << fdata.name << "    ";
				funProcess(fdata.name);
			}
			else
			{
				//nCount ++ ;
				cout << "********************************************************" << endl;
				cout << "* size over 3M !" << endl;
				cout << "* file name : " << fdata.name << "  did not process .  "  << endl;
				cout << "********************************************************" << endl;
			}
		}
		else
		{
			break;
		}		
	}
	_findclose(h);
}

//--------------------------------------------------------------------------------
// FUNCTION: 打開網頁文件,去除標簽,提取內容。
// IN      : 網頁文件(*.htm/html)。
// OUT     : txt文件。
// AUTHOR  : 2006-05-22 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funProcess(string filename)
{
	ifstream fin((strDirSource + filename).c_str());
	string strLine,strResult;
	int i = 1 , j = 1 ;
	char *sResultFile;
	sResultFile=new char[100];
	//strUseful = STR_USEFUL ;           // "<TITLE>,<TR>,<TD>,<P>,<BR>,<DIV>"

	funDestFilename(filename.c_str(),sResultFile);
	cout << "." ;                      //輸出“.”號

	if (!fin) 
	{
		cout<<"Can't open the file !"<<endl ;
		return ; 
	}


	while ( getline(fin,strLine) )
	{
		if (i%3000 == 0) cout << "." ;
		if (i++ == 10000)
		{
			cout <<" " << j++ << "W";
			i = 1 ;
		}
		funConvCapital(strLine);
		//funPreProcess(strLine);		
		while((strLine[strLine.size()-1] =='\r') || (strLine[strLine.size()-1] =='\n')) //\r是換行,\n回車
		{
			strLine = strLine.substr(0, strLine.size()-1);
		}
		strResult+=strLine;		
	}
	
	cout << "." ;                      //輸出“.”號
	funDelete2(strResult,"SCRIPT",0);    //去除<SCRIPT></SCRIPT>間的內容
	funDelete2(strResult,"STYLE",0);     //去除<STYLE></STYLE>間的內容
	funDelete2(strResult,"XML",0);     //去除<XML></XML>間的內容

	if ( STR_A ) funDelete2(strResult,"A",0); 
	funDelete(strResult,"<A");         //將<A ...>變為<A>
	funDelete(strResult,"<P");         //將<P ...>變為<P>
	funDelete(strResult,"<TD");

	if ( STR_REPLACE_VERTICAL ) funReplace(strResult,"|"," "); 
	if ( STR_SPACE )   funReplace(strResult," ",""); //是否刪除所有空格

	funDelUselessLink(strResult);      //刪除無用鏈接

	cout << "." ;                      //輸出“.”號
	funKeepListLabel(strResult,0);     //0表示從第一個字符開始查找
	cout << "." ;                      //輸出“.”號
	funReplace(strResult,"	"," ");      //用空格替換TAB
	funReplace(strResult,"  "," ");      //最多保留一個空格
	cout << "." ;                      //輸出“.”號
	funResult(strResult);
	cout << "." ;                      //輸出“.”號
	funOutput(sResultFile);

	/**debug*******************/
//	ofstream fout(sResultFile);
//	fout<< strResult << endl;
//	fout.close();
	/**debug*******************/

	//delete sResultFile;
	fin.close();
}


//--------------------------------------------------------------------------------
// FUNCTION: 將處理結果存入向量中。
// IN      : strResult
// OUT     : vecResult
// AUTHOR  : 2006-05-22 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funResult(string strResult)
{
	int nPos;
	string strTmp;

	funDelBegAnd(strResult,0); //替換以&開頭以;結束的字符串
	vecResult.clear();
	nPos = strResult.find("<BR");
	while (nPos != -1)
	{
		strTmp = strResult.substr(0,nPos);
		funDelSideSpace(strTmp);       //去除前后空格
		if ( !strTmp.empty() ) {
			vecResult.push_back(strTmp);
		}
		strResult = strResult.substr(nPos+3);
		nPos = strResult.find("<BR");
	} 
	if (!strResult.empty()) 
	{
		vecResult.push_back(strResult);
	}
}

//--------------------------------------------------------------------------------
// FUNCTION: 將vecResult輸出到filename.txt中。
// IN      : filename
// OUT     : 將結果保存在文件中。
// AUTHOR  : 2006-05-22 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funOutput(char* filename)
{
	ofstream fout;
	int i,n;
	string strTmp,strTmpOld;
	
	fout.open((strDirDestination + filename).c_str());
	n=vecResult.size();

	for ( i=0;i<n;i++ )
	{
		strTmpOld = strTmp ; 
		strTmp = vecResult[i] ;	     //cout << strTmp <<endl;
		funDelSideSpace(strTmp);     //cout << strTmp <<endl;
		if((i > 0) && (strTmp == strTmpOld)) continue;
		if ( strTmp == "·" ) continue;
		//fout << "" << strTmp << endl;
		//fout << "    " << strTmp << endl; //加空格,好看一些。
		fout << strTmp << endl; //不加空格
	}

	cout << "  Finish !" << endl;

	fout.close();
}

//--------------------------------------------------------------------------------
// FUNCTION: 將小寫字母轉為大寫。
// IN      : 一行。
// OUT     : 
// AUTHOR  : 2006-05-27 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funConvCapital(string& strLine)
{
	if(STR_TI_CAPITAL)  
	{
		funReplace(strLine,"<ti","<TI");
		funReplace(strLine,"</ti","</TI");
	}
	if(STR_TR_CAPITAL)  
	{
		funReplace(strLine,"<tr","<TR");
		funReplace(strLine,"</tr","</TR");
	}
	if(STR_TD_CAPITAL)  
	{
		funReplace(strLine,"<td","<TD");
		funReplace(strLine,"</td","</TD");
	}
	if(STR_P_CAPITAL)   
	{
		funReplace(strLine,"<p","<P");
	}
	if(STR_BR_CAPITAL)  
	{
		funReplace(strLine,"<br","<BR"); 
	}
	if(STR_DI_CAPITAL)  
	{
		funReplace(strLine,"<di","<DI");
		funReplace(strLine,"</di","</DI");
	}
	if(STR_XML_CAPITAL) 
	{
		funReplace(strLine,"xml","XML");
	}
	if(STR_A_CAPITAL ) 
	{		
		funReplace(strLine,"<a","<A");
		funReplace(strLine,"</a>","</A>");
	}
	if(STR_SPACE ) 
	{
		funReplace(strLine," ",""); 
	}
	funReplace(strLine,"script","SCRIPT");
	funReplace(strLine,"style","STYLE");
}


//--------------------------------------------------------------------------------
// FUNCTION: 對strLine進行預處理。
// IN      : 一行。
// OUT     : 將結果保存在變量中。
// AUTHOR  : 2006-05-21 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funPreProcess(string& strLine)
{
	wchar_t ws[1024];
	char ss[2048];
	int nTrans = MultiByteToWideChar(CP_ACP, 0, strLine.c_str(), strLine.size(), ws, 1024 );
	ws[nTrans] =0;

	wstring wss=ws;

	funReplace(wss,L" ",L" ");        //將" "(全角的空格)替換成空格

	nTrans = WideCharToMultiByte(CP_ACP, 0, wss.c_str(), wss.size(), ss, 2048, NULL, NULL );
	ss[nTrans] = 0;
	strLine=ss;
}

?? 快捷鍵說明

復制代碼 Ctrl + C
搜索代碼 Ctrl + F
全屏模式 F11
切換主題 Ctrl + Shift + D
顯示快捷鍵 ?
增大字號 Ctrl + =
減小字號 Ctrl + -
亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频
2024国产精品| 日韩一区二区三区免费观看| 欧美最新大片在线看| 91麻豆精品国产| 国产精品成人一区二区三区夜夜夜| 亚洲欧美日本在线| 国产a精品视频| 欧美精品少妇一区二区三区| 欧美性大战久久久久久久蜜臀| 毛片一区二区三区| 精品国产凹凸成av人网站| 国产精品资源站在线| 亚洲视频一区二区在线观看| 精品视频在线免费看| 日本视频在线一区| 久久久久久亚洲综合影院红桃| 色综合久久综合中文综合网| 奇米影视一区二区三区| 亚洲欧洲日本在线| 91麻豆精品国产无毒不卡在线观看| 久久国产婷婷国产香蕉| 国产亚洲欧美一区在线观看| 91片黄在线观看| 国产麻豆精品theporn| 精品一区免费av| 日本道精品一区二区三区| 视频一区视频二区中文字幕| 国产精品久久久久久久久图文区 | 久久夜色精品国产噜噜av| 欧美日韩国产三级| 亚洲精品久久久蜜桃| 大白屁股一区二区视频| 国产亚洲欧洲997久久综合| 韩国av一区二区三区| 精品奇米国产一区二区三区| 蜜桃一区二区三区在线观看| 91精品国产综合久久精品图片| 亚洲成av人片在线观看无码| 日韩高清在线一区| 免费一级欧美片在线观看| 一区二区三区免费网站| 亚洲精品v日韩精品| 一区二区三区四区不卡视频| 精品国产一区二区三区四区四| 日本高清不卡aⅴ免费网站| 67194成人在线观看| 成人激情综合网站| 欧美精品精品一区| 99久久精品国产网站| 粉嫩aⅴ一区二区三区四区五区| 风流少妇一区二区| 色综合激情久久| 欧美精品色综合| 国产精品私人影院| 日韩欧美中文字幕精品| 99久久伊人精品| 日韩精品乱码免费| 麻豆中文一区二区| 91在线视频免费观看| 久久九九久久九九| 精品美女一区二区| 美女精品一区二区| 一区二区三区加勒比av| 日韩欧美在线综合网| 成人激情免费网站| 午夜精品福利在线| 亚洲精品欧美激情| 日韩电影免费在线| 成人在线视频一区二区| 欧美私模裸体表演在线观看| 日韩视频一区二区在线观看| 自拍偷拍亚洲综合| 91麻豆自制传媒国产之光| 欧美日韩中文字幕一区| 亚洲视频在线一区观看| 国产精品一区不卡| 欧美日韩久久久久久| 青草国产精品久久久久久| 久久九九影视网| 欧美日韩mp4| av网站一区二区三区| 日韩主播视频在线| 国产精品免费视频观看| 91精品国产日韩91久久久久久| 国产一区二区剧情av在线| 亚洲国产wwwccc36天堂| 国产欧美一区二区精品婷婷 | 美脚の诱脚舐め脚责91| 成人av在线观| 中文字幕欧美一区| 国产精品一线二线三线| 久久亚洲捆绑美女| 成人午夜激情影院| 国产农村妇女精品| eeuss影院一区二区三区| 欧美国产日本韩| 成人福利电影精品一区二区在线观看| 亚洲国产高清在线| 99精品热视频| 天天色天天操综合| 久久亚洲精品国产精品紫薇| 国产高清视频一区| 一区二区三区精品在线| 欧美日韩午夜影院| 日本韩国一区二区三区| 懂色av一区二区在线播放| 在线不卡一区二区| 国产日韩欧美制服另类| 美女脱光内衣内裤视频久久网站 | 午夜激情一区二区三区| 欧美一区二区视频在线观看2022 | 欧美天堂一区二区三区| 99国产欧美另类久久久精品| 九一久久久久久| 日本美女一区二区| 青青草精品视频| 男女性色大片免费观看一区二区 | 风间由美一区二区三区在线观看| 国产精品一区二区免费不卡| 九九视频精品免费| 久久99精品网久久| 国产一区福利在线| 国产乱码字幕精品高清av| 国产中文字幕一区| 国产激情视频一区二区在线观看 | 美日韩一区二区| 老司机午夜精品99久久| 久久99国内精品| 国产一区二区影院| 国产成人h网站| 99re亚洲国产精品| 在线免费观看不卡av| 欧美精品三级日韩久久| 欧美一区二区福利视频| 日韩你懂的电影在线观看| 精品日韩在线观看| 欧美激情综合在线| 一区二区三区电影在线播| 午夜婷婷国产麻豆精品| 麻豆高清免费国产一区| 国产一区二区三区电影在线观看| 成人在线视频一区二区| 在线视频观看一区| 欧美一区国产二区| 欧美极品美女视频| 亚洲一二三四在线| 极品销魂美女一区二区三区| www.欧美.com| 欧美美女喷水视频| 国产亚洲婷婷免费| 亚洲国产sm捆绑调教视频| 久久99精品久久只有精品| 9人人澡人人爽人人精品| 欧美三级视频在线观看| 欧美精品一区在线观看| 亚洲六月丁香色婷婷综合久久 | 欧美日韩大陆一区二区| 日韩免费一区二区| 亚洲日本电影在线| 美女网站色91| 色视频一区二区| 亚洲精品一区在线观看| 一区二区三区在线免费视频| 蜜桃一区二区三区四区| 色综合久久88色综合天天6| 欧美成人伊人久久综合网| 最新欧美精品一区二区三区| 男女激情视频一区| 色吊一区二区三区| 日韩免费观看高清完整版| 亚洲三级在线看| 国内精品免费**视频| 91高清在线观看| 中文字幕欧美激情| 久久精品999| 欧美日韩一级大片网址| 最新中文字幕一区二区三区| 国产自产高清不卡| 在线电影院国产精品| 一区二区三区在线观看视频| 国产成人丝袜美腿| 欧美v日韩v国产v| 午夜伦欧美伦电影理论片| 97超碰欧美中文字幕| 久久精品日韩一区二区三区| 亚洲一区日韩精品中文字幕| 成人深夜在线观看| 久久久91精品国产一区二区精品| 麻豆久久久久久| 在线综合+亚洲+欧美中文字幕| 一区二区激情视频| 99久久99精品久久久久久| 国产日韩欧美激情| 国产精品99久久久久久久女警| 日韩欧美电影一区| 秋霞影院一区二区| 欧美一区二区成人| 免费在线观看成人| 日韩精品一区二| 免费观看30秒视频久久|