亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

? 歡迎來到蟲蟲下載站! | ?? 資源下載 ?? 資源專輯 ?? 關于我們
? 蟲蟲下載站

?? extract.cpp

?? 從網頁中提取內容
?? CPP
?? 第 1 頁 / 共 2 頁
字號:
//================================================================================
// CLASS   : Extract
// FUNCTION: 提取網頁內容,去除html標簽。
// AUTHOR  : 2006-05-21 Created by navy
// REFER   : 輸入文件名(*.htm/html)
// NOTE    : Extract.cpp , implementation file
//================================================================================
#include "StdAfx.h"
#include "Extract.h"
#include "windows.h"
Extract::Extract()
{	
	strUseful = STR_USEFUL ;           // "<TITLE>,<TR>,<TD>,<P>,<BR>,<DIV>"
}

//--------------------------------------------------------------------------------
// FUNCTION: 處理文件。
// IN      : 文件名。
// OUT     : .txt文件
// AUTHOR  : 2006-05-24 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funProcessFile(string strFileName)
{
	funProcess(strFileName);
}

//--------------------------------------------------------------------------------
// FUNCTION: 處理目錄中所有擴展名為strExteName的文件
// IN      : 源目錄、目標目錄、擴展名
// OUT     : txt文件。
// AUTHOR  : 2006-05-24 Created by navy .
// NOTE    : 目標目錄為空時,默認為源目錄
//--------------------------------------------------------------------------------
void Extract::funProcessDirectory(string strDirSour,string strDirDest,string strExteName)
{
	long h;
	_finddata_t fdata;
	string filename;
	int nCount = 0 ;
	if(strDirDest.empty())
	{
		strDirDest = strDirSour ;
	}
	strDirSource = strDirSour + "\\" ;
	strDirDestination = strDirDest + "\\" ; 
	h = _findfirst((strDirSource+"\\*."+strExteName).c_str(),&fdata);
	if (h == -1) 
	{
		//cout << "No match files .";
		return;
	}
	//funProcess( strDirDest+"\\"+fdata.name);
	if (fdata.size < 3*1024*1024) 
	{
		nCount ++ ;
		cout << nCount << " : " <<"processing " << fdata.name << "    ";
		funProcess(fdata.name);
	}
	else
	{
		//nCount ++ ;
		cout << "********************************************************" << endl;
		cout << "* size over 3M !" << endl;
		cout << "* file name : " << fdata.name << "  did not process .  "  << endl;
		cout << "********************************************************" << endl;
	}
	
	while (1)
	{
		if (_findnext(h,&fdata) == 0)
		{
			//funProcess( strDirDest+"\\"+fdata.name);
			if (fdata.size < 3*1024*1024) 
			{
				nCount ++ ;
				cout << nCount << " : " <<"processing " << fdata.name << "    ";
				funProcess(fdata.name);
			}
			else
			{
				//nCount ++ ;
				cout << "********************************************************" << endl;
				cout << "* size over 3M !" << endl;
				cout << "* file name : " << fdata.name << "  did not process .  "  << endl;
				cout << "********************************************************" << endl;
			}
		}
		else
		{
			break;
		}		
	}
	_findclose(h);
}

//--------------------------------------------------------------------------------
// FUNCTION: 打開網頁文件,去除標簽,提取內容。
// IN      : 網頁文件(*.htm/html)。
// OUT     : txt文件。
// AUTHOR  : 2006-05-22 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funProcess(string filename)
{
	ifstream fin((strDirSource + filename).c_str());
	string strLine,strResult;
	int i = 1 , j = 1 ;
	char *sResultFile;
	sResultFile=new char[100];
	//strUseful = STR_USEFUL ;           // "<TITLE>,<TR>,<TD>,<P>,<BR>,<DIV>"

	funDestFilename(filename.c_str(),sResultFile);
	cout << "." ;                      //輸出“.”號

	if (!fin) 
	{
		cout<<"Can't open the file !"<<endl ;
		return ; 
	}


	while ( getline(fin,strLine) )
	{
		if (i%3000 == 0) cout << "." ;
		if (i++ == 10000)
		{
			cout <<" " << j++ << "W";
			i = 1 ;
		}
		funConvCapital(strLine);
		//funPreProcess(strLine);		
		while((strLine[strLine.size()-1] =='\r') || (strLine[strLine.size()-1] =='\n')) //\r是換行,\n回車
		{
			strLine = strLine.substr(0, strLine.size()-1);
		}
		strResult+=strLine;		
	}
	
	cout << "." ;                      //輸出“.”號
	funDelete2(strResult,"SCRIPT",0);    //去除<SCRIPT></SCRIPT>間的內容
	funDelete2(strResult,"STYLE",0);     //去除<STYLE></STYLE>間的內容
	funDelete2(strResult,"XML",0);     //去除<XML></XML>間的內容

	if ( STR_A ) funDelete2(strResult,"A",0); 
	funDelete(strResult,"<A");         //將<A ...>變為<A>
	funDelete(strResult,"<P");         //將<P ...>變為<P>
	funDelete(strResult,"<TD");

	if ( STR_REPLACE_VERTICAL ) funReplace(strResult,"|"," "); 
	if ( STR_SPACE )   funReplace(strResult," ",""); //是否刪除所有空格

	funDelUselessLink(strResult);      //刪除無用鏈接

	cout << "." ;                      //輸出“.”號
	funKeepListLabel(strResult,0);     //0表示從第一個字符開始查找
	cout << "." ;                      //輸出“.”號
	funReplace(strResult,"	"," ");      //用空格替換TAB
	funReplace(strResult,"  "," ");      //最多保留一個空格
	cout << "." ;                      //輸出“.”號
	funResult(strResult);
	cout << "." ;                      //輸出“.”號
	funOutput(sResultFile);

	/**debug*******************/
//	ofstream fout(sResultFile);
//	fout<< strResult << endl;
//	fout.close();
	/**debug*******************/

	//delete sResultFile;
	fin.close();
}


//--------------------------------------------------------------------------------
// FUNCTION: 將處理結果存入向量中。
// IN      : strResult
// OUT     : vecResult
// AUTHOR  : 2006-05-22 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funResult(string strResult)
{
	int nPos;
	string strTmp;

	funDelBegAnd(strResult,0); //替換以&開頭以;結束的字符串
	vecResult.clear();
	nPos = strResult.find("<BR");
	while (nPos != -1)
	{
		strTmp = strResult.substr(0,nPos);
		funDelSideSpace(strTmp);       //去除前后空格
		if ( !strTmp.empty() ) {
			vecResult.push_back(strTmp);
		}
		strResult = strResult.substr(nPos+3);
		nPos = strResult.find("<BR");
	} 
	if (!strResult.empty()) 
	{
		vecResult.push_back(strResult);
	}
}

//--------------------------------------------------------------------------------
// FUNCTION: 將vecResult輸出到filename.txt中。
// IN      : filename
// OUT     : 將結果保存在文件中。
// AUTHOR  : 2006-05-22 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funOutput(char* filename)
{
	ofstream fout;
	int i,n;
	string strTmp,strTmpOld;
	
	fout.open((strDirDestination + filename).c_str());
	n=vecResult.size();

	for ( i=0;i<n;i++ )
	{
		strTmpOld = strTmp ; 
		strTmp = vecResult[i] ;	     //cout << strTmp <<endl;
		funDelSideSpace(strTmp);     //cout << strTmp <<endl;
		if((i > 0) && (strTmp == strTmpOld)) continue;
		if ( strTmp == "·" ) continue;
		//fout << "" << strTmp << endl;
		//fout << "    " << strTmp << endl; //加空格,好看一些。
		fout << strTmp << endl; //不加空格
	}

	cout << "  Finish !" << endl;

	fout.close();
}

//--------------------------------------------------------------------------------
// FUNCTION: 將小寫字母轉為大寫。
// IN      : 一行。
// OUT     : 
// AUTHOR  : 2006-05-27 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funConvCapital(string& strLine)
{
	if(STR_TI_CAPITAL)  
	{
		funReplace(strLine,"<ti","<TI");
		funReplace(strLine,"</ti","</TI");
	}
	if(STR_TR_CAPITAL)  
	{
		funReplace(strLine,"<tr","<TR");
		funReplace(strLine,"</tr","</TR");
	}
	if(STR_TD_CAPITAL)  
	{
		funReplace(strLine,"<td","<TD");
		funReplace(strLine,"</td","</TD");
	}
	if(STR_P_CAPITAL)   
	{
		funReplace(strLine,"<p","<P");
	}
	if(STR_BR_CAPITAL)  
	{
		funReplace(strLine,"<br","<BR"); 
	}
	if(STR_DI_CAPITAL)  
	{
		funReplace(strLine,"<di","<DI");
		funReplace(strLine,"</di","</DI");
	}
	if(STR_XML_CAPITAL) 
	{
		funReplace(strLine,"xml","XML");
	}
	if(STR_A_CAPITAL ) 
	{		
		funReplace(strLine,"<a","<A");
		funReplace(strLine,"</a>","</A>");
	}
	if(STR_SPACE ) 
	{
		funReplace(strLine," ",""); 
	}
	funReplace(strLine,"script","SCRIPT");
	funReplace(strLine,"style","STYLE");
}


//--------------------------------------------------------------------------------
// FUNCTION: 對strLine進行預處理。
// IN      : 一行。
// OUT     : 將結果保存在變量中。
// AUTHOR  : 2006-05-21 Created by navy .
// NOTE    : 
//--------------------------------------------------------------------------------
void Extract::funPreProcess(string& strLine)
{
	wchar_t ws[1024];
	char ss[2048];
	int nTrans = MultiByteToWideChar(CP_ACP, 0, strLine.c_str(), strLine.size(), ws, 1024 );
	ws[nTrans] =0;

	wstring wss=ws;

	funReplace(wss,L" ",L" ");        //將" "(全角的空格)替換成空格

	nTrans = WideCharToMultiByte(CP_ACP, 0, wss.c_str(), wss.size(), ss, 2048, NULL, NULL );
	ss[nTrans] = 0;
	strLine=ss;
}

?? 快捷鍵說明

復制代碼 Ctrl + C
搜索代碼 Ctrl + F
全屏模式 F11
切換主題 Ctrl + Shift + D
顯示快捷鍵 ?
增大字號 Ctrl + =
減小字號 Ctrl + -
亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频
欧美亚洲自拍偷拍| 制服丝袜中文字幕一区| 亚洲国产精品久久久久婷婷884| 国产精品白丝jk黑袜喷水| 亚洲蜜臀av乱码久久精品蜜桃| 日韩一区二区免费在线观看| 国产成人精品一区二| 午夜天堂影视香蕉久久| 国产精品伦一区二区三级视频| 欧美日韩精品一区二区三区| 成人午夜在线播放| 天堂影院一区二区| 亚洲美腿欧美偷拍| 亚洲国产精品v| 精品成人一区二区三区四区| 欧美日韩国产一二三| 国产精品资源网| 亚洲欧洲成人精品av97| 欧美专区亚洲专区| 丁香天五香天堂综合| 久久爱另类一区二区小说| www.日本不卡| 激情欧美一区二区三区在线观看| 午夜精品久久久久久久久久| 亚洲人成小说网站色在线| 国产精品视频第一区| 国产欧美一区二区精品性| 日韩美女视频在线| 日韩一区二区影院| 欧美日韩高清一区| 欧美天堂亚洲电影院在线播放 | 国模一区二区三区白浆| 午夜视频在线观看一区二区| 夜夜嗨av一区二区三区四季av| 中文久久乱码一区二区| 国产日本欧美一区二区| 久久综合精品国产一区二区三区 | 欧美影院一区二区三区| 色激情天天射综合网| 91免费版在线| 色综合色狠狠综合色| 91免费小视频| 日本乱人伦aⅴ精品| 在线日韩一区二区| 欧美午夜在线观看| 3d动漫精品啪啪一区二区竹菊| 欧美日韩精品免费观看视频| 欧美精品第1页| 日韩欧美视频一区| 久久精品亚洲一区二区三区浴池| 国产亚洲欧美色| 欧美国产乱子伦| 中文字幕一区二区三区四区不卡| 亚洲精品免费在线| 亚洲v中文字幕| 免费视频一区二区| 狠狠色丁香婷婷综合| 国产精品夜夜嗨| 99re视频精品| 欧美日韩免费视频| 日韩欧美成人午夜| 国产日韩欧美不卡| 亚洲精品乱码久久久久久日本蜜臀| 亚洲一区二区三区四区不卡| 五月天精品一区二区三区| 九色porny丨国产精品| 欧美一区二区三区视频| 久久老女人爱爱| 亚洲欧洲成人av每日更新| 亚洲成人精品在线观看| 狠狠色综合日日| 97久久精品人人澡人人爽| 欧美日韩精品三区| 久久日韩精品一区二区五区| 综合色天天鬼久久鬼色| 婷婷六月综合网| 国产九九视频一区二区三区| 91麻豆精品视频| 欧美一区二区三区系列电影| 欧美经典三级视频一区二区三区| 一级特黄大欧美久久久| 麻豆传媒一区二区三区| 91视频免费播放| 欧美一二三四区在线| 自拍偷自拍亚洲精品播放| 日韩成人免费在线| 成人av影院在线| 8v天堂国产在线一区二区| 国产亚洲综合性久久久影院| 亚洲v精品v日韩v欧美v专区| 国产成人免费av在线| 欧美日韩三级一区| 国产精品欧美综合在线| 日韩精品一区第一页| 成人一级黄色片| 制服丝袜成人动漫| 日韩美女精品在线| 国产综合一区二区| 欧美精品高清视频| 最新日韩在线视频| 国产在线国偷精品产拍免费yy| 欧美在线短视频| 国产蜜臀97一区二区三区| 日本成人在线电影网| 在线亚洲人成电影网站色www| 久久蜜臀精品av| 香蕉成人啪国产精品视频综合网| 成人免费毛片片v| 欧美va亚洲va香蕉在线| 亚洲国产视频在线| 91在线观看视频| 国产日韩欧美激情| 国产精品一区在线观看你懂的| 在线播放亚洲一区| 亚州成人在线电影| 色婷婷狠狠综合| 中文字幕一区日韩精品欧美| 国产69精品久久777的优势| 日韩一区二区免费视频| 丝袜诱惑亚洲看片| 精品视频免费看| 一区二区三区电影在线播| 99免费精品在线| 中文字幕精品三区| 国产成人在线电影| 久久久99久久| 国产精品99久久久久久有的能看 | 日韩西西人体444www| 亚洲v精品v日韩v欧美v专区| 日本高清成人免费播放| 亚洲三级在线免费观看| 99国产精品99久久久久久| 国产精品伦理一区二区| 国产老肥熟一区二区三区| 亚洲精品一区二区三区影院| 免费观看91视频大全| 欧美一级理论片| 青青青伊人色综合久久| 欧美一级夜夜爽| 美女国产一区二区三区| 精品裸体舞一区二区三区| 激情都市一区二区| 国产日韩欧美不卡| 成人久久18免费网站麻豆| 国内欧美视频一区二区| 精品国产91久久久久久久妲己 | 国产欧美中文在线| 成人三级伦理片| 国产精品二三区| 色偷偷久久人人79超碰人人澡| 亚洲人妖av一区二区| 欧美天堂亚洲电影院在线播放| 丝袜美腿亚洲综合| 日韩精品一区二区三区在线 | 天涯成人国产亚洲精品一区av| 欧美日韩国产免费一区二区| 麻豆成人91精品二区三区| 26uuu亚洲综合色欧美| k8久久久一区二区三区| 亚洲激情图片小说视频| 精品视频色一区| 国产一区视频导航| 亚洲视频狠狠干| 7777精品伊人久久久大香线蕉完整版| 美女脱光内衣内裤视频久久网站 | 99久久精品国产导航| 亚洲乱码一区二区三区在线观看| 欧美日韩一区小说| 精品在线观看视频| 亚洲欧洲无码一区二区三区| 欧美日韩极品在线观看一区| 精品一区二区三区久久久| 国产精品麻豆网站| 欧美日本高清视频在线观看| 国产在线不卡一区| 亚洲你懂的在线视频| 日韩一级免费一区| 成人18精品视频| 日本不卡123| 国产精品伦理在线| 日韩欧美一区在线| 97久久精品人人爽人人爽蜜臀 | 色综合中文字幕国产 | 亚洲在线视频网站| 精品伦理精品一区| 在线免费观看成人短视频| 捆绑紧缚一区二区三区视频| 国产精品久久久久久户外露出| 欧美欧美午夜aⅴ在线观看| 国产伦精品一区二区三区视频青涩| 亚洲男人的天堂一区二区| 精品成人在线观看| 欧美日韩在线综合| 成人久久视频在线观看| 六月丁香婷婷久久| 亚洲高清免费观看高清完整版在线观看| 久久久影院官网| 欧美精品乱人伦久久久久久| 不卡在线观看av| 久久电影网站中文字幕|