亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

? 歡迎來到蟲蟲下載站! | ?? 資源下載 ?? 資源專輯 ?? 關于我們
? 蟲蟲下載站

?? jerichoextractorhtml.java

?? 這是個爬蟲和lucece相結合最好了
?? JAVA
?? 第 1 頁 / 共 2 頁
字號:
                resources = new ArrayList<String>();            // If element is applet and code value does not end with            // '.class' then append '.class' to the code value.            if (APPLET.equals(elementName) && !attrValue.endsWith(CLASSEXT)) {                resources.add(attrValue + CLASSEXT);            } else {                resources.add(attrValue);            }        }        // VALUE        else if (((attr = attributes.get("value")) != null) &&                 ((attrValue = attr.getValue()) != null)) {            if (TextUtils.matches(LIKELY_URI_PATH, attrValue)                    && overlyEagerLinkDetection) {                CharSequence context = Link.elementContext(elementName, attr                        .getKey());                processLink(curi, attrValue, context);            }        }        // STYLE        else if (((attr = attributes.get("style")) != null) &&                 ((attrValue = attr.getValue()) != null)) {            // STYLE inline attribute            // then, parse for URIs            this.numberOfLinksExtracted += ExtractorCSS.processStyleCode(curi,                    attrValue, getController());        }        // handle codebase/resources        if (resources == null)            return;        Iterator<String> iter = resources.iterator();        UURI codebaseURI = null;        String res = null;        try {            if (codebase != null) {                // TODO: Pass in the charset.                codebaseURI = UURIFactory.getInstance(curi.getUURI(), codebase);            }            while (iter.hasNext()) {                res = iter.next();                res = StringEscapeUtils.unescapeHtml(res);                if (codebaseURI != null) {                    res = codebaseURI.resolve(res).toString();                }                processEmbed(curi, res, element); // TODO: include attribute                                                    // too            }        } catch (URIException e) {            curi.addLocalizedError(getName(), e, "BAD CODEBASE " + codebase);        } catch (IllegalArgumentException e) {            DevUtils.logger.log(Level.WARNING, "processGeneralTag()\n"                    + "codebase=" + codebase + " res=" + res + "\n"                    + DevUtils.extraInfo(), e);        }    }    protected boolean processMeta(CrawlURI curi, Element element) {        String name = element.getAttributeValue("name");        String httpEquiv = element.getAttributeValue("http-equiv");        String content = element.getAttributeValue("content");        if ("robots".equals(name) && content != null) {            curi.putString(A_META_ROBOTS, content);            RobotsHonoringPolicy policy = getSettingsHandler().getOrder()                    .getRobotsHonoringPolicy();            String contentLower = content.toLowerCase();            if ((policy == null || (!policy.isType(curi,                    RobotsHonoringPolicy.IGNORE) && !policy.isType(curi,                    RobotsHonoringPolicy.CUSTOM)))                    && (contentLower.indexOf("nofollow") >= 0 || contentLower                            .indexOf("none") >= 0)) {                // if 'nofollow' or 'none' is specified and the                // honoring policy is not IGNORE or CUSTOM, end html extraction                logger.fine("HTML extraction skipped due to robots meta-tag " +                    "for: " + curi.toString());                return true;            }        }        if ("refresh".equals(httpEquiv) && content != null) {            String refreshUri = content.substring(content.indexOf("=") + 1);            try {                curi.createAndAddLinkRelativeToBase(refreshUri, "meta",                        Link.REFER_HOP);            } catch (URIException e) {                if (getController() != null) {                    getController().logUriError(e, curi.getUURI(), refreshUri);                } else {                    logger.info("Failed createAndAddLinkRelativeToBase " + curi                            + ", " + element.toString() + ", " + refreshUri                            + ": " + e);                }            }        }        return false;    }    protected void processScript(CrawlURI curi, Element element) {        // first, get attributes of script-open tag        // as per any other tag        processGeneralTag(curi, element, element.getAttributes());        // then, apply best-effort string-analysis heuristics        // against any code present (false positives are OK)        processScriptCode(curi, element.getContent());    }    protected void processStyle(CrawlURI curi, Element element) {        // First, get attributes of script-open tag as per any other tag.        processGeneralTag(curi, element, element.getAttributes());        // then, parse for URIs        this.numberOfLinksExtracted += ExtractorCSS.processStyleCode(curi,                element.getContent(), getController());    }    protected void processForm(CrawlURI curi, Element element) {        String action = element.getAttributeValue("action");        String name = element.getAttributeValue("name");        String queryURL = "";        final boolean ignoreFormActions = ((Boolean) getUncheckedAttribute(                curi, ATTR_IGNORE_FORM_ACTION_URLS)).booleanValue();        if (ignoreFormActions)            return;        numberOfFormsProcessed++;        // get all form fields        FormFields formFields = element.findFormFields();        for (Iterator fieldsIter = formFields.iterator(); fieldsIter.hasNext();) {            // for each form field            FormField formField = (FormField) fieldsIter.next();            // for each form control            for (Iterator controlIter = formField.getFormControls().iterator();                controlIter.hasNext();) {                FormControl formControl = (FormControl) controlIter.next();                // get name of control element (and URLEncode it)                String controlName = formControl.getName();                // retrieve list of values - submit needs special handling                Collection controlValues;                if (!(formControl.getFormControlType() ==                        FormControlType.SUBMIT)) {                    controlValues = formControl.getValues();                } else {                    controlValues = formControl.getPredefinedValues();                }                if (controlValues.size() > 0) {                    // for each value set                    for (Iterator valueIter = controlValues.iterator();                            valueIter.hasNext();) {                        String value = (String) valueIter.next();                        queryURL += "&" + controlName + "=" + value;                    }                } else {                    queryURL += "&" + controlName + "=";                }            }        }        // clean up url        if (action == null) {            queryURL = queryURL.replaceFirst("&", "?");        } else {            if (!action.contains("?"))                queryURL = queryURL.replaceFirst("&", "?");            queryURL = action + queryURL;        }        CharSequence context = Link.elementContext(element.getName(),            "name=" + name);        processLink(curi, queryURL, context);    }    /**     * Run extractor. This method is package visible to ease testing.     *      * @param curi     *            CrawlURI we're processing.     * @param cs     *            Sequence from underlying ReplayCharSequence.     */    void extract(CrawlURI curi, CharSequence cs) {        Source source = new Source(cs);        List elements = source.findAllElements(StartTagType.NORMAL);        for (Iterator elementIter = elements.iterator();                elementIter.hasNext();) {            Element element = (Element) elementIter.next();            String elementName = element.getName();            Attributes attributes;            if (elementName.equals(HTMLElementName.META)) {                if (processMeta(curi, element)) {                    // meta tag included NOFOLLOW; abort processing                    break;                }            } else if (elementName.equals(HTMLElementName.SCRIPT)) {                processScript(curi, element);            } else if (elementName.equals(HTMLElementName.STYLE)) {                processStyle(curi, element);            } else if (elementName.equals(HTMLElementName.FORM)) {                processForm(curi, element);            } else if (!(attributes = element.getAttributes()).isEmpty()) {                processGeneralTag(curi, element, attributes);            }        }    }    /*     * (non-Javadoc)     *      * @see org.archive.crawler.framework.Processor#report()     */    public String report() {        StringBuffer ret = new StringBuffer();        ret.append("Processor: org.archive.crawler.extractor.JerichoExtractorHTML\n");        ret.append("  Function:          Link extraction on HTML documents\n");        ret.append("  CrawlURIs handled: " + this.numberOfCURIsHandled + "\n");        ret.append("  Forms processed:   " + this.numberOfFormsProcessed + "\n");        ret.append("  Links extracted:   " + this.numberOfLinksExtracted + "\n\n");        return ret.toString();    }}

?? 快捷鍵說明

復制代碼 Ctrl + C
搜索代碼 Ctrl + F
全屏模式 F11
切換主題 Ctrl + Shift + D
顯示快捷鍵 ?
增大字號 Ctrl + =
減小字號 Ctrl + -
亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频
欧美一级夜夜爽| 色屁屁一区二区| 免费在线观看成人| 亚洲影视在线播放| 秋霞电影一区二区| 青青草精品视频| 久久超碰97人人做人人爱| 麻豆国产欧美日韩综合精品二区| 日本视频免费一区| 另类小说图片综合网| 久久精品国产在热久久| 精东粉嫩av免费一区二区三区| 久久99国产精品免费网站| 激情深爱一区二区| 丰满白嫩尤物一区二区| 99久久婷婷国产综合精品电影 | 日韩欧美久久一区| 日韩欧美久久一区| 国产日韩欧美在线一区| 国产精品久久久久久久第一福利| 中文字幕一区二区三区在线不卡| 一区二区欧美视频| 午夜精品久久久久久久99水蜜桃 | 日本一区二区免费在线 | 肉肉av福利一精品导航| 精品亚洲aⅴ乱码一区二区三区| 国产精品小仙女| 99国内精品久久| 制服.丝袜.亚洲.中文.综合| 久久久久99精品国产片| 亚洲伦理在线精品| 精品一区二区三区免费| 成人avav在线| 欧美男人的天堂一二区| 欧美国产精品一区| 视频一区在线视频| 成人黄色网址在线观看| 欧美一区二区成人6969| 亚洲欧洲精品一区二区精品久久久 | 国产福利视频一区二区三区| 色天使久久综合网天天| 久久人人超碰精品| 亚洲福利国产精品| 成人丝袜18视频在线观看| 欧美丰满美乳xxx高潮www| 国产日韩v精品一区二区| 天天综合日日夜夜精品| av电影天堂一区二区在线观看| 欧美军同video69gay| 中文字幕一区在线| 精彩视频一区二区三区| 欧美日韩高清一区二区| 亚洲色图制服诱惑| 国产成人超碰人人澡人人澡| 在线播放一区二区三区| 国产精品福利电影一区二区三区四区 | 亚洲人成7777| 国产成人午夜精品5599| 日韩一级高清毛片| 亚洲一区二区三区四区在线免费观看 | 日本三级亚洲精品| 在线免费不卡视频| 亚洲欧洲国产日韩| 成人一级黄色片| 久久久久国产精品厨房| 久久精品国产精品亚洲精品| 欧美日韩午夜在线| 亚洲综合成人在线视频| 91理论电影在线观看| 国产精品福利影院| 99热99精品| 亚洲私人影院在线观看| 不卡电影一区二区三区| 国产欧美一区二区三区在线看蜜臀 | 欧美日韩免费一区二区三区视频| 一色桃子久久精品亚洲| 粗大黑人巨茎大战欧美成人| 久久色在线视频| 国产精品一区免费在线观看| 奇米影视一区二区三区小说| 91在线你懂得| 一区二区在线观看视频在线观看| 91免费国产在线| 亚洲欧美激情插| 色婷婷激情一区二区三区| **性色生活片久久毛片| 一道本成人在线| 亚洲五码中文字幕| 91精品国产乱码| 久久精品一区二区三区不卡牛牛| 91精品久久久久久蜜臀| 日韩成人一区二区三区在线观看| 欧美日韩一区成人| 亚洲精品乱码久久久久久| 在线中文字幕一区| 午夜精品福利一区二区三区蜜桃| 99九九99九九九视频精品| 国产精品国产三级国产三级人妇 | 日韩欧美自拍偷拍| 国产一区二区0| 国产精品国产成人国产三级 | 国产一区二区三区久久久| 欧美高清在线一区二区| 91电影在线观看| 蜜臀va亚洲va欧美va天堂| 国产欧美精品一区二区色综合| 91蜜桃婷婷狠狠久久综合9色| 香蕉影视欧美成人| 久久久久久久综合日本| 91麻豆免费在线观看| 免费精品视频最新在线| 欧美激情综合在线| 91精品国产综合久久香蕉麻豆| 韩国一区二区在线观看| 亚洲黄色小说网站| 91精品国产综合久久精品麻豆| 日韩有码一区二区三区| 精品国产伦一区二区三区观看体验 | 精品视频一区 二区 三区| 免费高清在线视频一区·| 久久美女高清视频| 成人av在线观| 石原莉奈在线亚洲三区| 国产精品视频第一区| 欧美在线观看一区| 久久99久久99| 中文字幕视频一区二区三区久| 欧美一卡2卡3卡4卡| 国产精品亚洲第一区在线暖暖韩国 | 在线精品亚洲一区二区不卡| 久久精品国产久精国产| 亚洲欧洲99久久| 欧美日本在线播放| 高清日韩电视剧大全免费| 亚洲精品乱码久久久久久日本蜜臀| 777a∨成人精品桃花网| 成人一级片在线观看| 图片区小说区区亚洲影院| 精品国产乱码久久久久久1区2区| 色老汉一区二区三区| 国产成人福利片| 久久精品国产99久久6| 一区二区三区免费看视频| 精品久久久久久亚洲综合网| 91黄色激情网站| 国产成a人亚洲| 五月婷婷欧美视频| ●精品国产综合乱码久久久久| 精品国产91亚洲一区二区三区婷婷 | 三级久久三级久久久| 国产精品久久久久国产精品日日| 日韩一区二区三区视频| 91美女视频网站| 在线视频一区二区三区| 在线观看一区二区精品视频| 国产呦萝稀缺另类资源| 国产一区二区在线免费观看| 国产在线日韩欧美| 国产一区二区看久久| 国产一区二区按摩在线观看| 国产黄色91视频| 成人va在线观看| 色综合天天做天天爱| 日本丶国产丶欧美色综合| 欧美色老头old∨ideo| 日韩一区二区电影| 精品国产亚洲在线| 国产精品理伦片| 亚洲精品ww久久久久久p站| 亚洲午夜久久久久久久久电影院| 午夜精品久久久久久久99樱桃 | 欧美国产一区二区在线观看| 国产欧美日韩三级| 亚洲男同性恋视频| 午夜久久久久久久久| 国内外精品视频| 欧洲精品在线观看| 日韩欧美综合一区| 国产精品欧美一区喷水| 亚洲成a人片综合在线| 久久99精品久久久久久国产越南| 国内久久婷婷综合| 成人深夜视频在线观看| 欧美视频你懂的| 欧美大片在线观看一区| 中文字幕欧美激情| 亚洲午夜影视影院在线观看| 久久69国产一区二区蜜臀| 99精品黄色片免费大全| 日韩欧美中文一区二区| 国产人久久人人人人爽| 亚洲成人免费在线| 懂色av一区二区夜夜嗨| 欧美高清精品3d| 国产日韩欧美a| 亚洲精品国久久99热| 黄页网站大全一区二区| 在线看日本不卡| 亚洲国产精品激情在线观看| 亚洲一区在线观看网站|