久久精品国产亚洲怮怮_奇米网777色在线精品_亚洲色中文字幕制服丝袜_久久精品人人做人人看

始創(chuàng)于2000年 股票代碼:831685
咨詢熱線:0371-60135900 注冊(cè)有禮 登錄
  • 掛牌上市企業(yè)
  • 60秒人工響應(yīng)
  • 99.99%連通率
  • 7*24h人工
  • 故障100倍補(bǔ)償
全部產(chǎn)品
您的位置: 網(wǎng)站首頁(yè) > 幫助中心>文章內(nèi)容

網(wǎng)絡(luò)爬蟲(chóng)與Web安全

發(fā)布時(shí)間:  2012/8/25 20:15:51

網(wǎng)絡(luò)爬蟲(chóng)概述

網(wǎng)絡(luò)爬蟲(chóng)(Web Crawler),又稱網(wǎng)絡(luò)蜘蛛(Web Spider)或網(wǎng)絡(luò)機(jī)器人(Web Robot),是一種按照一定的規(guī)則自動(dòng)抓取萬(wàn)維網(wǎng)資源的程序或者腳本,已被廣泛應(yīng)用于互聯(lián)網(wǎng)領(lǐng)域。搜索引擎使用網(wǎng)絡(luò)爬蟲(chóng)抓取Web網(wǎng)頁(yè)、文檔甚至圖片、音頻、視頻等資源,通過(guò)相應(yīng)的索引技術(shù)組織這些信息,提供給搜索用戶進(jìn)行查詢。隨著網(wǎng)絡(luò)的迅速發(fā)展,萬(wàn)維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。不斷優(yōu)化的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)正在有效地應(yīng)對(duì)這種挑戰(zhàn),為高效搜索用戶關(guān)注的特定領(lǐng)域與主題提供了有力支撐。網(wǎng)絡(luò)爬蟲(chóng)也為中小站點(diǎn)的推廣提供了有效的途徑,網(wǎng)站針對(duì)搜索引擎爬蟲(chóng)的優(yōu)化曾風(fēng)靡一時(shí)。

傳統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)從一個(gè)或若干個(gè)初始網(wǎng)頁(yè)的URL(Universal Resource Locator統(tǒng)一資源定位符)開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定條件停止抓取,F(xiàn)階段網(wǎng)絡(luò)爬蟲(chóng)已發(fā)展為涵蓋網(wǎng)頁(yè)數(shù)據(jù)抽取、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語(yǔ)義理解等多種方法綜合應(yīng)用的智能工具。

網(wǎng)絡(luò)爬蟲(chóng)的安全性問(wèn)題

由于網(wǎng)絡(luò)爬蟲(chóng)的策略是盡可能多的“爬過(guò)”網(wǎng)站中的高價(jià)值信息,會(huì)根據(jù)特定策略盡可能多的訪問(wèn)頁(yè)面,占用網(wǎng)絡(luò)帶寬并增加Web服務(wù)器的處理開(kāi)銷,不少小型站點(diǎn)的站長(zhǎng)發(fā)現(xiàn)當(dāng)網(wǎng)絡(luò)爬蟲(chóng)光顧的時(shí)候,訪問(wèn)流量將會(huì)有明顯的增長(zhǎng)。惡意用戶可以利用爬蟲(chóng)程序?qū)eb站點(diǎn)發(fā)動(dòng)DoS攻擊,使Web服務(wù)在大量爬蟲(chóng)程序的暴力訪問(wèn)下,資源耗盡而不能提供正常服務(wù)。惡意用戶還可能通過(guò)網(wǎng)絡(luò)爬蟲(chóng)抓取各種敏感資料用于不正當(dāng)用途,主要表現(xiàn)在以下幾個(gè)方面:

1)搜索目錄列表

互聯(lián)網(wǎng)中的許多Web服務(wù)器在客戶端請(qǐng)求該站點(diǎn)中某個(gè)沒(méi)有默認(rèn)頁(yè)面的目錄時(shí),會(huì)返回一個(gè)目錄列表。該目錄列表通常包括可供用戶點(diǎn)擊的目錄和文件鏈接,通過(guò)這些鏈接可以訪問(wèn)下一層目錄及當(dāng)前目錄中的文件。因而通過(guò)抓取目錄列表,惡意用戶往往可獲取大量有用的資料,包括站點(diǎn)的目錄結(jié)構(gòu)、敏感文件以及 Web服務(wù)器設(shè)計(jì)架構(gòu)及配置信息等等,比如程序使用的配置文件、日志文件、密碼文件、數(shù)據(jù)庫(kù)文件等,都有可能被網(wǎng)絡(luò)爬蟲(chóng)抓取。這些信息可以作為挑選攻擊目標(biāo)或者直接入侵站點(diǎn)的重要資料。

2)搜索測(cè)試頁(yè)面、手冊(cè)文檔、樣本程序及可能存在的缺陷程序

大多數(shù)Web服務(wù)器軟件附帶了測(cè)試頁(yè)面、幫助文檔、樣本程序及調(diào)試用后門(mén)程序等。這些文件往往會(huì)泄漏大量的系統(tǒng)信息甚至提供繞過(guò)認(rèn)證直接訪問(wèn)Web服務(wù)數(shù)據(jù)的方法,成為惡意用戶分析攻擊Web服務(wù)器的有效情報(bào)來(lái)源。而且這些文件的存在本身也暗示網(wǎng)站中存在潛在的安全漏洞。

3)搜索管理員登錄頁(yè)面

許多網(wǎng)絡(luò)產(chǎn)品提供了基于Web的管理接口,允許管理員在互聯(lián)網(wǎng)中對(duì)其進(jìn)行遠(yuǎn)程管理與控制。如果管理員疏于防范,沒(méi)有修改網(wǎng)絡(luò)產(chǎn)品默認(rèn)的管理員名及密碼,一旦其管理員登錄頁(yè)面被惡意用戶搜索到,網(wǎng)絡(luò)安全將面臨極大的威脅。


本文出自:億恩科技【prubsntakaful.com】

服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經(jīng)營(yíng)性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經(jīng)營(yíng)性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經(jīng)營(yíng)性ICP/ISP證:贛B2-20080012
  • 服務(wù)器/云主機(jī) 24小時(shí)售后服務(wù)電話:0371-60135900
  • 虛擬主機(jī)/智能建站 24小時(shí)售后服務(wù)電話:0371-60135900
  • 專注服務(wù)器托管17年
    掃掃關(guān)注-微信公眾號(hào)
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權(quán)所有  地址:鄭州市高新區(qū)翠竹街1號(hào)總部企業(yè)基地億恩大廈  法律顧問(wèn):河南亞太人律師事務(wù)所郝建鋒、杜慧月律師   京公網(wǎng)安備41019702002023號(hào)
      0
     
     
     
     

    0371-60135900
    7*24小時(shí)客服服務(wù)熱線