全網整合營銷服務商

電腦端+手機端+微信端=數據同步管理

免費咨詢熱線:4009-999-999

使用Python編寫網絡爬蟲抓取視頻下BOB.com.(中國)官方網站載資源

  BOB.comPython因為其強大的字符串處理能力,以及urllib2,cookielib,re,threading這些模塊的存在,用Python來寫爬蟲就簡直易于反掌了。簡單到什么程度呢。我當時跟某同學說,我寫電影來了用到的幾個爬蟲以及數據整理的一堆零零散散的腳本代碼行數總共不超過1000行,寫電影來了這個網站也只有150來行代碼。因為爬蟲的代碼在另外一臺64位的黑蘋果上,所以就不列出來,只列一下VPS上網站的代碼,tornadoweb框架寫的

  對于一個python爬蟲,下載這個頁面的源代碼,一行代碼足以。這里用到urllib2庫。

  當然,也可以用os模塊里的system函數調用wget命令來下載網頁內容,對于掌握了wget或者curl工具的同學是很方便的。

  使用Firebug觀察網頁結構,可以知道正文部分html是一個table。每一個資源就是一個tr標簽。

  下面用正則表達式來提取html代碼中的內容。對正則表達式不了解的同學,可以去 了解一下。

  為何要用正則表達式而不用其他一些解析HTML或者DOM樹的工具是有原因的。我之前試過用BeautifulSoup3來提取內容,后來發覺速度實在是慢死了啊,一秒鐘能夠處理100個內容,已經是我電腦的極限了。。。而換了正則表達式,編譯后處理內容,速度上直接把它秒殺了!

  根據我以往的經驗,“.*?”或者“.+?”這個東西是很好使的。不過也要注意一些小問題,實際用到的時候就會知道

  表示內容的開始,當然也可以是別的,只要不要錯過需要的內容即可。然后我要匹配的內容是下面這個,獲取視頻分類。

  當然,最后的匹配可以不需要在正則表達式里表示出來,只要開始位置定位正確了,后面獲取信息的位置也就正確了。

  對正則表達式比較了解的朋友,可能知道怎么寫了。我Show一下我寫的表達式處理過程,

  當然,這樣設計的爬蟲是有針對性的,定向爬取某一個站點的內容。也沒有任何一個爬蟲不會對收集到的鏈接進行篩選。通??梢允褂肂FS(寬度優先搜索算法)來爬取一個網站的所有頁面鏈接。

  以上代碼僅供思路展示,實際運行使用到mongodb數據庫,同時可能因為無法訪問某灣網站而無法得到正常結果。

  所以說,電影來了網站用到的爬蟲不難寫,難的是獲得數據后如何整理獲取有用信息。例如,如何匹配一個影片信息跟一個資源,如何在影片信息庫和視頻鏈接之間建立關聯,這些都需要不斷嘗試各種方法,最后選出比較靠譜的。

  聲明:本文由入駐搜狐公眾平臺的作者撰寫,除搜狐官方賬號外,觀點僅代表作者本人,不代表搜狐立場。

您的項目需求

*請認真填寫需求信息,我們會在24小時內與您取得聯系。

男女猛烈无遮掩视频免费_欧美成人免费做真爱_gogo高清全球大胆专业摄影网站_日本a级作爱片一_偷窥熟女大屁股对白视频 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>