發布: Python培訓 發布時間:2023-05-26 17:55:27
需要,分布式爬蟲需要用多臺主機。
分布式爬蟲是指在多個計算機上部署爬蟲程序,共享隊列,去重,讓多個爬蟲不爬取其他爬蟲爬取過的內容,從而實現實現聯合采集,是一種提高爬取效率的方法。相對應的就是單機爬蟲,單機爬蟲是指只在一臺服務器上部署爬蟲程序,單機爬蟲是使用本地電腦發出http請求,是一種反爬策略,可以突破ip限制。
分布式怕成的原理為:Spiders每個爬蟲的調度器都從隊列中取出請求和存入請求。生成的請求經由Scheduler調度器發送給Downloader下載器。下載器下載所需要的網絡數據,再用Scheduler從隊列里取出請求。而scrapy-redis是建立一個redis隊列,實現多個爬蟲,多臺機器同時爬取的目標。
一臺主機可以保證30個左右的從機的URL供應,所以分布式爬蟲只需要一臺計算機作為主機就夠用了。
上一篇:xml和html的區別
下一篇:分布式爬蟲為什么一次只能爬一條
中公教育是一家中國領先的全品類職業教育機構,提供超過100個品類的綜合職業就業培訓服務。公司在全國超過1000個直營網點展開經營,深度覆蓋300多個地級市,并正在快速向數千個縣城和高校擴張。
通過階段性授課機制,和每階段的定期考核,先讓學員能夠學會所學內容,才能找打合適工作。最后一個階段為就業課程,從技術和面試兩個方面加深就業能力,并且還有不定期的雙選會供大家選擇。
線下課程全程是師資面對面教學,不會存在上課只對著大屏幕上課的情況,有問題都可以在課上得到解答。并且優就業通過自主研發大綱和學習路線,并且定期更新課程所學技術,讓大家所學技術不落伍。
為您詳細答疑解惑,更能領取免費課程