python官方介紹
Python是一款非常熱門的電腦編程軟件,Python規(guī)定了一個Python語法規(guī)則,實現(xiàn)了Python語法的解釋程序就成為了Python的解釋器,用的比較多的是C版本的Python,也就是使用c語言實現(xiàn)的Python解釋器。
二、Python爬蟲架構(gòu)
Python 爬蟲架構(gòu)主要由五個部分組成,分別是調(diào)度器、URL管理器、網(wǎng)頁下載器、網(wǎng)頁解析器、應(yīng)用程序(爬取的有價值數(shù)據(jù))。
調(diào)度器:相當(dāng)于一臺電腦的CPU,主要負(fù)責(zé)調(diào)度URL管理器、下載器、解析器之間的協(xié)調(diào)工作。
URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重復(fù)抓取URL和循環(huán)抓取URL,實現(xiàn)URL管理器主要用三種方式,通過內(nèi)存、數(shù)據(jù)庫、緩存數(shù)據(jù)庫來實現(xiàn)。
網(wǎng)頁下載器:通過傳入一個URL地址來下載網(wǎng)頁,將網(wǎng)頁轉(zhuǎn)換成一個字符串,網(wǎng)頁下載器有urllib2(Python官方基礎(chǔ)模塊)包括需要登錄、代理、和cookie,requests(第三方包)
網(wǎng)頁解析器:將一個網(wǎng)頁字符串進(jìn)行解析,可以按照我們的要求來提取出我們有用的信息,也可以根據(jù)DOM樹的解析方式來解析。網(wǎng)頁解析器有正則表達(dá)式(直觀,將網(wǎng)頁轉(zhuǎn)成字符串通過模糊匹配的方式來提取有價值的信息,當(dāng)文檔比較復(fù)雜的時候,該方法提取數(shù)據(jù)的時候就會非常的困難)、html.parser(Python自帶的)、beautifulsoup(第三方插件,可以使用Python自帶的html.parser進(jìn)行解析,也可以使用lxml進(jìn)行解析,相對于其他幾種來說要強(qiáng)大一些)、lxml(第三方插件,可以解析 xml 和 HTML),html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 樹的方式進(jìn)行解析的。
應(yīng)用程序:就是從網(wǎng)頁中提取的有用數(shù)據(jù)組成的一個應(yīng)用。
對于初學(xué)者而言,入門教程和 Python 語言參考可能是大家最需要的。其中入門教程非正式地介紹了 Python 語言的基本概念和功能。讀者最好在閱讀時準(zhǔn)備一個 Python 解釋器進(jìn)行練習(xí),不過所有的例子都是相互獨(dú)立的,所以這個教程也可以離線閱讀。
功能特點(diǎn)
Python爬蟲技術(shù)是非常強(qiáng)大的,而且速度很快
Python爬蟲技術(shù)是友好的,容易學(xué)習(xí)
Python新聞組被稱為友好的人之一。狂熱的開發(fā)人員和用戶社區(qū)維護(hù)一個 wiki,主辦國際和地方 會議,運(yùn)行開發(fā)沖刺,并對在線代碼存儲庫做出貢獻(xiàn)。
Python還附帶了完整的文檔,它們都集成到語言和單獨(dú)的網(wǎng)頁中。在線教程的目標(biāo)是 經(jīng)驗豐富的程序員和 新手。所有這些都旨在使您快速生產(chǎn)。書籍的可用性完成了學(xué)習(xí)包。
Python核心編程軟件是開放的
Python核心編程軟件實現(xiàn)是一個開源許可證,使其免費(fèi)使用和分發(fā),即使是商業(yè)用途。在Python軟件的許可通過施用的Python軟件基金會。
基本的爬蟲工作原理
基本的http抓取工具,scrapy
Bloom Filter: Bloom Filters by Example
如果需要大規(guī)模網(wǎng)頁抓取,你需要學(xué)習(xí)分布式爬蟲的概念。其實沒那么玄乎,你只要學(xué)會怎樣維護(hù)一個所有集群機(jī)器能夠有效分享的分布式隊列就好。最簡單的實現(xiàn)是python-rq: https://github.com/nvie/rq
rq和Scrapy的結(jié)合:darkrho/scrapy-redis · GitHub
后續(xù)處理,網(wǎng)頁析取(grangier/python-goose · GitHub),存儲(Mongodb)
系統(tǒng)城溫馨提示:
1. Python 3.10版本只允許在windows7以上版本;
2. 本站提供Python 3.10最新版64位下載;如需要32位下載,請關(guān)注本站;
評論就這些咯,讓大家也知道你的獨(dú)特見解
以上留言僅代表用戶個人觀點(diǎn),不代表系統(tǒng)城立場