精品久久久久久久久久久院品网_男女男精品视频_日韩**一区毛片_在线免费不卡电影_亚洲少妇屁股交4_久久国内精品视频_日韩一区二区三免费高清_亚洲成人手机在线_91看片淫黄大片一级在线观看_中文字幕亚洲在_日本一区二区在线不卡_欧美酷刑日本凌虐凌虐_理论电影国产精品_国产精品视频yy9299一区_99久久精品免费观看_国产精品久久三

您現(xiàn)在所在的位置:首頁 >學(xué)員就業(yè) > 學(xué)生感言 > Python1707A學(xué)員感言:寫爬蟲很簡單又很難

Python1707A學(xué)員感言:寫爬蟲很簡單又很難

來源:奇酷教育 發(fā)表于:

 通過這次做項(xiàng)目,使我對項(xiàng)目開發(fā)有了進(jìn)一步的認(rèn)識。做項(xiàng)目的時候,最重要的不是自己如何快速地將自己分配的任務(wù)做完,而是要注重團(tuán)隊(duì)合作

 通過這次做項(xiàng)目,使我對項(xiàng)目開發(fā)有了進(jìn)一步的認(rèn)識。做項(xiàng)目的時候,最重要的不是自己如何快速地將自己分配的任務(wù)做完,而是要注重團(tuán)隊(duì)合作。一開始組內(nèi)必須對這個項(xiàng)目的數(shù)據(jù)庫的命名進(jìn)行討論,定義表的屬性的數(shù)據(jù)類型,表與表之間會有關(guān)聯(lián),所以有的屬性的類型與長度必須定義一致,這樣訪問數(shù)據(jù)庫時才不會出錯。如果一開始不將這些步驟統(tǒng)一下來的話,就會給后面的編程帶來一系列的問題。
 
    整個一周的項(xiàng)目,第一天我們就對項(xiàng)目的數(shù)據(jù)庫以及數(shù)據(jù)表有了初步的建立,然后后面還有許多模塊需要分工,當(dāng)然,有些具體的模塊需要完成的功能,都還不甚清楚,因此我們第一天就針對這個web項(xiàng)目做了一個簡單的Django框架的搭建,以及前期項(xiàng)目比較依賴的登錄注冊部分給完善了出來。
    整個項(xiàng)目包含了有:購物車,商品列表頁,商品詳情頁,訂單頁面,支付頁面,個人用戶信息完善頁面,首頁的完善展示和一些小功能,然而我們組有5個人呢,我有身為組長,其中最重要的一部分,商品數(shù)據(jù)的獲取部分就是由我來做的。
    從第二天開始,我們就開始按照各自的分工開始寫自己的項(xiàng)目了,但是,一旦開始些項(xiàng)目之后,隨之而來的各種問題就出現(xiàn)了,例如商品列表頁面需要一些基礎(chǔ)的數(shù)據(jù)部分,這些數(shù)據(jù)是需要我來爬取,具體的商品需要分類,這些商品類型也是需要我首先爬取一部分基礎(chǔ)的測試數(shù)據(jù)的,還有一部分商品詳情頁的內(nèi)容也是需要我先爬取一部分基礎(chǔ)測試數(shù)據(jù)的,因此,我就開始了我的基礎(chǔ)測試數(shù)據(jù)的爬取。
    我選擇的是爬蟲,因此為了起初為了效率,我是選擇的比較高效率的scrapy框架來爬取數(shù)據(jù)的,但是,當(dāng)寫了一段時間代碼之后,發(fā)現(xiàn)自己對著一套框架并不熟悉,底層封裝的各種代碼,的用途都不是很熟悉,感覺就是寫代碼根本就是不可控制的,這就很難受,幾經(jīng)猶豫,最終我轉(zhuǎn)回了基本的requests模塊,雖說比較基礎(chǔ),但也還沒到了urllib2的那種程度,因此寫起來也就比較得心應(yīng)手了,同時感覺可控制性也比較強(qiáng),一天下來,商品列表的爬取代碼也寫的差不多了,到了爬取數(shù)據(jù)的時候終于還是出了不少問題。
    比如,再匹配頁面數(shù)據(jù)的時候,我選擇的是使用Xpath來匹配頁面數(shù)據(jù),明明在網(wǎng)頁上使用的xpath查詢工具能夠匹配到數(shù)據(jù),可是寫在代碼里面就是匹配不到數(shù)據(jù),這個問題一直困擾了,我很長時間,直到我上網(wǎng)百度之后,才發(fā)現(xiàn),有些問題還是自己的問題,當(dāng)順利解決之后,最終還是選擇了使用正則與Xpath的混合使用完成了商品類型列表的爬取部分。當(dāng)然,這也是我第二天完成了自己爬取組內(nèi)基礎(chǔ)測試數(shù)據(jù)部分的爬取。
    由于我寫的是爬蟲,當(dāng)項(xiàng)目的數(shù)據(jù)模型類基本定下來之后,就只需要關(guān)心自己的數(shù)據(jù)問題與數(shù)據(jù)庫的數(shù)據(jù)的對應(yīng)問題就可以了,可是,身為項(xiàng)目小組中的組長,我還是要肩負(fù)一部分的責(zé)任的,一天下來,組內(nèi)成員也積累了不少問題,比如,白天在代碼同步的時候,總會有些人因?yàn)樵谔峤恢皼]有更新,其他人再更新的時候,就會莫名的有一部分代碼被刪掉,這些都是更行代碼不同步的問題,當(dāng)然,其他問題也在討論的時候得到了一一的解決。
    到了第三天,真正需要完整的爬取整站的數(shù)據(jù)的時候,終于還是出了不少問題,例如:這次我們的模板是個全英文的電商網(wǎng)站模板,因此,我在爬取國內(nèi)網(wǎng)站的中文數(shù)據(jù),放在一塊就會顯得非常的不倫不類的感覺,在幾經(jīng)權(quán)衡之下,我選擇了爬取國外同樣的一個大型電商網(wǎng)站。
    又經(jīng)過了一天的奮斗之后,寫完了一套代碼,問題總是在不經(jīng)意間到來,由于爬的是國外網(wǎng)站的數(shù)據(jù),因此爬取數(shù)據(jù)的時候,效率就異常的低,幾乎是兩三秒爬取一條的商品數(shù)據(jù),然而整站的數(shù)據(jù)算下來幾乎能達(dá)到40000條數(shù)據(jù),這樣肯定是不行的,何況還要保存,入庫,如果整個爬下來之后再入庫肯定是不行的,首先內(nèi)存就會不支持,因此,不得已我就考慮會不會是我的代碼的性能問題。
    于是乎,又接下來的一天我就對代碼做了大量的修改,完全改成了多進(jìn)程多線程式的操作,可是結(jié)果仍不盡如人意,效率不見提升,反而又降低了不少,經(jīng)過跟組員門的討論之后,考慮應(yīng)該是數(shù)據(jù)量是固定的,多線程爬取的話,就會造成并發(fā)量過大,同時發(fā)送的請求量占用了大量的帶寬,導(dǎo)致了下行數(shù)據(jù)的速度非常緩慢。
    不得已,我又對代碼做了大量的修改,于是乎,第三個版本就是,單純的雙進(jìn)程,一個寫入數(shù)據(jù),一個爬取數(shù)據(jù),這樣下來,效率倒也還好,但是也就跟剛開始差不多,就這樣爬取了一整天,期間跟其他組員共同完成了許多其他難以解決的問題。
    問題的出現(xiàn)總是不可避免的,出現(xiàn)了就要解決,這次的問題就是,爬了整天的數(shù)據(jù),到最后,一直只是寫入,卻并沒有保存,因此到了最后需要加快進(jìn)度,于是就又一次修改代碼,在爬取數(shù)據(jù) 的時候,沒爬取一類自動保存一次,當(dāng)然,為了不重復(fù)爬取,同時增加了指紋集合的功能,這次總算能有一部分?jǐn)?shù)據(jù)了。
    當(dāng)然,最后肯定不能就這樣草草結(jié)束,項(xiàng)目還并不完整,結(jié)束以后,一些細(xì)節(jié)以及數(shù)據(jù),仍然需要完成。總體來說,在此次項(xiàng)目中,我們小組雖說經(jīng)歷了各種困難,但我們都憑借各種途徑解決掉了,增加了項(xiàng)目協(xié)同開發(fā)的經(jīng)驗(yàn)的同時,我也覺得這就是一種自我提升的手段,相信對以后自己的工作中會有很大的用處的。
精品久久久久久久久久久院品网_男女男精品视频_日韩**一区毛片_在线免费不卡电影_亚洲少妇屁股交4_久久国内精品视频_日韩一区二区三免费高清_亚洲成人手机在线_91看片淫黄大片一级在线观看_中文字幕亚洲在_日本一区二区在线不卡_欧美酷刑日本凌虐凌虐_理论电影国产精品_国产精品视频yy9299一区_99久久精品免费观看_国产精品久久三
色综合中文字幕国产| 亚洲欧美福利一区二区| 日韩视频在线播放| 日本一区二区三区四区在线观看 | 亚洲在线色站| 天堂√在线观看一区二区| 欧美日韩一区二区视频在线观看| 欧美日韩电影一区二区| 五月天亚洲综合| 欧美午夜寂寞影院| 日韩欧美卡一卡二| 精品999在线播放| 国产精品乱码久久久久久| 亚洲人成精品久久久久| 五月激情综合色| 国产美女娇喘av呻吟久久| 国产精品亚洲专一区二区三区| 成人黄色av电影| 国产伦理一区二区三区| 日韩免费电影一区二区三区| 中文字幕欧美日韩一区二区三区| 9191精品国产综合久久久久久| 久久天天做天天爱综合色| 亚洲蜜臀av乱码久久精品| 日韩国产欧美三级| 成人精品视频.| 久久99精品久久久水蜜桃| 亚洲视频欧美在线| 日韩视频免费直播| 亚洲日本在线视频观看| 麻豆一区二区三区| 不卡的电影网站| 国产色综合一区二区三区| 色哟哟国产精品免费观看| 欧美mv和日韩mv的网站| 亚洲精品视频一区二区| 韩国女主播一区| 国产精品区一区二区三在线播放 | 免费国产一区二区| 欧美在线不卡一区| 久久久久国产精品免费免费搜索| 亚洲综合激情另类小说区| 韩国一区二区在线观看| 国产一区免费| 欧美日韩精品一区二区| 中文字幕亚洲在| 国产精品一区不卡| 日韩jizzz| 精品久久久久久久久久久久久久久 | 亚洲图片自拍偷拍| 国产成人免费在线视频| 欧美成熟毛茸茸复古| 欧美一区二区免费观在线| 亚洲免费视频成人| 成人午夜精品一区二区三区| 日本一区二区精品视频| 精品国产一区二区三区不卡| 亚洲第一成人在线| 99精彩视频| 69久久夜色精品国产69蝌蚪网| 亚洲视频在线一区| 成人美女视频在线观看18| 亚洲日本理论电影| 国产精品午夜久久| 成人在线综合网| 日本二三区不卡| 一片黄亚洲嫩模| 粉嫩av四季av绯色av第一区| 欧美精品1区2区3区| 亚洲一区av在线| 国产伦精品一区二区三区视频孕妇 | 一区二区三区四区激情| 成人动漫中文字幕| 欧洲中文字幕精品| 一区二区三区不卡在线观看 | 国产调教视频一区| 国产精品夜夜嗨| 色婷婷久久久久swag精品 | 欧美亚洲一区三区| 亚洲国产精品久久不卡毛片| 国产精品区一区二区三含羞草| 日韩一区二区免费在线观看| 美女一区二区久久| 在线一区亚洲| 亚洲福利电影网| 欧美精品一区在线发布| 国产精品久久久久久久浪潮网站| 99久久国产综合精品女不卡| 日韩午夜激情av| 国产黄色精品网站| 欧美日韩国产bt| 精品在线播放免费| 欧美性做爰猛烈叫床潮| 日本怡春院一区二区| 一本一本久久a久久精品综合妖精| 亚洲黄色小视频| 日产国产精品精品a∨| 一二三四社区欧美黄| 欧美在线3区| 亚洲第一av色| 色婷婷av一区二区三区大白胸| 日产国产高清一区二区三区| 色94色欧美sute亚洲13| 蜜桃视频在线观看一区二区| 欧美性生活影院| 久久99久久久久久久久久久| 欧美日韩精品一二三区| 国产一区二区三区四区五区入口| 欧美精品欧美精品系列| 国产成人综合自拍| 精品国产露脸精彩对白| 91在线精品观看| 综合电影一区二区三区 | 国产一区二区久久久| 国产精品你懂的在线| 久久久久久久久久久一区| 伊人夜夜躁av伊人久久| 亚欧洲精品在线视频免费观看| 亚洲777理论| 欧美午夜精品久久久久久超碰 | 精品视频1区2区3区| 国产乱人伦精品一区二区在线观看| 欧美视频在线观看一区二区| 国产成人av资源| 国产亚洲综合av| 久久伊人一区二区| 日韩av在线播放中文字幕| 欧美丰满一区二区免费视频| 成人丝袜视频网| 国产精品人成在线观看免费| 欧美成人综合一区| 免费高清成人在线| 欧美一级欧美一级在线播放| 97超碰欧美中文字幕| 亚洲免费在线电影| 精品视频全国免费看| 99视频精品在线| 亚洲免费观看高清完整版在线观看 | 一区二区三区.www| 欧洲亚洲精品在线| aaa欧美大片| 亚洲制服欧美中文字幕中文字幕| 在线观看亚洲一区| 99久久国产综合精品女不卡| 亚洲欧洲无码一区二区三区| 亚洲午夜激情| 99在线视频精品| 亚洲综合在线视频| 91精品国产日韩91久久久久久| 国产精品免费一区二区| 日韩高清在线不卡| 久久―日本道色综合久久| 日韩免费中文专区| 国产成人精品亚洲午夜麻豆| 亚洲女人****多毛耸耸8| 欧美日韩黄视频| 激情五月综合色婷婷一区二区| 日韩二区三区在线观看| 国产三级一区二区三区| 在线免费观看成人短视频| 97超级碰碰| 久久国产精品无码网站| 一区在线观看视频| 欧美一级视频精品观看| 日韩亚洲视频在线| 99精品视频在线观看免费| 丝袜a∨在线一区二区三区不卡| 26uuu国产在线精品一区二区| 水蜜桃一区二区| 97久草视频| 国产精品自拍一区| 性做久久久久久免费观看| 国产偷国产偷亚洲高清人白洁| 色诱视频网站一区| 精品免费国产| 成人国产免费视频| 久久er99热精品一区二区| 亚洲精品第1页| 久久先锋影音av鲁色资源| 欧美专区日韩专区| 欧美激情导航| 国产精品免费一区二区三区在线观看| 国产专区综合网| 亚洲成年人影院| 自拍偷自拍亚洲精品播放| 精品久久一区二区| 欧美高清你懂得| 色综合天天综合网国产成人综合天| 国产一区二区精品在线| 99热这里都是精品| 国产中文字幕一区| 天天色天天操综合| 一区二区三区在线视频免费| 国产亚洲一区字幕| 日韩免费视频线观看| 欧美日韩精品是欧美日韩精品| 亚洲一区三区电影在线观看| 久久久影院一区二区三区| 成人情视频高清免费观看电影| 99久久精品久久久久久清纯|