[繁]怪物轉生 Re:Mons	(4月新番)[繁]魔王學	河南商丘男子不滿店
[繁]迷宮飯 - 15	(4月新番)[繁]Re：Mon	[繁]月光下的異世界之

電腦新資訊	電腦軟體討論	電腦軟體資訊分享	電腦硬體討論	電腦硬體資訊分享	電腦萌化版	電腦系統 OS 討論	電腦程式設計
電腦設計技術交流	圖像設計及交流	各類下載工具教學	寬頻上網討論

返回列表

查看: 7763|回復: 12

[原創]爬圖程式碼免費教學和分享(可直接使用)[複製鏈接]

eyny0426

小學生(200/1000)

《我的空間，進來就出不去，歡迎挑戰^^》

Rank: 2 Rank: 2

帖子: 452
積分: 201 點
潛水值: 9564 米

電梯直達

樓主

發表於 2017-2-6 01:24 AM|只看該作者|倒序瀏覽

如果你覺得伊莉做得不錯，那就不要再猶疑了。今天就贊助和支持我們，立即行動！我們需要你的一點力量喔。

本帖最後由 eyny0426 於 2017-2-12 10:38 PM 編輯

各位看官，新年快樂~

基於過年和朋友聚一聚、嘴砲來嘴砲去的緣由...就莫名其妙寫出了這隻小程式

事不宜遲，趕緊放上爬某『單一』個相簿...

瀏覽完整內容，請先註冊或登入會員

附件: 你需要登錄才可以下載或查看附件。沒有帳號？註冊

Python, 正妹, 圖, BeautifulSoup

分享0收藏1支持1

如果你覺得伊莉做得不錯，那就不要再猶疑了。今天就贊助和支持我們，立即行動！我們需要你的一點力量喔。

使用道具檢舉

sc79891am

小學生(200/1000)

Rank: 2 Rank: 2

帖子: 585
積分: 999 點
潛水值: 30783 米

頭香

發表於 2017-2-11 12:22 AM|只看該作者

升級為尊貴會員或贊助會員，讓你擁有自由、暢通無阻、應有盡有及所有資源任你使用的無窮快感。

可以做看看dcard的爬圖程式嗎

回覆中加入附件並不會使你增加積分，請使用主題方式發佈附件。

使用道具檢舉

eyny0426

小學生(200/1000)

《我的空間，進來就出不去，歡迎挑戰^^》

Rank: 2 Rank: 2

帖子: 452
積分: 201 點
潛水值: 9564 米

3樓

發表於 2017-2-11 06:46 PM|只看該作者

分享使你變得更實在，可以使其他人感到快樂，分享是我們的動力。今天就來分享你的資訊、圖片或檔案吧。

sc79891am 發表於 2017-2-11 12:22 AM
下載: 訪客無法瀏覽下載點，請先註冊或登入會員

可以做看看dcard的爬圖程式嗎

網路上有很多爬dcard的教學文...
所以我不太懂您是要爬dcard的文章還是圖片還是什麼呢

...

瀏覽完整內容，請先註冊或登入會員

如果重複性登入後自動登出，請先刪除所有Cookie和舊網頁再登入。

使用道具檢舉

sc79891am

小學生(200/1000)

Rank: 2 Rank: 2

帖子: 585
積分: 999 點
潛水值: 30783 米

4樓

發表於 2017-2-19 07:17 PM|只看該作者

若新密碼無法使用，可能是數據未更新。請使用舊密碼看看。

eyny0426 發表於 2017-2-11 06:46 PM
下載: 訪客無法瀏覽下載點，請先註冊或登入會員

網路上有很多爬dcard的教學文...
所以我不太懂您是要爬dcard的文章還是圖片還是什麼呢 ...

有辦法爬每天抽到的卡片彙整到一個資料夾嗎...

瀏覽完整內容，請先註冊或登入會員

若有安裝色情守門員，可用無界、自由門等軟件瀏覽伊莉。或使用以下網址瀏覽伊莉: http://www.eyny.com:81/index.php

使用道具檢舉

msi845x

初級幼兒生(0/30)

帖子: 14
積分: 6 點
潛水值: 710 米

5樓

發表於 2017-4-2 08:25 PM|只看該作者

如果瀏覽伊莉時速度太慢或無法連接，可以使用其他分流瀏覽伊莉，www01.eyny.com(02,03)。

小弟是Python新手，最近在研究dcard跟爬蟲
感謝分享~

點評

eyny0426 不客氣~ 我也是新手哈哈發表於 2017-4-3 11:54 AM

成為伊莉的版主，你將獲得更高級和無限的權限。把你感興趣的版面一步步地發展和豐盛，那種滿足感等著你來嚐嚐喔。

使用道具檢舉

q816697q

初級幼兒生(0/30)

帖子: 418
積分: 187 點
潛水值: 11333 米

6樓

發表於 2017-7-10 12:00 PM|只看該作者

如果瀏覽伊莉時速度太慢或無法連接，可以使用其他分流瀏覽伊莉，www01.eyny.com(02,03)。

我套件都裝好了
用你給的程式都抓不套圖
這是什麼問題??

下載: 訪客無法瀏覽下載點，請先註冊或登入會員

會顯示ERROR

系統已重置禁訪用戶到普通用戶和密碼一次

若有安裝色情守門員，可用無界、自由門等軟件瀏覽伊莉。或使用以下網址瀏覽伊莉: http://www.eyny.com:81/index.php

使用道具檢舉

eyny0426

小學生(200/1000)

《我的空間，進來就出不去，歡迎挑戰^^》

Rank: 2 Rank: 2

帖子: 452
積分: 201 點
潛水值: 9564 米

7樓

發表於 2017-7-11 04:14 PM|只看該作者

若對尊貴或贊助會員有任何疑問，歡迎向我們查詢。我們的即時通或MSN: admin@eyny.com

q816697q 發表於 2017-7-10 12:00 PM
下載: 訪客無法瀏覽下載點，請先註冊或登入會員

我套件都裝好了
用你給的程式都抓不套圖
這是什麼問題??

那是正常
因為我使用try...catch
try...catch會抓出Beautifulsoup沒處理乾淨東西用[!]Error吐出來
...

瀏覽完整內容，請先註冊或登入會員

若新密碼無法使用，可能是數據未更新。請使用舊密碼看看。

使用道具檢舉

q816697q

初級幼兒生(0/30)

帖子: 418
積分: 187 點
潛水值: 11333 米

8樓

發表於 2017-7-17 01:43 PM|只看該作者

成為伊莉的版主，你將獲得更高級和無限的權限。把你感興趣的版面一步步地發展和豐盛，那種滿足感等著你來嚐嚐喔。

那要怎麼改才能成功抓下來??
還不太會用

若對尊貴或贊助會員有任何疑問，歡迎向我們查詢。我們的即時通或MSN: admin@eyny.com

使用道具檢舉

eyny0426

小學生(200/1000)

《我的空間，進來就出不去，歡迎挑戰^^》

Rank: 2 Rank: 2

帖子: 452
積分: 201 點
潛水值: 9564 米

9樓

發表於 2017-7-24 11:57 PM|只看該作者

升級為尊貴會員或贊助會員，讓你擁有自由、暢通無阻、應有盡有及所有資源任你使用的無窮快感。

q816697q 發表於 2017-7-17 01:43 PM
下載: 訪客無法瀏覽下載點，請先註冊或登入會員

那要怎麼改才能成功抓下來??
還不太會用

不是那些是本來就不是可以抓的東西
因為我只把所有圖片網址抓出來
...

瀏覽完整內容，請先註冊或登入會員

若登入不正常或變回訪客狀態，請先刪除COOKIE再登入。

使用道具檢舉

ren1244

高級幼兒生(30/200)

Rank: 1

帖子: 575
積分: 196 點
潛水值: 14681 米

10樓

發表於 2017-7-26 01:06 AM|只看該作者

如果你覺得伊莉做得不錯，那就不要再猶疑了。今天就贊助和支持我們，立即行動！我們需要你的一點力量喔。

本帖最後由 ren1244 於 2017-7-26 03:40 PM 編輯

其實是 urllib.urlretrieve 函式的問題
只要刪掉那行，就不會跑出error了
不過原程式是利用 urllib.urlretrieve 抓圖
既然這函式有問題(舊版本)就必須找其他函式來替代了

另外圖片的網址有些不是http或https開頭的也會出錯
遇到這種的，代表它前面跟原本的網站是同一網址
所以要再加上原網址
...

瀏覽完整內容，請先註冊或登入會員

若新密碼無法使用，可能是數據未更新。請使用舊密碼看看。

使用道具檢舉

eyny0426

小學生(200/1000)

《我的空間，進來就出不去，歡迎挑戰^^》

Rank: 2 Rank: 2

帖子: 452
積分: 201 點
潛水值: 9564 米

11樓

發表於 2017-7-27 12:40 PM|只看該作者

分享使你變得更實在，可以使其他人感到快樂，分享是我們的動力。今天就來分享你的資訊、圖片或檔案吧。

ren1244 發表於 2017-7-26 01:06 AM
下載: 訪客無法瀏覽下載點，請先註冊或登入會員

其實是 urllib.urlretrieve 函式的問題
只要刪掉那行，就不會跑出error了
不過原程式是利用 urllib.urlretr ...

感謝大大的指點!!
...

瀏覽完整內容，請先註冊或登入會員

成為伊莉的版主，你將獲得更高級和無限的權限。把你感興趣的版面一步步地發展和豐盛，那種滿足感等著你來嚐嚐喔。

使用道具檢舉

ren1244

高級幼兒生(30/200)

Rank: 1

帖子: 575
積分: 196 點
潛水值: 14681 米

12樓

發表於 2017-7-27 02:05 PM|只看該作者

若新密碼無法使用，可能是數據未更新。請使用舊密碼看看。

本帖最後由 ren1244 於 2017-7-27 02:11 PM 編輯

去看原始網頁內容，可以看到相簿的資訊長這樣

<h3 class="xw0">
<a href="thread-xxxxxxx-x-x.html" onclick="atarget(this)" title="標題文字">標題文字</a>
</h3>

複製代碼

所以

soup.find_all('h3',class_='xw0')

複製代碼

是找所有「標籤名稱為 h3 ，且符合 class="xw0"」的標籤
至於為什麼多一個底線，單純是 BeautifulSoup為了避開 python 的關鍵字「class」的緣故

另一段程式碼

soup.find_all('img',attrs={'zoomfile':pat_not_empty})

複製代碼

是指找出「標籤名稱為 img ，且 zoomfile 屬性符合 pat_not_empty」的標籤
其中 pat_not_empty 是 Regular Expression：".+"
表示任意>=1個字元的字串

其實我是因為看到你的程式碼才去看 BeautifulSoup 是什麼東西
它的確在解析網頁挺方便的，我昨天也找了其他網站實驗

只是我發現 BeautifulSoup 對於非 utf-8 編碼的網頁
或是 html 標籤錯誤的網頁會有問題
例如這個網站：

下載: 訪客無法瀏覽下載點，請先註冊或登入會員

我用 BeautifulSoup 去找該討論區所有文章就會出錯
最後還是回到用 Regular Expression 解析...

瀏覽完整內容，請先註冊或登入會員

如果你覺得伊莉做得不錯，那就不要再猶疑了。今天就贊助和支持我們，立即行動！我們需要你的一點力量喔。

使用道具檢舉

hgc31225

初級幼兒生(0/30)

帖子: 9
積分: 2 點
潛水值: 2470 米

13樓

發表於 2017-8-30 09:12 PM|只看該作者

如果你忘記伊莉的密碼，請在登入時按右邊出現的 '找回密碼'。輸入相關資料後送出，系統就會把密碼寄到你的E-Mail。

我自己用的是python3.5，對於python2.7有點差
但對於抓網頁有編碼的問題，我一般是用urllib2這個模組的

response = urllib2.urlopen(web_site_url)
html = response.read().decode("utf-8", "ignore")

複製代碼

html就是用UTF8編碼導出的源始碼，再放入

BeautifulSoup(html, "html.parser")

複製代碼

這只是我自己的習慣，還請各位大大指教
...

瀏覽完整內容，請先註冊或登入會員

點評

eyny0426 謝謝您的建議喔 ^^ 發表於 2017-8-31 03:03 PM

若登入不正常或變回訪客狀態，請先刪除COOKIE再登入。

使用道具檢舉

返回列表

Archiver|手機版|廣告|聯絡我們|廣告查詢|廠商合作|伊莉

GMT+8, 2024-4-20 06:48 AM

重要聲明：本討論區是以即時上載留言的方式運作，對所有留言的真實性、完整性及立場等，不負任何法律責任。而一切留言之言論只代表留言者個人意見，並非本網站之立場，用戶不應信賴內容，並應自行判斷內容之真實性。於有關情形下，用戶應尋求專業意見(如涉及醫療、法律或投資等問題)。由於本討論區受到「即時上載留言」運作方式所規限，故不能完全監察所有留言，若讀者發現有留言出現問題，請聯絡我們。有權刪除任何留言及拒絕任何人士上載留言，同時亦有不刪除留言的權利。切勿上傳和撰寫侵犯版權(未經授權)、粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論，敬請自律。本網站保留一切法律權利。