- 最後登錄
- 2023-3-4
- 在線時間
- 1 小時
- 註冊時間
- 2008-9-27
- 閱讀權限
- 20
- 精華
- 0
- UID
- 5031647
- 帖子
- 575
- 積分
- 196 點
- 潛水值
- 14681 米
| 若新密碼無法使用,可能是數據未更新。請使用舊密碼看看。 本帖最後由 ren1244 於 2017-7-27 02:11 PM 編輯
去看原始網頁內容,可以看到相簿的資訊長這樣- <h3 class="xw0">
- <a href="thread-xxxxxxx-x-x.html" onclick="atarget(this)" title="標題文字">標題文字</a>
- </h3>
複製代碼 所以- soup.find_all('h3',class_='xw0')
複製代碼 是找所有「標籤名稱為 h3 ,且符合 class="xw0"」的標籤
至於為什麼多一個底線,單純是 BeautifulSoup為了避開 python 的關鍵字「class」的緣故
另一段程式碼- soup.find_all('img',attrs={'zoomfile':pat_not_empty})
複製代碼 是指找出「標籤名稱為 img ,且 zoomfile 屬性符合 pat_not_empty」的標籤
其中 pat_not_empty 是 Regular Expression:".+"
表示任意>=1個字元的字串
其實我是因為看到你的程式碼才去看 BeautifulSoup 是什麼東西
它的確在解析網頁挺方便的,我昨天也找了其他網站實驗
只是我發現 BeautifulSoup 對於非 utf-8 編碼的網頁
或是 html 標籤錯誤的網頁會有問題
例如這個網站:
我用 BeautifulSoup 去找該討論區所有文章就會出錯
最後還是回到用 Regular Expression 解析... |
|