導航:首頁 > 電影資訊 > 爬蟲爬豆瓣電影短評

爬蟲爬豆瓣電影短評

發布時間：2023-07-24 16:46:05

1. python爬蟲抓取電影top20排名怎麼寫

初步接觸python爬蟲(其實python也是才起步)，發現一段代碼研究了一下，覺得還比較有用處，Mark下。
上代碼：

#!/usr/bin/python#coding=utf-8#Author: Andrew_liu#mender：cy"""
一個簡單的Python爬蟲, 用於抓取豆瓣電影Top前100的電影的名稱
Anthor: Andrew_liu
mender：cy
Version: 0.0.2
Date: 2017-03-02
Language: Python2.7.12
Editor: JetBrains PyCharm 4.5.4
"""import stringimport reimport urllib2import timeclass DouBanSpider(object) :
"""類的簡要說明
主要用於抓取豆瓣Top100的電影名稱

Attributes:
page: 用於表示當前所處的抓取頁面
cur_url: 用於表示當前爭取抓取頁面的url
datas: 存儲處理好的抓取到的電影名稱
_top_num: 用於記錄當前的top號碼
"""

def __init__(self):
self.page = 1
self.cur_url = "h0?start={page}&filter=&type="
self.datas = []
self._top_num = 1
print u"豆瓣電影爬蟲准備就緒, 准備爬取數據..."

def get_page(self, cur_page):
"""
根據當前頁碼爬取網頁HTML
Args:
cur_page: 表示當前所抓取的網站頁碼
Returns:
返回抓取到整個頁面的HTML(unicode編碼)
Raises:
URLError:url引發的異常
"""
url = self.cur_url try:
my_page = urllib2.urlopen(url.format(page=(cur_page - 1) * 25)).read().decode("utf-8") except urllib2.URLError, e: if hasattr(e, "code"): print "The server couldn't fulfill the request."
print "Error code: %s" % e.code elif hasattr(e, "reason"): print "We failed to reach a server. Please check your url and read the Reason"
print "Reason: %s" % e.reason return my_page def find_title(self, my_page):
"""
通過返回的整個網頁HTML, 正則匹配前100的電影名稱

Args:
my_page: 傳入頁面的HTML文本用於正則匹配
"""
temp_data = []
movie_items = re.findall(r'<span.*?class="title">(.*?)</span>', my_page, re.S) for index, item in enumerate(movie_items): if item.find("&nbsp") == -1:
temp_data.append("Top" + str(self._top_num) + " " + item)
self._top_num += 1
self.datas.extend(temp_data) def start_spider(self):
"""
爬蟲入口, 並控制爬蟲抓取頁面的范圍
"""
while self.page <= 4:
my_page = self.get_page(self.page)
self.find_title(my_page)
self.page += 1def main():
print u"""
###############################
一個簡單的豆瓣電影前100爬蟲
Author: Andrew_liu
mender: cy
Version: 0.0.2
Date: 2017-03-02
###############################
"""
my_spider = DouBanSpider()
my_spider.start_spider()
fobj = open('/data/moxiaokai/HelloWorld/cyTest/blogcode/top_move.txt', 'w+') for item in my_spider.datas: print item
fobj.write(item.encode("utf-8")+' ')
time.sleep(0.1) print u"豆瓣爬蟲爬取完成"if __name__ == '__main__':
main()

運行結果：

2. Python爬蟲如何抓取豆瓣影評中的所有數據

你可以用前嗅爬蟲採集豆瓣的影評，我之前用的，還可以過濾只採集評分在6分以上的所有影評，非常強大，而且他們軟體跟資料庫對接，採集完數據後，直接入庫，導出excel表。很省心。

3. Python爬蟲實戰（1）requests爬取豆瓣電影TOP250

爬取時間：2020/11/25
系統環境：Windows 10
所用工具：Jupyter NotebookPython 3.0
涉及的庫：requestslxmlpandasmatplotlib umpy

蛋肥想法： 先將電影名稱、原名、評分、評價人數、分類信息從網站上爬取下來。

蛋肥想法： print數據列表後發現電影原名、分類信息等存在不需要的字元，需預先處理；同時因為後續想做一個豆瓣電影TOP250的維度分布圖，而同一電影存在多個發行國家、類型（如「法國美國 / 劇情動作犯罪」），為了簡（偷）便（懶），這里均取第一個作為記入的數據；最後將數據保存為xlsx。

蛋肥想法： 蛋肥想知道在豆瓣電影TOP250中年份、國家、類型的維度數據，為了練手，使用剛才保存成xlsx的數據，並分別畫成雷達圖、柱形圖、扇形圖。

4. .利用python獲得豆瓣電影前30部電影的中文片名,排名,導演,主演,上映時間

熱門頻道

首頁

博客

研修院

VIP

APP

問答

下載

社區

推薦頻道

活動

招聘

專題

打開CSDN APP
Copyright © 1999-2020, CSDN.NET, All Rights Reserved

打開APP

python 網路爬蟲 1.2 獲取豆瓣TOP250電影的中英文名、港台名、導演、上映年份、電影分類以及評分，將數據存入文檔。原創
2021-07-19 01:03:15
2點贊

zynaln

碼齡8年

關注
題目：
獲取豆瓣TOP250電影的中英文名、港台名、導演、上映年份、電影分類以及評分，將數據存入文檔。
代碼：

輸出結果：

文章知識點與官方知識檔案匹配
Python入門技能樹網路爬蟲urllib
201761 人正在系統學習中
打開CSDN APP，看更多技術內容

最新發布用python爬取豆瓣影評及影片信息(評論時間、用戶ID、評論內容)
用python爬取豆瓣影評及影片信息(評論時間、用戶ID、評論內容)
繼續訪問

python
寫評論

7

14

2

踩

分享

5. python爬蟲小白求幫助：爬取豆瓣網的內容不知道哪裡出問題了只能print一行

只獲取到一個movie_name 和一個movies_score，然後遍歷這兩個值，循環一定是只走兩遍。不知道你這個是不是豆瓣top250 我看頁面元素好像不對了

6. 怎樣避開豆瓣對爬蟲的封鎖，從而抓取豆瓣上電影內容

在互聯網中，有網路爬蟲的地方，絕對少不了反爬蟲的身影。網站反爬蟲的攔截前提是要正確區分人類訪問用戶和網路機器人，當發現可疑目標時，通過限制IP地址等措施阻止你繼續訪問。爬蟲該如何突破反爬蟲限制？

一、構建合理的HTTP請求頭
HTTP的請求頭是在你每次向網路伺服器發送請求時，傳遞的一組屬性和配置信息。由於瀏覽器和Python爬蟲發送的請求頭不同，有可能被反爬蟲檢測出來。

二、設置cookie的學問
Cookie是一把雙刃劍，有它不行，沒它更不行。網站會通過cookie跟蹤你的訪問過程，如果發現你有爬蟲行為會立刻中斷你的訪問，比如你特別快的填寫表單，或者短時間內瀏覽大量頁面。而正確地處理cookie，又可以避免很多採集問題，建議在採集網站過程中，檢查一下這些網站生成的cookie，然後想想哪一個是爬蟲需要處理的。

三、正常的時間訪問路徑
合理控制採集速度，是Python爬蟲不應該破壞的規則，盡量為每個頁面訪問時間增加一點兒間隔，可以有效幫助你避免反爬蟲。

四、使用http
對於分布式爬蟲和已經遭遇反爬蟲的人來說，使用http將成為你的首選。Ipidea分布地區廣，可滿足分布式爬蟲使用需要。支持api提取，對Python爬蟲來說再適合不過。

7. python爬蟲爬取豆瓣影評返回403怎麼辦，代理IP和cookie都設置了

如果只是爬取影評的話，沒必要登錄。
返回的304是你的cookie用的是舊的。
去掉cookie，正常抓取就可以了。

閱讀全文

與爬蟲爬豆瓣電影短評相關的資料

熱點內容

國外有打網球片段的電影發布：2025-10-20 08:58:10 瀏覽：200

韓國r級2018高演電影發布：2025-10-20 08:58:09 瀏覽：420

美國關於狼的電影發布：2025-10-20 08:42:57 瀏覽：579

做影視網站賺錢嗎電影網站怎麼樣盈利發布：2025-10-20 08:37:24 瀏覽：89

抖音請你看電影怎麼弄發布：2025-10-20 08:36:39 瀏覽：177

老伴電影電視劇發布：2025-10-20 08:32:37 瀏覽：498

四川電視電影學院和川傳發布：2025-10-20 08:28:14 瀏覽：767

韓國十二夜電影解讀發布：2025-10-20 08:27:37 瀏覽：37

哪種3d電影效果最好影院發布：2025-10-20 08:26:28 瀏覽：941

美國拍中國農村電影發布：2025-10-20 08:17:32 瀏覽：937

橫店電影城南沙店發布：2025-10-20 08:11:54 瀏覽：911

電影去看電影用英語怎麼說發布：2025-10-20 08:05:50 瀏覽：745

在家裡怎麼看最新院線電影發布：2025-10-20 08:04:23 瀏覽：693

15元電影票發布：2025-10-20 08:01:17 瀏覽：811

很多日本動漫都來自美國電影發布：2025-10-20 07:52:46 瀏覽：533

線上看電影院發布：2025-10-20 07:52:04 瀏覽：418

理倫電影最熱2017 發布：2025-10-20 07:52:01 瀏覽：294

法國經典二戰老電影發布：2025-10-20 07:43:51 瀏覽：38

2015電影沙漠發布：2025-10-20 07:36:03 瀏覽：540

印度女神電影發布：2025-10-20 07:29:54 瀏覽：211