導航:首頁 > 電影資訊 > 豆瓣電影數據處理過程

豆瓣電影數據處理過程

發布時間：2023-06-28 19:47:34

『壹』 Python爬蟲實戰（1）requests爬取豆瓣電影TOP250

爬取時間：2020/11/25
系統環境：Windows 10
所用工具：Jupyter NotebookPython 3.0
涉及的庫：requestslxmlpandasmatplotlib umpy

蛋肥想法： 先將電影名稱、原名、評分、評價人數、分類信息從網站上爬取下來。

蛋肥想法： print數據列表後發現電影原名、分類信息等存在不需要的字元，需預先處理；同時因為後續想做一個豆瓣電影TOP250的維度分布圖，而同一電影存在多個發行國家、類型（如「法國美國 / 劇情動作犯罪」），為了簡（偷）便（懶），這里均取第一個作為記入的數據；最後將數據保存為xlsx。

蛋肥想法： 蛋肥想知道在豆瓣電影TOP250中年份、國家、類型的維度數據，為了練手，使用剛才保存成xlsx的數據，並分別畫成雷達圖、柱形圖、扇形圖。

『貳』數據挖掘 | 數據理解和預處理

數據挖掘 | 數據理解和預處理
小編遇到過很多人(咳咳，請不要對號入座)，拿到數據後不管三七二十一，先丟到模型中去跑，管它具體什麼樣呢，反正「大數據」嘛，總能整出點東西來。
但就像上次說過的，「大數據」很有可能帶來「大錯誤」!所以在數據挖掘工作開始前，認真的理解數據、檢查數據，對數據進行預處理是至關重要的。
很多人說，數據准備工作真是個「體力活」，耗時耗力不說，還異常的枯燥無味。這點小編承認，建模之前的數據處理確實是平淡的，它往往不需要多高的智商，多牛的編程技巧，多麼高大上的統計模型。
但是，它卻能時時觸發你的興奮點，因為它需要足夠的耐心和細心，稍不留神就前功盡棄。
在這次的內容里，小編首先會從「數據理解」、「變數類型」和「質量檢查」三個方面進行闡述，然後會以一個自己做過的實際數據為例進行展示。
一、數據理解
拿到數據後要做的第一步就是理解數據。
什麼是理解數據呢?不是簡單看下有多少Excel表，有多少行，多少列，而是要結合自己的分析目標，帶著具體的業務需求去看。
首先，我們需要明確數據記錄的詳細程度，比方說某個網站的訪問量數據是以每小時為單位還是每天為單位;一份銷售數據記錄的是每家門店的銷售額還是每個地區的總銷售額。
其次，我們需要確定研究群體。研究群體的確定一定和業務目標是密切相關的。
比方說，如果我們想研究用戶對產品的滿意度與哪些因素有關，就應該把購買該產品的所有客戶作為研究群體;如果我們想研究用戶的購買行為受哪些因素影響，就應該同時考察購買人群和非購買人群，在兩類人群的對比中尋找關鍵因素。
研究群體的確定有時也和數據的詳細程度有關。
比如我們想研究「觀眾影評」對「電影票房」的影響，我們既可以把「每部電影」看成一個個體，研究「影評總數」對「電影總票房」的影響，也可以把「每部電影每天的票房」看成一個個體，研究「每天的影評數」對「每天的電影票房」的影響。
具體選擇哪一種取決於我們手上有什麼樣的數據，如果只有總票房和總影評數的數據，那我們只能選擇第一種;如果有更詳細的數據，那就可以考慮第二種方案。
需要注意的是，這兩種方案還會影響我們對於模型的選擇。
例如，如果研究「每天的影評數」對「每天電影票房」的影響，那每部電影又被細分為很多天，同一部電影不同時間的票房會有較高的相似性，這就形成了一種層次結構，可以考慮使用層次模型(hierarchical model)進行分析。
最後，當我們確定了研究目標和研究群體後，我們需要逐一理解每個變數的含義。有些變數和業務目標明顯無關，可以直接從研究中剔除。
有些變數雖然有意義，但是在全部樣本上取值都一樣，這樣的變數就是冗餘變數，也需要從研究中剔除。
還有一些變數具有重復的含義，如「省份名稱」和「省份簡稱」，這時只需要保留一個就可以了。
二、變數類型
所有變數按其測量尺度可以分成兩大類，一類是「分類變數」，一類是「數值變數」。不同類型的變數在處理方法和後期的模型選擇上會有顯著差別。
【分類變數】
分類變數又稱屬性變數或離散變數，它的取值往往用有限的幾個類別名稱就可以表示了，例如「性別」，「教育程度」，「收入水平」，「星期幾」等。細分的話，分類變數又可分為兩類，一類是「名義變數」，即各個類別間沒有順序和程度的差別，就像「手機系統」中ios和安卓並沒有明顯的好壞差別，「電影類型」中「動作片」和「科幻片」也都是一樣的，說不上哪個更好或更差。
另外一類是定序變數，即不同類別之間存在有意義的排序，如「空氣污染程度」可以用「差、良、優」來表示、「教育程度」可以用「小學、初中、高中、大學」來表示。
當研究的因變數是分類變數時，往往對應特定的分析方法，我們在後面的章節會陸續講到，這里暫且不談。
當研究中的自變數是分類變數時，也會限制模型選擇的范圍。有些數據挖掘模型可以直接處理分類自變數，如決策樹模型;但很多數據挖掘模型不能直接處理分類自變數，如線性回歸、神經網路等，因此需要將分類變數轉換成數值變數。
對於定序自變數，最常用的轉換方法就是按照類別程度將其直接轉換成數值自變數，例如將空氣污染程度「差、良、優」轉換為「1,2,3」。
對於名義自變數，最常用的轉換方法就是構造0-1型啞變數。例如，對於「性別」，可以定義「1=男，0=女」。
當某個名義變數有K個類別取值時，則需要構造K-1個啞變數。例如教育程度「小學，初中，高中，大學及以上」，可以構造三個啞變數分別為：x1：1=小學，0=其它;x2：1=初中，0=其它;x3：1=高中，0=其它。當x1，x2，x3三個啞變數取值都為0時，則對應著「大學及以上」。
需要注意的是，有時候名義變數的取值太多，會生成太多的啞變數，這很容易造成模型的過度擬合。
這時可以考慮只把觀測比較多的幾個類別單獨拿出來，而把剩下所有的類別都歸為「其它」。
例如，中國一共包含56個民族，如果每個民族都生成一個啞變數就會有55個，這時我們可以只考慮設置「是否為漢族」這一個0-1啞變數。
【數值變數】
我們再來看看數值變數。數值變數就是用數值描述，並且可以直接進行代數運算的變數，如「銷售收入」、「固定資本」、「評論總數」、「訪問量」、「學生成績」等等都是數值變數。
需要注意的是，用數值表示的變數不一定就是數值型變數，只有在代數運算下有意義的變數才是數值型變數。
例如財務報表的年份，上市時間等，雖然也是用數值表示的，但我們通常不將它們按照數值型變數來處理。
上面我們講到，分類變數通常要轉換成數值型變數，其實有些時候，數值型變數也需要轉換成分類變數，這就用到了「數據分箱」的方法。
為什麼要進行數據分箱呢?通常有以下幾個原因：
1. 數據的測量可能存在一定誤差，沒有那麼准確，因此按照取值范圍轉換成不同類別是一個有效的平滑方法;
2.有些演算法，如決策樹模型，雖然可以處理數值型變數，但是當該變數有大量不重復的取值時，使用大於、小於、等於這些運算符時會考慮很多的情況，因此效率會很低，數據分箱的方法能很好的提高演算法效率;
3.有些模型演算法只能處理分類型自變數(如關聯規則)，因此也需要將數值變數進行分箱處理。
數據分箱後，可以使用每個分箱內的均值、中位數、臨界值等作為這個類別的代表值，也可以直接將不同取值范圍定義成不同的類別，如：將污染程度劃分後定義為「低、中、高」等。
那如何進行數據分箱呢?常用的數據分箱的方法有：等寬分箱(將變數的取值范圍劃分成等寬的幾個區間)、等頻分箱(按照變數取值的分位數進行劃分)、基於k均值聚類的分箱(將所有數據進行k均值聚類，所得的不同類別即為不同的分箱)，還有一些有監督分箱方法，如：使分箱後的結果達到最小熵或最小描述長度等。這里不詳細介紹了，有興趣的童鞋可以自行網路。
三、質量檢查
對數據中的各個變數有了初步了解後，我們還需要對數據進行嚴格的質量檢查，如果數據質量不過關，還需要進行數據的清洗或修補工作。
一般來說，質量檢查包括檢查每個變數的缺失程度以及取值范圍的合理性。
【缺失檢查】
原始數據中經常會存在各種各樣的缺失現象。
有些指標的缺失是合理的，例如顧客只有使用過某個產品才能對這個產品的滿意度進行評價，一筆貸款的抵押物中只有存在房地產，才會記錄相應的房地產的價值情況等。
像這種允許缺失的變數是最難搞的，因為我們很難判斷它的缺失是合理的，還是由於漏報造成的。
但無論哪種情況，如果變數的缺失率過高，都會影響數據的整體質量，因為數據所反映的信息實在太少，很難從中挖掘到有用的東西。
對於不允許缺失的變數來說，如果存在缺失情況，就必須進行相應的處理。如果一個變數的缺失程度非常大，比方說達到了70%，那就考慮直接踢掉吧，估計沒救了。
如果缺失比例還可以接受的話，可以嘗試用缺失值插補的方法進行補救。
插補的目的是使插補值能最大可能的接近其真實的取值，所以如果可以從其他途徑得到變數的真實值，那一定優先選擇這種方法。
比如某個公司的財務信息中缺失了「最終控制人類型」和「是否國家控股」這兩個取值，這些可以通過網上的公開信息得到真實值;再比如缺失了「凈利潤率」這個指標的取值，但是卻有「凈利潤」和「總收入」的取值，那就可以通過變數間的關系得到相應的缺失值，即凈利潤率=凈利潤/總收入。
當然，更多的時候，我們無法得到缺失值的真實信息，這時就只能借用已有的數據來進行插補了。
對數值變數來說，可以用已觀測值的均值、中位數來插補缺失值;對分類型變數來說，可以用已觀測數據中出現比例最高的類別取值來進行插補。
這些方法操作起來非常簡單，但它們都是對所有缺失值賦予了相同的取值，所以當缺失比例較大時，可能會扭曲被插補變數與其餘變數的關系。
更復雜一點的，我們可以選擇模型插補方法，即針對被插補變數和其它自變數之間的關系建立統計模型(如回歸、決策樹等)，將模型預測值作為插補值。
如何處理缺失值是一個很大的研究課題，我們這里只是介紹了最簡單可行的方法，有興趣的讀者可以參閱Little和Rubin 2002年的專著「Statistical Analysis with Missing Data」。
【變數取值合理性檢查】
除了缺失外，我們還要考察每個變數的取值合理性。每個變數都會有自己的取值范圍，比如「用戶訪問量」、「下載次數」一定是非負的，「投資收益率」一定在0~1之間。通過判斷變數的取值是否超出它應有的取值范圍，可以簡單的對異常值進行甄別。
除了根據變數的取值范圍來檢查變數質量外，還可以根據變數之間的相互關系進行判斷。例如一家公司的「凈利潤率」不應該大於「總利潤率」等。
只有通過了各個方面檢測的數據才是一份高質量的數據，才有可能帶來有價值的模型結果。
四、實例分析——電影票房分析
最後，我們給出一個實例分析。在這個例子中，我們的目標是研究電影哪些方面的特徵對電影票房有影響。
我們有兩方面的數據，一是描述電影特徵的數據，二是描述電影票房的數據。
由於我們關注的是北美的票房市場，所以描述電影特徵的數據可以從IMDB網站得到，它是一個關於演員、電影、電視節目、電視明星和電影製作的在線資料庫，裡面可以找到每部上映電影的眾多信息;電影每天的票房數據可以從美國權威的票房網站Box Office Mojo得到，上面記錄了每部電影上映期間內每天的票房數據。
我們將從IMDB得到的數據放到「movieinfor.csv」文件中，將從Box Office Mojo中得到的數據放到「boxoffice.csv」文件中。
這里，我們以2012年北美票房市場最高的前100部電影為例進行講解。下表給出了這兩個數據集中包含的所有變數以及相應的解釋。
在這兩個數據中，movieinfor.csv數據的記錄是精確到每部電影的，而boxoffice.csv數據精確到了每部電影中每天的票房數據，是精確到天的。上表中給出的變數中，除了電影名稱和ID外，「電影類型」「MPAA評級」(美國電影協會對電影的評級)和「星期幾」是分類型變數;「放映時長」、「製作預算」、「電影每天的票房」和「每天放映的影院數」是數值型變數。兩份數據都不存在缺失值。
我們首先對兩個數據集分別進行變數預處理，然後再根據電影ID將兩個數據整合到一起。下面給出了每個變數的處理方法：
【電影類型】
電影類型是一個分類變數。在這個變數中我們發現每部電影都不止一個類型，例如「The Dark Knight Rises」這部電影就有「Action」、「Crime」和「Thriller」三個類型，並且它們以「|」為分隔符寫在了一起。
同時，不同電影之間可能有相同的類型，也可能有不同的類型，例如票房排名第二的電影「Skyfall」，它的類型是「Action |Adventure |Thriller」。
因此，我們首先需要做的是把每部電影所屬的類型逐一取出來，然後將所有出現過的類型分別形成一個0-1啞變數，如果這部電影在某個類型上出現了，則相應變數的取值就是1，否則是0.
通過上面一步，我們知道這個數據集中出現過的所有電影類型一共有11個。
那是不是按照之前所講的，應該把它轉換為10個啞變數呢?這里需要注意的是，所有的電影類型之間並不是互斥的(即有了action，就不能有其他的類型)，所以我們無需因為共線性的原因去掉其中一個。
也就是說，如果把每一個電影類型單獨作為一個獨立的變數，可以衍生出11個新的0-1變數，這完全沒有問題。但11個變數未免有點過多，所以我們根據不同電影類型的頻數分布情況，只把出現次數明顯較多的類型單獨拿出來，最終生成了6個0-1型變數，分別為Adventure，Fantasy，Comedy，Action，Animation，Others。
【MPAA評級】
對於這個分類型變數，我們首先可以看一下數據中它所包含的全部取值，發現一共有「PG」，「PG-13」和「R」三個。
和上面的電影類型(Genre)不同，對於一部電影而言，它只能有一個MPAA取值。因此，在MPAA變數中，我們需要選擇一個作為基準，將另外兩個構造成啞變數。
例如，我們以「PG」為基準，構造的兩個啞變數分別為PG13和R，如果這兩個啞變數的取值同時為0，那就相當於電影的MPAA評級是PG。
【放映當天是星期幾】
這個變數同MPAA評級一樣，每部電影只能有一個取值。
如果它在星期一到星期日上都有取值的話，我們可以衍生出6個0-1型啞變數。
因為這里我們更關注周末和非周末對電影票房的影響，而並不關注具體是哪一天，所以我們將其進一步概括成一個變數，即「是否是周末」。
【放映時長和製作預算】
放映時長和製作預算這兩個變數都是取值大於0的數值型變數，我們可以分別檢查它們的取值是否在合理的范圍內，然後直接保留它們的數值信息。
同時，對「製作預算」而言，假設我們這里關心的不是製作預算的具體數值，而是「小成本電影」和「大成本電影」的票房差異，那我們就可以將這個數值型變數進行分箱處理，轉換為一個0-1型的分類變數，即「是否為小成本電影」。
在決定按照什麼標准來劃分是否為小成本電影時，我們根據之前文獻里的研究結果，將製作預算在100 million以下的電影看成是小成本電影。
上述所有變數的處理過程都可以使用R中最基本的語句(table，rep，which等)完成，由於篇幅限制，小編這里就不列出詳細的code了，大家感興趣的話，可以閱讀狗熊會的「R語千尋」系列(戳這里)，相信會在R語言的學習上受到更多啟發。
最後，我們將所有新生成的變數按照電影ID整合到一起，就大功告成啦。
五、總結
最後總結一下，小編在這次內容中向大家介紹了拿到數據後的數據理解和預處理工作，內容雖然不難，但同樣需要我們認真對待。就好像生活一樣，只有踏踏實實走好前面的路，才有可能迎接後面的高潮迭起!

『叄』豆瓣電影數據分析

這篇報告是我轉行數據分析後的第一篇報告，當時學完了Python，SQL，BI以為再做幾個項目就能找工作了，事實上……分析思維、業務，這兩者遠比工具重要的多。一個多月後回過頭來看，這篇報告雖然寫得有模有樣，但和數據分析報告還是有挺大差別的，主要原因在於：a.只是針對豆瓣電影數據分析太過寬泛了，具體關鍵指標到底是哪些呢？；b.沒有一個確切有效的分析模型/框架，會有種東一塊西一塊的拼接感。
即便有著這些缺點，我還是想把它掛上來，主要是因為：1.當做Pandas與爬蟲(Selenium+Request)練手，總得留下些證明；2.以豆瓣電影進行分析確實很難找到一條業務邏輯線支撐，總體上還是描述統計為主；3.比起網上能搜到的其他豆瓣電影數據分析，它更為詳細，可視化效果也不錯；

本篇報告旨在針對豆瓣電影1990-2020的電影數據進行分析，首先通過編寫Python網路爬蟲爬取了51375條電影數據，採集對象包括：電影名稱、年份、導演、演員、類型、出品國家、語言、時長、評分、評論數、不同評價佔比、網址。經過去重、清洗，最後得到29033條有效電影數據。根據電影評分、時長、地區、類型進行分析，描述了評分與時長、類型的關系，並統計了各個地區電影數量與評分。之後，針對演員、導演對數據進行聚合，給出產量與評分最高的名單。在分析過程中，還發現電影數量今年逐步增加，但評分下降，主要原因是中國地區今年低質量影視作品的增加。

另外，本篇報告還爬取了電影票房網（ http://58921.com/ ）1995-2020年度國內上映的影片票房，共採集4071條數據，其中3484條有效。進一步，本文分析了國內院線電影票房年度變化趨勢，票房與評分、評價人數、時長、地區的關系，票房與電影類型的關聯，並給出了票房最高的導演、演員與電影排名。

清洗、去重後，可以看到29033條數據長度、評分、評論數具有以下特點：

結合圖1(a)(b)看，可以看到電影數據時長主要集中在90-120分鍾之間，向兩極呈現階梯狀遞減，將數據按照短(60-90分鍾)，中(90-120分鍾)，長(120-150分鍾)，特長(>150分鍾)劃分，各部分佔比為21.06%, 64.15%, 11.95%, 2.85%。

結合圖2(a)看，可以看到我們採集到的電影數據評分主要集中在6.0-8.0之間，向兩極呈現階梯狀遞減，在此按照評分劃分區間：2.0-4.0為口碑極差，4.0-6.0為口碑較差，6.0-7.0為口碑尚可，7.0-8.0為口碑較好，8.0-10.0為口碑極佳。

這5種電影數據的佔比分別為：5.78%, 23.09%, 30.56%, 29.22%, 11.34%

再將評分數據細化到每年進行觀察，可以發現，30年內電影數量與年度電影均分呈反相關，年度均分整體呈現下降趨勢，2016年電影均分最低，電影數量最多。

進一步做出每個年份下不同評級等級的電影數據佔比，可以發現，近年來，評分在[2.0,6.0)的電影數據佔比有著明顯提升，評分在[6.0,7.0)的數據佔比不變，評分在[7.0,10.0)的數據佔比減少，可能原因有：

對照圖5，可以發現，評分與時長、評論人數的分布大致呈現漏斗狀，高分電影位於漏鬥上部，低分電影位於漏斗下部。這意味著，如果一部電影的評論人數很多（特別是超過30w人觀影），時長較長(大於120min)，那麼它大概率是一部好電影。

根據各個國家的電影數量作圖，可以得到圖6，列出電影數量前十的國家可得表格2，發現美國在電影數量上占第一，達到8490部，中國其次，達6222部。此外，法國，英國，日本的電影數量也超過1000，其餘各國電影數量相對較少。這可以說明美國電影有著較大的流量輸入，在中國產生了較大的影響。

進一步分析各國電影的質量，依據評分繪制評分箱線圖可得圖7，在電影數量排名前20的國家中：

接著我們可以探索，哪個國家的電影對豆瓣評分隨年份下降的貢獻最大，考慮到電影數量對應著評分的權重。根據上述各國的電影評分表現，我們可以猜測電影數量較多的國家可能對年度均分的下降有較大影響。於是，我們再計算出這些國家的年度電影均分，並與整體均分進行比較分析。

再作出中國大陸，中國台灣，中國香港的均分箱線圖圖9(a)，可以看到，大陸電影均分低於港台電影，且存在大量低分電影拉低了箱體的位置。

分析相關性可得，大陸、香港、台灣電影年度均分與全部評分關聯度分別為R=0.979,0.919,0.822，說明濾去台灣和香港電影，大陸電影年度均分的變化趨勢與全部評分變化更接近。圖9(b)可以進一步反映這一點。

可以看到，大部分類型集中在X×Y=[10000,30000]×[6.00,7.50]的區間范圍內，劇情、喜劇、愛情、犯罪、動作類電影數量上較多，說明這些題材的電影是近三十年比較熱門的題材，其中劇情類電影佔比最多，音樂、傳記類電影平均得分更高，但在數量上較少，動作、驚悚類電影評論人數雖多，但評價普遍偏低。

除此之外，還有兩塊區域值得關註：

根據類型對電影數據進行聚合，整理得到各類型電影評分的時間序列，計算它們與整體均分時間序列的相關性，可得表格4與圖11，可以看到劇情，喜劇，懸疑這三種類型片與總分趨勢變化相關性最強，同時劇情、喜劇類電影在電影數量上也最多，因此可以認為這兩類電影對於下跌趨勢影響最大，但其餘類別電影的相關性也達到了0.9以上，說明幾種熱門的電影得分的變化趨勢與總體均分趨勢一致。

前面已經得知，中美兩國電影佔比最高，且對於均分時間序列的影響最大。在此，進一步對兩國電影進行類型分析，選取幾種主要的類型（數量上較多，且相關性較高）進行分析，分別是劇情，喜劇，愛情，驚悚，動作，懸疑類電影，繪制近年來幾類電影的數量變化柱狀圖與評分箱線圖可得圖12,13,14,15。

對導演與演員進行聚合，得到數據中共有15011名導演，46223名演員。按照作品數量在(0,2], (2,5], (5,10], (10,20], (20,999]進行分組統計導演數量，可以發現，15009名導演中有79.08%只拍過1-2部作品，46220名演員中有75.93%只主演過1-2部作品。忽略那些客串、跑龍套的演員，數據總體符合二八定律，即20%的人占據了行業內的大量資源。

在此，可以通過電影得分、每部電影評論人數以及電影數目尋找優秀的電影導演與演員。這三項指標分別衡量了導演/演員的創作水平，人氣以及產能。考慮到電影數據集中可能有少量影視劇/劇場版動畫，且影視劇/劇場版動畫受眾少於電影，但得分普遍要高於電影，這里根據先根據每部電影評論數量、作品數量來篩選導演/演員，再根據電影得分進行排名，並取前30名進行作圖，可得圖17,18。

結合電影票房網（ http://58921.com/ ）採集到的3353條票房數據，與豆瓣數據按照電影名稱進行匹配，可以得到1995-2020年在中國大陸上映的電影信息，分別分析中國內地電影的數量、票房變化趨勢，票房與評分、評價人數、時長、地區以及類型的關系，此外還給出了不同導演與演員的票房表現以及影片票房排名。

如圖19所示，國內票房數據與上映的電影數量逐年遞增，2020年記錄的只是上半年的數據，且由於受疫情影響，票房與數量驟減。這說明在不發生重大事件的情況下，國內電影市場規模正在不斷擴大。

對電影數據根據類型進行聚合，繪制散點圖21，可以發現：

提取導演/演員姓名，對導演/演員欄位進行聚合，計算每個導演/演員的票房總和，上映電影均分、以及執導/參與電影數目進行計算，作出票房總和前30名的導演/演員，可得圖22,23，圖中導演/演員標號反映了票房排名，具體每位導演/演員的上映影片數量、均分、每部電影評價人數、平均時長與總票房在表5、表6中給出。

最後根據電影票房進行排名，得到票房排名前20的電影如表格7所示，可以看到絕大部分上榜電影都是中國電影，索引序號為3、10、12、14、18、19為美國電影，這也反映了除國產電影之外，好萊塢大片占據較大的市場。

本篇報告採集了1990-2020年間豆瓣電影29033組有效數據，從豆瓣電影的評分、時長、地區、類型、演員、導演以及票房等信息進行分析評價，主要有以下結論：

『肆』如何抓取豆瓣的影視評論

這個問題其實是比較簡單的，就是用信息採集軟體來做！
信息採集軟體可以實時的採集網路上的信息，無論是動態。還是靜態的，數據全部保存到本地資料庫，進一步的還可以自動發布！整個過程全部可以實現自動化！採集的對象不僅僅是文本，還可以是圖片，MP3、電影、軟體等。這一切都是現在網路技術發展的成果！
國內有家技術不錯的，叫樂思軟體（knowlesys），可以去找著看看資料，下個軟體試試！

閱讀全文

與豆瓣電影數據處理過程相關的資料

熱點內容

國外有打網球片段的電影發布：2025-10-20 08:58:10 瀏覽：200

韓國r級2018高演電影發布：2025-10-20 08:58:09 瀏覽：420

美國關於狼的電影發布：2025-10-20 08:42:57 瀏覽：579

做影視網站賺錢嗎電影網站怎麼樣盈利發布：2025-10-20 08:37:24 瀏覽：89

抖音請你看電影怎麼弄發布：2025-10-20 08:36:39 瀏覽：177

老伴電影電視劇發布：2025-10-20 08:32:37 瀏覽：498

四川電視電影學院和川傳發布：2025-10-20 08:28:14 瀏覽：767

韓國十二夜電影解讀發布：2025-10-20 08:27:37 瀏覽：37

哪種3d電影效果最好影院發布：2025-10-20 08:26:28 瀏覽：941

美國拍中國農村電影發布：2025-10-20 08:17:32 瀏覽：937

橫店電影城南沙店發布：2025-10-20 08:11:54 瀏覽：911

電影去看電影用英語怎麼說發布：2025-10-20 08:05:50 瀏覽：745

在家裡怎麼看最新院線電影發布：2025-10-20 08:04:23 瀏覽：693

15元電影票發布：2025-10-20 08:01:17 瀏覽：811

很多日本動漫都來自美國電影發布：2025-10-20 07:52:46 瀏覽：533

線上看電影院發布：2025-10-20 07:52:04 瀏覽：418

理倫電影最熱2017 發布：2025-10-20 07:52:01 瀏覽：294

法國經典二戰老電影發布：2025-10-20 07:43:51 瀏覽：38

2015電影沙漠發布：2025-10-20 07:36:03 瀏覽：540

印度女神電影發布：2025-10-20 07:29:54 瀏覽：211