經常遇到站長抱怨蜘蛛爬行返回碼一直是304,爬行次數越來越少。 為了自身的用戶體驗,搜索引擎會盡力提高檢索調用率、準確率和新鮮度,這將導致搜索引擎不得不將精力集中在具有高質量內容來源的網站上。 只有這樣,搜索結果的質量才能更符合搜索者的體驗。由此我們認為:搜索引擎爬蟲會偏愛內容來源頻繁的網站。 通過一定時間內爬取網站返回的狀態碼來調整爬取網站的頻率。 如果網站在一段時間內一直處于【304:無變化】狀態,引擎爬蟲可能會減少對網站的爬取次數。 相反,如果網站變化的頻率非???,每次爬取都能得到一個新的版本,那么隨著時間的推移,爬蟲的回訪率也會增加。
不管是少爬取還是304,這都是現象,不是問題的原因。 假設網站全部返回200,能否達到提升排名和帶來流量的目的? 相比之下,我們應該想想304的原因是什么? 更改 304 對網站目標有什么影響? 你不能忽視總體目標,強調過程細節,為了200而解決304。
304狀態是怎么產生的?
為了提高網站訪問速度,服務器對之前訪問過的一些頁面開發了緩存機制。 當客戶端在這里請求這些頁面時,服務器會根據緩存的內容判斷頁面是否和之前一樣。 如果相同,則直接返回304。此時,客戶端緩存的內容在客戶端調用,無需二次下載。 可以說304在一定程度上起到了降低服務器帶寬、提高蜘蛛爬蟲效率的作用。
304狀態的原因是什么?
頁面更新周期長或不更新
純靜態頁面或強制生成靜態html
304狀態處理思路?
首先細分304頁。 哪種類型的頁面返回 304? 這些頁面應該返回 304 嗎?
這些頁面是如何生成的? 有更新機制嗎? 更新機制是否符合蜘蛛對網站的抓取頻率?
頁面更新區的位置是否合理? 是否位于頁面主要內容的宿主區域?
過多的304狀態碼會導致以下問題:
網站快照停止
減少收錄
權重下降
那么如何減少304返回碼呢?
據我所知,內容更新首先要迎合百度蜘蛛。 分析日志,記錄蜘蛛訪問時間。 可以大致得到蜘蛛訪問的頻率。 然后在此基礎上更新文章:一定是原創轉載。 不能純粹收集。 轉載也需要最新最優質的資源。 讓蜘蛛來這里吃飯。 因此,返回了更多 200 個正常代碼。
其次,最好增加一個互動部分。 現在大網站基本都做到了,比如評論、留言等。大網站更新的時候可能變化很小,但是通過這些交互,用戶會在上面發布一些內容。,網站會有很多新的東西。 如seowhy,會將最新的回復和問題放在重要位置。
本期我們重點解決了頻繁返回304狀態和抓取次數少的問題,目的讓網站被完全抓取。 除了以上專家分析的原因,小編覺得引擎蜘蛛也會參考網站的綜合權重,權重高的網站的爬取頻率會非常頻繁。 例如,Google 可能會參考 PR 值來確定網站的抓取頻率。推薦閱讀文章>>>網站日志分析工具-簡單易操作