青島網站優化之利用爬蟲技術檢測網頁
在SEO工作過程中,由于項目過多,難免會有些遺漏或錯誤,可能這個頁面忘了填寫標題,那個頁面沒設置關鍵字或描述。但是逐個翻看每個頁面來檢查費工又費時,有什么辦法能夠提高效率和正確率呢?
像愛站、站長工具等都只能針對單個頁面來提取網頁的信息,不能整站進行抓取驗證。
其實我們可以使用非常成熟的爬蟲技術來輔助我們的工作。
下面介紹一款叫做神箭手的網絡爬蟲工具,只需要編寫簡單的腳本就能抓取所需要監控的信息。所使用到的腳本如下所示:
var?configs?=?{
????domains:?["www.abc.com"],
????scanUrls:?["http://www.abc.com/index.html"],
????contentUrlRegexes:?[],
????helperUrlRegexes:?[],?//可留空
????enableProxy:?true,
????interval:?1000,
????fields:?[
????????{
????????????//?其他抽取項
????????????name:?"title",
????????????selector:?"http://head/title/text()"
????????},{
????????????//?其他抽取項
????????????name:?"keywords",
????????????selector:?"http://head/meta[contains(@name,'keywords')]/@content"
????????},{
????????????//?其他抽取項
????????????name:?"description",
????????????selector:?"http://head/meta[contains(@name,'description')]/@content"
????????}
????]
};
var?crawler?=?new?Crawler(configs);
crawler.start();
上述腳本能抓取從"http://www.abc.com/index.html"頁面作為入口能掃描到的所有鏈接頁面的標題、關鍵字和描述信息。
除此之外,您還可以增加更多自動化的檢測。因為神箭手網絡爬蟲支持網頁信息抓取之后的回調處理,所以可以增加數據處理的函數,針對抓取回來的數據做進一步的處理。
- 上一篇:基于大數據的SEO優化策略分析
- 下一篇:青島網站優化之原創文章每天幾篇最合適?
相關內容推薦
最新文章
更多>>0532-88983785 / 0532-68613670
我要優化網站