本工具主要針對(duì)火車頭只能采集到網(wǎng)址,不能采集到數(shù)據(jù)的網(wǎng)站,這類網(wǎng)站通常通過GET方式傳值,然后通過JS跳轉(zhuǎn)。采集器自帶翻譯功能,采集同時(shí)可以將采集的標(biāo)題和內(nèi)容翻譯成另一種語言,翻譯功能暫時(shí)不支持單獨(dú)使用,如有需要聯(lián)系開發(fā)者。
使用方法:
1、首先使用火車頭采集網(wǎng)址。
2、將采集的網(wǎng)址所在數(shù)據(jù)庫復(fù)制到本工具同一文件夾;亦可自建數(shù)據(jù)庫,但是文件名必須為“SpiderResult.mdb”,數(shù)據(jù)表名為“content”,至少包含“標(biāo)題”“內(nèi)容”“pageurl”等字段,且“pageurl”字段已經(jīng)存有代采集網(wǎng)址。
3、打開工具,依次填寫網(wǎng)頁加載完成的標(biāo)識(shí)代碼片段和提取標(biāo)題內(nèi)容的首尾代碼片段,然后點(diǎn)擊開始。
常見問題:
1、采集過程中自動(dòng)中斷,重啟軟件即可。
2、采集中彈出錯(cuò)誤提示,打開數(shù)據(jù)庫,刪除當(dāng)前采集的網(wǎng)址記錄或?qū)⑵錁?biāo)題和內(nèi)容字段置為“F”然后重啟軟件。
3、其他,請(qǐng)聯(lián)系開發(fā)者。