數據通道
從Web采集
采集可以將別的網站上面有用的新聞,轉到自己的網站上。我們可以定義設置一個采集的任務,告知系統目標網站的地址等必要的參數,讓系統自動完成采集的工作。
點擊“從Web采集”菜單,打開界面如下所示:
/bcwd/1342494408269.png)
/bcwd/1342494409454.png)
點擊列表區的
按鈕,打開新建web采集任務的對話框,如上圖所示。
在“基礎信息”選項卡中填寫相關信息。起始URL中一般填寫目標網站某個欄目的列表頁地址,點擊
按鈕,出現2級URL, 在這里一般填寫目標欄目的新聞頁面的URL地址,上圖中使用了${A}和${D}來匹配符合某種形式的新聞頁面名稱。
在“高級選項”中,可以設置內容頁/列表頁最大采集數、采集線程數、超時等待時間等參數。
如果您所在的網絡上網需要代理服務器,可以在下邊的“使用代理服務器”中,設置服務器地址、端口、用戶名、密碼等信息。
如果被采集頁面的URL有一定規則,請設置過濾URL的表達式。
在“匹配塊”選項卡中,填寫的是采集頁面的解析規格,如下圖所示:
/bcwd/1342494410430.png)
在目標新聞頁面中,新聞標題和新聞正文通常都被一個HTML標簽,或一段固定的HTML代碼所包圍,按照這個規律填寫匹配塊的內容,系統就能解析出我們想要的新聞標題和新聞正文。
在“過濾塊”選項卡中,填寫的是需要去掉的代碼塊。
/bcwd/1342494410577.png)
類似創建
在任務列表樹中,選擇某個任務記錄,然后點擊
按鈕,打開的對話框與新建對話框相似,內容數據來自所選的任務記錄,根據需要,修改信息后,點擊“確定”按鈕,便創建一條與所選任務相似的任務記錄。
編輯Web采集任務
列表區選擇某個任務記錄,右側顯示區列出的是該任務的基礎信息、匹配塊、過濾塊、采集結果等信息。
在右側區域不同的選項卡頁面修改信息后,點擊“保存”按鈕,修改都被保存。
刪除Web采集任務
列表區選擇某個任務記錄,點擊上方的
按鈕,便可刪除該任務。
清空采集數據
采集數據是指從指定URL下載的文本文件和圖片文件,不包括已經轉入欄目的文章。
如果需要清空某個任務中的采集數據,在列表區選擇該任務記錄,點擊
按鈕,清除該任務所采集的數據。
執行采集任務
建立了web采集任務后,還需要采集任務真正的執行,才能獲得其它網站的新聞數據。在列表區,選擇某個采集任務記錄,在其右側區域點擊
按鈕可以讓采集任務執行。
中止執行采集任務
如果需要中止采集任務,比如采集的時間過長或采集任務占用CPU資源太多,在列表區中選擇該任務記錄,再點擊
按鈕,可終止采集任務的執行。
處理數據
采集完成后系統會自動按匹配塊中定義的規則提取文章內容和標題,并將提取成功的URL自動轉化為指定欄目下的文章(文章狀態為初稿),如果有未能提取成功的URL,修改內容匹配塊,然后點擊
按鈕,再次運行數據提取程序。
注意:此時不需要再次執行任務了,因為網頁已經采集到了服務器。如果再次執行任務,將會嘗試再次下載網頁。
采集結果
選擇某個采集任務,切換到“采集結果”選項卡,可以查看該任務的采集結果,界面如下:
/bcwd/1342494411685.png)
所有評論僅代表網友意見