行有餘力則以學文: 12月 2013

2013年12月19日星期四

使用httrack備份無名小站的心得

首先，無名的首頁上會有數個連結

相簿
網誌
留言
名片
好友
影音

這些連結都複製下來，放到web addresses(URL)，如：
http://.........
http://.........

然後在下面的set options...按鍵按一下，在scan rules標籤的文字方塊中指定額外的參數，這個地方可以輸入httrack的命令列參數，例如：

+*/*abcde*/*
-%l "zh-tw"

第一個參數可指定只抓路徑名有abcde字串的連結，第二個參數指定抓取繁中網頁，這個用法可參考以下連結的說明：

http://forum.httrack.com/readmsg/1919/1916/index.html

http://www.httrack.com/html/fcguide.html

有位香港的網友有類似的使用心得，參見 http://blog.terewong.com/archives/11773

很殘念的是，相簿的部分，沒有很適當的備分，尤其是照片檔，我想很大的一個原因是動態網址的處理問題。有空的話可能要研究一下 crawler4j 或是 urlgrep 看要怎樣做更適當的處理。