2013年12月19日 星期四

使用httrack備份無名小站的心得

首先,無名的首頁上會有數個連結
  • 相簿
  • 網誌
  • 留言
  • 名片
  • 好友
  • 影音
這些連結都複製下來,放到web addresses(URL),如:
http://.........
http://.........

然後在下面的set options...按鍵按一下,在scan rules標籤的文字方塊中指定額外的參數,這個地方可以輸入httrack的命令列參數,例如:

+*/*abcde*/*
-%l "zh-tw"

第一個參數可指定只抓路徑名有abcde字串的連結,第二個參數指定抓取繁中網頁,這個用法可參考以下連結的說明:

http://forum.httrack.com/readmsg/1919/1916/index.html

http://www.httrack.com/html/fcguide.html

有位香港的網友有類似的使用心得,參見 http://blog.terewong.com/archives/11773

很殘念的是,相簿的部分,沒有很適當的備分,尤其是照片檔,我想很大的一個原因是動態網址的處理問題。有空的話可能要研究一下 crawler4j 或是 urlgrep 看要怎樣做更適當的處理。

沒有留言:

張貼留言