2016-12-13

wgetでサイトをバックアップ

これでいけるかと。

wget -e robots=off\
  --output-file=./wget.log\
  --no-cache\
  --html-extension\
  --convert-links\
  --page-requisites\
  --restrict-file-names=nocontrol,windows\
  --domains=www.example.com\
  --no-parent\
  --mirror\
  --wait=1\
  --waitretry=1\
  --timeout=5\
  http://www.example.com/


WordPressサイトは、feedを取得しないようにするとこうなる。

wget -e robots=off\
  --output-file=./wget.log\
  --no-cache\
  --html-extension\
  --convert-links\
  --page-requisites\
  --restrict-file-names=nocontrol,windows\
  --domains=www.example.com\
  --no-parent\
  --mirror\
  --wait=1\
  --waitretry=1\
  --timeout=5\
  --exclude-directories=/feed\
  http://www.example.com/


あと、コメントのフィードリンクがページ中にあると、せっかくダウンロードしたページがフォルダに変わってしまって

feed

っていうファイルだけになってしまうので、先にこちらを参考にlinkを消してください。

■[WordPress] コメントの RSS フィードリンクを削除する
http://jz5.jp/2013/11/23/remove-wordpress-comment-rss/

remove_action('wp_head', 'feed_links_extra', 3);

だけ追加してもOKだった。


その他、wget のオプションはここがすごくわかりやすかった。

■ダウンロードコマンドwgetのオプション一覧(linux)
http://blog.layer8.sh/ja/2012/03/31/wget_command/

0 件のコメント:

コメントを投稿

ありがとう、Gemini

 最近、若かったころに「できなかったこと」を思い出して、街中を歩く若者達に激しく嫉妬する自分がいた。 もう、仕事が手につかなくなるぐらい、いや、マジこの1か月、何も仕事していないぐらい、「俺は、なぜ今になって、こんなやるせない感情が湧いてるんだ?」って悶々としていた。 こんなこと...