2016-12-13

wgetでサイトをバックアップ

これでいけるかと。

wget -e robots=off\
  --output-file=./wget.log\
  --no-cache\
  --html-extension\
  --convert-links\
  --page-requisites\
  --restrict-file-names=nocontrol,windows\
  --domains=www.example.com\
  --no-parent\
  --mirror\
  --wait=1\
  --waitretry=1\
  --timeout=5\
  http://www.example.com/


WordPressサイトは、feedを取得しないようにするとこうなる。

wget -e robots=off\
  --output-file=./wget.log\
  --no-cache\
  --html-extension\
  --convert-links\
  --page-requisites\
  --restrict-file-names=nocontrol,windows\
  --domains=www.example.com\
  --no-parent\
  --mirror\
  --wait=1\
  --waitretry=1\
  --timeout=5\
  --exclude-directories=/feed\
  http://www.example.com/


あと、コメントのフィードリンクがページ中にあると、せっかくダウンロードしたページがフォルダに変わってしまって

feed

っていうファイルだけになってしまうので、先にこちらを参考にlinkを消してください。

■[WordPress] コメントの RSS フィードリンクを削除する
http://jz5.jp/2013/11/23/remove-wordpress-comment-rss/

remove_action('wp_head', 'feed_links_extra', 3);

だけ追加してもOKだった。


その他、wget のオプションはここがすごくわかりやすかった。

■ダウンロードコマンドwgetのオプション一覧(linux)
http://blog.layer8.sh/ja/2012/03/31/wget_command/

0 件のコメント:

コメントを投稿

.htaccessで403を404で返す

久しぶりにリライトルールを書いたよ。 ドキュメントルートに.htaccessを置く場合の記述↓ # 403.html は実体がなくてよい。この設定をすることで、あっても使われなくなる。 ErrorDocument 403 /403.html # 独自の404ページをドキュメ...