wget -e robots=off\ --output-file=./wget.log\ --no-cache\ --html-extension\ --convert-links\ --page-requisites\ --restrict-file-names=nocontrol,windows\ --domains=www.example.com\ --no-parent\ --mirror\ --wait=1\ --waitretry=1\ --timeout=5\ http://www.example.com/
WordPressサイトは、feedを取得しないようにするとこうなる。
wget -e robots=off\ --output-file=./wget.log\ --no-cache\ --html-extension\ --convert-links\ --page-requisites\ --restrict-file-names=nocontrol,windows\ --domains=www.example.com\ --no-parent\ --mirror\ --wait=1\ --waitretry=1\ --timeout=5\ --exclude-directories=/feed\ http://www.example.com/
あと、コメントのフィードリンクがページ中にあると、せっかくダウンロードしたページがフォルダに変わってしまって
feed
っていうファイルだけになってしまうので、先にこちらを参考にlinkを消してください。
■[WordPress] コメントの RSS フィードリンクを削除する
http://jz5.jp/2013/11/23/remove-wordpress-comment-rss/
remove_action('wp_head', 'feed_links_extra', 3);
だけ追加してもOKだった。
その他、wget のオプションはここがすごくわかりやすかった。
■ダウンロードコマンドwgetのオプション一覧(linux)
http://blog.layer8.sh/ja/2012/03/31/wget_command/
0 件のコメント:
コメントを投稿