HTMLファイルからURLを取り出す方法
正規表現による置換処理で作業します。
①URLの選択
リンクと画像のタグからURLの部分を取り出します。
改行コードに置換することでURLが行の先頭になります。
②相対パス⇒絶対パス
「./」「../」を「//x68stage.ddo.jp/casper/sunbbs/」に置換します。
③URL以外の文字、URL以降の文字
簡単に「先頭がhで始まる行以外」を削除しています。
…たまにタイトルや記事がhで始まる場合もあるので、それについては手動で削除します。
また、「"」以降の文字も削除します。
④改行を詰める
行が空いているので、連続する改行コードを置換します。
①URLの選択
リンクと画像のタグからURLの部分を取り出します。
改行コードに置換することでURLが行の先頭になります。
/(href=")|(src=")/\n/
/(href=)|(src=)/\n/
②相対パス⇒絶対パス
「./」「../」を「//x68stage.ddo.jp/casper/sunbbs/」に置換します。
|\.\.\/|//x68stage.ddo.jp/casper/sunbbs/|
|\.\/|//x68stage.ddo.jp/casper/sunbbs/|
③URL以外の文字、URL以降の文字
簡単に「先頭がhで始まる行以外」を削除しています。
…たまにタイトルや記事がhで始まる場合もあるので、それについては手動で削除します。
また、「"」以降の文字も削除します。
/(^[^h].+)|(".+)/\n/
④改行を詰める
行が空いているので、連続する改行コードを置換します。
/\n+\n/\n/