ページ番号  1 |  2 |  3 |  4 |  5 |  6 |  7 |  8 |  9 |  10

HTMLファイルからURLを取り出す方法

正規表現による置換処理で作業します。

①URLの選択
リンクと画像のタグからURLの部分を取り出します。
改行コードに置換することでURLが行の先頭になります。
/(href=")|(src=")/\n/
/(href=)|(src=)/\n/


②相対パス⇒絶対パス
「./」「../」を「//x68stage.ddo.jp/casper/sunbbs/」に置換します。
|\.\.\/|//x68stage.ddo.jp/casper/sunbbs/|
|\.\/|//x68stage.ddo.jp/casper/sunbbs/|


③URL以外の文字、URL以降の文字
簡単に「先頭がhで始まる行以外」を削除しています。
…たまにタイトルや記事がhで始まる場合もあるので、それについては手動で削除します。
また、「"」以降の文字も削除します。
/(^[^h].+)|(".+)/\n/


④改行を詰める
行が空いているので、連続する改行コードを置換します。
/\n+\n/\n/


ページ番号  1 |  2 |  3 |  4 |  5 |  6 |  7 |  8 |  9 |  10