TOP 投稿 過去ログ 管理用 RSS RDF

HTMLファイルからURLを取り出す方法

正規表現による置換処理で作業します。

@URLの選択
リンクと画像のタグからURLの部分を取り出します。
改行コードに置換することでURLが行の先頭になります。
/(href=")|(src=")/\n/
/(href=)|(src=)/\n/


A相対パス⇒絶対パス
「./」「../」を「http://x68stage.ddo.jp/casper/sunbbs/」に置換します。
|\.\.\/|http://x68stage.ddo.jp/casper/sunbbs/|
|\.\/|http://x68stage.ddo.jp/casper/sunbbs/|


BURL以外の文字、URL以降の文字
簡単に「先頭がhで始まる行以外」を削除しています。
…たまにタイトルや記事がhで始まる場合もあるので、それについては手動で削除します。
また、「"」以降の文字も削除します。
/(^[^h].+)|(".+)/\n/


C改行を詰める
行が空いているので、連続する改行コードを置換します。
/\n+\n/\n/