ページ番号  1 |  2 |  3 |  4 |  5 |  6 |  7 |  8 |  9 |  10

HTMLファイルからURLを取り出す方法

正規表現による置換処理で作業します。

①URLの選択
リンクと画像のタグからURLの部分を取り出します。
改行コードに置換することでURLが行の先頭になります。
/(href=")|(src=")/\n/
/(href=)|(src=)/\n/


②相対パス⇒絶対パス
「./」「../」を「//x68stage.ddo.jp/casper/sunbbs/」に置換します。
|\.\.\/|//x68stage.ddo.jp/casper/sunbbs/|
|\.\/|//x68stage.ddo.jp/casper/sunbbs/|


③URL以外の文字、URL以降の文字
簡単に「先頭がhで始まる行以外」を削除しています。
…たまにタイトルや記事がhで始まる場合もあるので、それについては手動で削除します。
また、「"」以降の文字も削除します。
/(^[^h].+)|(".+)/\n/


④改行を詰める
行が空いているので、連続する改行コードを置換します。
/\n+\n/\n/


SQLServerで外字を含むレコードを抽出する方法

下記の手法で検査対象項目に外字を含むレコードを抽出します。
  • Transact-SQLのLIKEキーワードは条件パターンに正規表現を使用できる

  • データ型がnvarcharの場合はUNICODEの外字コードを、varcharの場合はShift_JISの外字コードをそれぞれ指定する必要がある


■検査対象項目のデータ型が nchar・nvarcharの場合(UNICODEの場合)
where [検査対象項目] like '%[' + nchar(0xE000) + '-' + nchar(0xF8FF) + ']%'

■検査対象項目のデータ型が char・varcharの場合(Shift_JISの場合)
 ⇒ 一旦nvarcharに変換してから比較する
where cast([検査対象項目] as nvarchar) like '%[' + nchar(0xE000) + '-' + nchar(0xF8FF) + ']%'
where convert(nvarchar, [検査対象項目]) like '%[' + nchar(0xE000) + '-' + nchar(0xF8FF) + ']%'


ページ番号  1 |  2 |  3 |  4 |  5 |  6 |  7 |  8 |  9 |  10