タグ検索：抽出 |Project Note

▲ページ番号 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10

正規表現による置換処理で作業します。

①URLの選択
リンクと画像のタグからURLの部分を取り出します。
改行コードに置換することでURLが行の先頭になります。

/(href=")|(src=")/\n/
/(href=)|(src=)/\n/

②相対パス⇒絶対パス
「./」「../」を「//x68stage.ddo.jp/casper/sunbbs/」に置換します。

|\.\.\/|//x68stage.ddo.jp/casper/sunbbs/|
|\.\/|//x68stage.ddo.jp/casper/sunbbs/|

③URL以外の文字、URL以降の文字
簡単に「先頭がhで始まる行以外」を削除しています。
…たまにタイトルや記事がhで始まる場合もあるので、それについては手動で削除します。
また、「"」以降の文字も削除します。

/(^[^h].+)|(".+)/\n/

④改行を詰める
行が空いているので、連続する改行コードを置換します。

/\n+\n/\n/

投稿:by かすぱ 2009年07月03日(金) 11時40分
タグ：徒然 Web 正規表現リンク抽出
 固定リンク(permalink)

下記の手法で検査対象項目に外字を含むレコードを抽出します。

■検査対象項目のデータ型が nchar・nvarcharの場合（UNICODEの場合）

where [検査対象項目] like '%[' + nchar(0xE000) + '-' + nchar(0xF8FF) + ']%'

■検査対象項目のデータ型が char・varcharの場合（Shift_JISの場合）
　⇒　一旦nvarcharに変換してから比較する

where cast([検査対象項目] as nvarchar)　like '%[' + nchar(0xE000) + '-' + nchar(0xF8FF) + ']%'

where convert(nvarchar, [検査対象項目])　like '%[' + nchar(0xE000) + '-' + nchar(0xF8FF) + ']%'

投稿:by かすぱ 2009年07月02日(木) 11時00分
タグ：業務 SQL 外字抽出
 固定リンク(permalink)

▲ページ番号 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10

Project Note