ページ番号  1 |  2 |  3 |  4 |  5 |  6 |  7 |  8 |  9 |  10

今北産業 - WebページやRSSを三行で要約する

URL:http://www.3lines.info/
今北産業とは
「今来た(→今北)ばかりの私にこれまでの流れを三行(→産業)で説明してくれ」の略。
スレの流れに乗り遅れた者が流れを把握するために質問する。

どんなニュースでも三行で解説するサイト⇒「今北三行」

以下のページでニュースやブログを三行にまとめてくれるそうです。⇒3lines.info
3lines.info
  • 文章が長いニュースやblogを要約します。
  • 3行で効率良く情報収集ができます。
  • Feed 対応しました。

三行で要約できるのは良いけど、Wikipediaを要約させると結果出力がUnicodeをエンティティ化したファイルになっていました。これでは読みづらい…。
ということで、とりあえず
「Text Escaping and Unescaping in JavaScript」
で、PlanTextにデコードしました。¥uXXXXになっている文字列をそのまま放り込めばOKです。

11/11追記:3lines.infoのページをリロードすると、フォームの下に要約した内容が表示されていました。
なるほどー、こっちを見ればいいのかー

3lines.info
Text Escaping and Unescaping in JavaScript


文章を解析してマルコフ連鎖で文章を自動生成するJavaScript

URL:http://ablog.seesaa.net/article/20987336.html
マルコフ連鎖というとGoogleのページランクの仕組みでも使われているらしい。
Wikipediaを見てみると理論的なことが書かれていてさっぱり分かりません。

他の記事を探してみると文章で簡単に説明しているところがありました。
文章を、複数語からなるプレフィクス(接頭語句)と、プレフィクスに続く1語のサフィックス(接尾語)に分割します。そしてオリジナルのテキストの統計に基づいてプレフィクスの後ろにくるサフィックスをランダムに選び、文章を出力するというもの
マルコフ連鎖による文章生成
…引用の引用ですが…。

段階として「文章を語句単位で分割する」「接頭語と接尾語に分ける」「語句の繋がりをてきとうに選ぶ」という感じでいいのかな?「終わりよければ全てよし」みたいなことでしょうか。

人工無能を作ろう~マルコフ連鎖(2接頭語と1接尾語の場合)
マルコフ連鎖にもいろいろ種類があるらしい。
接頭語が2語になっている形式のマルコフ連鎖について説明がありました。
本当に文章をバラバラにするようですね。
機械的にざっくりという感じです。
形態素解析によって「酢鶏は好きですが、鶏は嫌いかも。」という文章は
「酢/鶏/は/好き/です/が/、/鶏/は/嫌い/かも/。/EOS」という語句に分解されるそうです。

最初に接頭語を初期設定
 ⇒接頭語につながる接尾語を選択
  ⇒接尾語から接頭語を選択
   ⇒接尾語を…
    ⇒EOFまで続ける。
という流れだそうです。

大体分かってきたかも…。
繋がりを見ているので文法は残る。長い説明文などは分岐として定義されるわけです。
接尾語から次の接頭語を探す段階で、終了に近づく語句が選択されれば『要約』となり、逆に終わりに近づかない語句を選択していけば、他のところで記述された文が出現してきて『カオス』な文章が生成されるわけです。

マルコフ連鎖で文章生成(JavaScript)
マルコフ連鎖ジェネレーター
マルコフ連鎖 - Wikipedia


ページ番号  1 |  2 |  3 |  4 |  5 |  6 |  7 |  8 |  9 |  10