草案その一

とりあえず、キーワードの抽出方法を変更して欲しい。現時点では、

  1. カテゴリ
  2. スコア
  3. 長文一致

という順番と思われるのだが、

  1. 長文一致
  2. スコア
  3. カテゴリ

という順にして、カテゴリ、スコアに関わらず長文一致で引っかかったキーワードが、しきい値以下、またはカテゴリが違った場合、そこでキーワードの抽出を中止する様に変更する。システムに対する負荷が増えそうだが、これが大前提で以下の話を進める。
で、本題。
基本的な考え方は、

  • bookグループの様な厳密さ
  • ダウナー部の様なルーズさ

この二つを同じ系にのっけるにはどうしたら良いかという事を考える。
bookグループの誤爆回避はほぼ皆無だが、実際にそのように行うにはかなり無理がある。が、方向性としては使える。また、ダウナー部の様々な感情を表すキーワードは、「日記」というモノを繋ぐという?Dのキーワードという意味に於いて、間違ってはいない。が、現時点で動詞、形容詞等を登録する事は明らかに火種になりうる。
で、私の様にbookグループの様な厳密さを好む人でも、キーワードの文中にリンクが発生しなければ構わない。キーワードの存在自体が許せないと言う事は滅多にない。
では、どうするか。
初めから日記を始めキーワードの文中にリンクが発生しないが、捕捉だけ出来るキーワード、捕捉専用カテゴリ*1を作って、そこに全部放り込む。ただ、キーワードを含むキーワードには記録される。
対象になるモノは現時点で一般カテゴリに属する

  • 用言
  • 「意味」等
  • 年号等時間詞
  • 特定の個人を指さない名字

等々。だが、リンクが発生しないのであれば、名台詞を登録する事も自由だし、考えられる限りの告白の台詞を登録して、それらの日記を探す事も出来る。?Dの「日記」を繋ぐという側面も更に強く出来るかもしれない。また、前提の長文一致を優先出来れば、全ての誤爆防止キーワードをここに全て放り込む事も出来る。
トラブルに関するモノは、『はてなの本』の近藤さんのインタビューを前提にもう一度考え直す。

*1:設定のチェックボックスを入れる事によって表示も可能だが、デフォルトではオフ