回答は,Webページの検索結果から作り出す。このため検索文の解析と同時に,通常の全文検索も実行する。全文検索には,米Google社の検索エンジンを使っている。Googleのエンジンから返ってきた回答候補のうち,WebAnswersが使うのは上位10件。これらの中に質問に対する答えが含まれていないか解析する。現状は速度の問題から,本文すべてではなくGoogleが提示する本文の要約文を対象に解析している。まず,要約文を形態素解析して単語単位に分割する。次に,組織名や人名,日付などを抜き出す。この処理には,あらかじめ用意した品詞の並びのパターンを利用している。例えば「さん」という接尾語の前にある名詞は人名と判断する,といったパターンである。こうした一連の解析処理を,ユーザーからの検索要求があるたびに実行する。1件あたりの検索にかかる時間は「数100m秒程度。体感的には通常のWeb検索とほとんど変わらない」(NTTサイバースペース研究所メディア処理プロジェクト音声・言語メディアアクセスグループの永田昌明主幹研究員)。
No related posts.
関連記事はYARPP関連記事プラグインによって表示されています。