フレッシュアイを支えるテクノロジーについて

 日本の検索サービスの多くは、海外で開発された検索技術をベースにしているのに対して、 フレッシュアイの検索技術は、すべて当社が独自に開発したものです。
 フレッシュアイの技術は、(1)Webページの自動収集を行う「ロボット技術」、 (2)収集したページを自動的にトピックへ分類する「フィルタリング技術」、 (3)ロボットが収集したWebページに索引(インデックス)を付け、 入力された検索語に適合するページを探し出す「全文検索技術」の3つから構成されます。

(1) ロボットが最適巡回アルゴリズムに基づいて、インターネット上を巡回し、 新規に更新されたWebページを収集、その結果をWeb情報データベースへ保存します。
(2) このデータベースを、「フィルタリングエンジン」が、 トピック毎に作られた「プロファイル」という高度な検索・評価式を照合しながら自動的に分類して、 「トピック検索インデックス」へ登録します。トピックサーチでトピックを選択すると、 このトピックに分類されたページのURLの一覧を表示します。
(3) 一方で「全文検索エンジン」のインデキシングプログラムがWeb情報データベースの内容について、 単語単位で索引を作成し、「全文検索インデックス」へ保存します。 フレッシュアイサーチで検索語など入力すると、 全文検索プログラムが各ページの索引をもとに該当するページのURLを探し出します。
(4) トピック検索インデックスと全文検索インデックスでは、 過去1ヶ月以内に更新がなかったWebページを自動的に削除し、新しい情報だけが残ります。 「トピック検索インデックス」は一日に一回、「全文検索インデックス」は一日に数回、 ロボットが収集した最新のWebページすべてを対象にデータ更新を行うため、 いつでも新鮮な情報を検索することができます。

(1)ロボットのテクノロジー
フレッシュアイのロボットは、 インターネットを巡回し新規情報を収集してWeb情報データベースに登録します。 訪問対象は、国内外にある日本語で書かれたサイトです。 ロボットは、新規または更新されたWebページのみを効率よく探し出せるように作られた最適巡回アルゴリズムに従って、 新しいと判断したWebページの情報だけを効率的に収集します。 また、各サイトの更新頻度を自動学習し、 更新時期に合わせて訪問するように設定されています。 これによってWebページ情報の収集スピードが向上します。

(2)トピックサーチのテクノロジー
一般的に、ディレクトリ型の検索サービスでは、 人手によってWebページのURLを登録・分類します。 そのため分類精度は高いものの、データの登録に時間がかかり、 収集・登録できるWebページの量も限られます。 フレッシュアイのトピックサーチでは、この分類作業を自動化することで、 ロボットが自動収集した大量のWebページ情報を、 わずか1日で各トピックに登録することができます。 登録にかかる時間が短いだけでなく、高性能フィルタリングエンジンによって、 人手と同程度の高精度な分類を実現します。

(1) トピックサーチを支えるフィルタリング技術: 日本語処理におけるフィルタリングとは、 見出しや段落といった文章全体の構造や単語の出現頻度や分布などを分析し、 不要な情報をカットし、文章全体の要旨を抽出する技術です。 フレッシュアイは、複数のフィルタリング技術を組み合わせた独自の「S3フィルタ(*)」という手法を採用しています。 ここでは、主題となる単語とそれに関連する語句について、 書式情報(その単語が見出しや本文など文章のどこに出現しているか)、 統計情報(単語の密度や分布)、文法情報(他の単語との係り受けや助詞との関連) などについて総合的に判断する「類似度計算」と呼ばれる手法が、 精緻な分類を実現するために重要な役割を果たしています。
(*)Syntax(文法情報)、Structure(書式情報)、 Statistics(統計情報)の三要素から、 文書のプロファイルに対する関連性を総合的に得点づける手法。

(2) 精緻な分類を可能にする「プロファイル」: フレッシュアイでは、各トピックごとに、類似度計算を行うために必要な主題となる単語と、 それに関連する語句などの条件を詳しく記述したものを「プロファイル」と名付けています。 「プロファイル」は、検索サービス側が予め用意した、非常に高度で精緻な検索式です。 「PDA」というトピックであれば、 「携帯端末」などの類似語や「ジェニオ」「モバイル」などの関連語がプロファイルに記述されています。 フィルタリングエンジンでは、 収集したページの内容について、まず文書構造の解析や単語区切りなどの日本語処理を行った後、 各プロファイルに照合して、プロファイルに記述された語句が含まれる、 含まれないといった点で大まかに振り分けられます。次に、単語の出現頻度、 出現位置、単語間の関連などを総合的に評価し点数化します。 ある一定の点数がついたWebページはそのトピックに該当すると判断されてトピック検索インデックスへ登録されます。 一定の合致度に達していないページは、そのまま除かれます。

フィルタリングの流れ

(3)フレッシュアイサーチのテクノロジー
フレッシュアイサーチのための全文検索エンジンでは、 インデキシングプログラムによって、Web情報データベース上にある各Webページについて、 索引付けを行って全文検索インデックスへ登録します。 フレッシュアイではこの全文検索インデックスの更新を一日に数回という高い頻度で行うため、 最短で12時間前に開設されたばかりのWebページも検索することができます。

(1) フリーワード検索のためのインデキシング: ロボットが収集してきたWebページは、 そのままでは検索語による検索の対象とすることはできません。 あらかじめ、ページに含まれるテキスト部分について、 単語や文節ごとに区切る形態素解析と呼ばれる処理を行い、 各単語について出現する頻度や位置、密度等を元に検索のための索引を作成します。 この作業を行うのがインデキシングプログラムです。 このとき、ページ間の索引を照合し、 同一ドメインにおいて内容が同一と判断されるページが存在する場合、 一方は登録されないようになっています。 これは、同一ページのURLがURL一覧ページに複数表示される不便さを避けるためです。

(2) 全文検索プログラム: フレッシュアイサーチで検索語が入力されると、 全文検索プログラムが、全文検索インデックスを調べて、 その言葉に合致する内容を含んだWebページを検出します。 検出する際に合致する程度を点数化し、 この点数が一定の水準に達したページのURLが検索結果として表示されます。 この点数が合致度です。フレッシュアイサーチで応用されている日本語処理や合致度計算は、 フリーワード検索のためのエンジンとしてはトップクラスの高い精度を実現しています。


プレスリリース記載の情報(製品価格/仕様、サービスの内容、お問い合わせ先、URL等)は、発表日現在の情報です。予告なしに変更されることがありますので、あらかじめご了承ください。最新のお問い合わせ先は、東芝全体のお問い合わせ一覧をご覧下さい。