II. フレッシュアイのテクノロジー

  1. フレッシュアイの全体構造

     日本の検索サービスでは、 基幹部分については海外で開発された技術をベースにしている場合が多いのですが、 フレッシュアイのサービスの背景にある技術は、 すべて東芝が社内で独自に開発したものです。 フレッシュアイの技術は、大きく分けて、Webページの自動収集を行う「ロボット技術」、 収集したページを自動的にトピックへ分類する「フィルタリング技術」、 ロボットが収集したWebページに索引(インデックス)を付け、 ユーザーが入力した検索語に適合するページを探し出す「全文検索技術」の3つから構成されています。

    全体的な構造

     まず、ロボットが最適巡回アルゴリズムに基づいて、 インターネット上を巡回し、新規に更新されたWebページを収集、 その結果をWeb情報データベースへ保存します。

     このデータベースを、「フィルタリングエンジン」が、 トピック毎にプロファイルという高度な検索・評価式に照合しながら自動的に分類して、 「トピック検索インデックス」へ登録します。 トピックサーチ画面でトピックを選択すると、 このトピックに分類されたページのURLの一覧を表示します。

     一方で「全文検索エンジン」のインデキシングプログラムがWeb情報データベースの内容について、 単語単位で索引を作成し、「全文検索インデックス」へ保存します。 フレッシュアイサーチ画面で検索語や検索式が入力されると、 全文検索プログラムが各ページの索引をもとに該当するページのURLを探し出します。

    フレッシュアイの全体構造

     トピック検索インデックスと全文検索インデックスでは、 過去1ヶ月以内に更新がなかったWebページは自動的に削除され、 新しい情報だけが残っていくようになっています。 また、「トピック検索インデックス」は一日に一回、 「全文検索インデックス」は一日に数回、 ロボットが収集した最新のWebページすべてを対象にデータの更新を行うため、 いつでも新鮮な情報を検索することができるようになっています。

  2. ロボットのテクノロジー

     フレッシュアイのロボットは、 サイトのサーバーの負荷を配慮しつつインターネットを巡回し、 新規情報を収集してWeb情報データベースに登録します。 データベースには、元のページには復元不可能な形式で保存します。 訪問対象は、国内外にある日本語で書かれたサイトです。 (6月30日現在、.ac.jpを除く.jpドメインの全てと.comドメインの一部を対象としています。 また、日本新聞協会加盟各社のニュースサイトは対象としていません)。

    最適巡回アルゴリズム

     フレッシュアイのロボットは、フレッシュアイでサービスする、 新規または更新されたWebページのみを効率よく探し出せるような仕組みになっています。 そのために、最適巡回アルゴリズムを作成し、 ロボットはそのアルゴリズムに従ってページ情報の収集を行います。

     「最適巡回アルゴリズム」は、新しいと判断したWebページの情報だけを効率的に収集します。 また、各サイトの更新頻度を自動学習し、 内容が更新されそうなページを過去の経験値から予測し、 更新時期に合わせて訪問するといった設定も行うようになっています。 それによって無駄を省きWebページ情報の収集スピードを向上させるばかりでなく、 不要なアクセスをできるだけ減らしてインターネットの渋滞を軽減する効果もあります。

  3. トピックサーチのテクノロジー

     一般的に、ディレクトリ型の検索サービスでは、 人手によってWebページのURLの登録と分類を行っています。 そのため分類精度は高いものの、データの登録に時間がかかるうえ、 収集・登録できるWebページの量が限られてしまいます。

     フレッシュアイのトピックサーチでは、この分類作業を自動化することで、 ロボットが自動収集した大量のWebページ情報を、 わずか1日で各トピックに登録することを可能にしました。 期間が短いだけではなく、高性能のフィルタリングエンジンによって、 人手と同程度の精度の高さも実現しています

    トピックサーチを支えるフィルタリング技術

     日本語処理におけるフィルタリングとは、もともと、 見出しや段落といった文章全体の構造や単語の出現頻度や分布などを分析し、 不要な情報をカットしたり、文章全体の要旨を抽出したりするための技術です。 フレッシュアイは、 複数のフィルタリング技術を組み合わせた東芝独自の「S3フィルタ」という手法を採用しています。 このフィルタリングでは、主題となる単語とそれに関連する語句について、 書式情報(その単語が見出しや本文など文章のどこに出現しているか)、 統計情報(単語の密度や分布)、 文法情報(他の単語との係り受けや助詞との関連)などについて総合的に判断する「類似度計算」と呼ばれる手法が、 精緻な分類を実現するために重要な役割を果たしています。

    精緻な分類を可能にする「プロファイル」

     フレッシュアイでは、各トピックごとに、類似度計算を行うために必要な主題となる単語と、 それに関連する語句などの条件を詳しく記述したものを「プロファイル」と名付けています。 「プロファイル」は、検索サービス側があらかじめ用意した、 非常に高度で複雑な検索式であるということもできます。 例えば、「PDA」というトピックであれば、 「携帯端末」などの類似語や「ニュートン」「モバイル」などの関連語があらかじめプロファイルに記述されています。

     フィルタリングエンジンでは、収集したページの内容について、まず文書構造の解析や単語区切りなどの日本語処理を行った後、各プロファイルに照合して、プロファイルに記述された語句が含まれる、含まれないといった点で大まかに振り分けが行われます。次に、単語の出現頻度、出現位置、単語間の関連などを総合的に評価し点数をつけます。ある一定の点数がついたWebページはそのトピックに該当すると判断されてトピック検索インデックスへ登録される一方で、どのトピックについても一定の合致度に達していないページは、そのまま除かれます。

    フィルタリングの流れ

    Syntax(文法情報)、Structure(書式情報)、 Statistics(統計情報)の三要素から、文書のプロファイルに対する関連性を総合的に得点づける手法。

  4. フレッシュアイサーチのテクノロジー

     フレッシュアイサーチのための全文検索エンジンでは、 インデキシングプログラムによって、 Web情報データベース上にある各Webページについて、 索引付けを行って全文検索インデックスへ登録します。 フレッシュアイではこの全文検索インデックスの更新を一日に数回という高い頻度で行うため、 早ければ半日前に開設されたばかりのWebページも検索することができるのです。 将来的には更新頻度を1時間に一回程度に上げ、より新鮮な情報を提供できるようにする予定です。

    フリーワード検索のためのインデキシング

     ロボットが収集してきたWebページは、 そのままでは検索語による検索の対象とすることはできません。 あらかじめ、ページに含まれるテキスト部分について、 単語や文節ごとに区切る形態素解析と呼ばれる処理を行ったうえで、 各単語について出現する頻度や位置、 密度等を元に検索のための索引を作成しておく必要があります。 この作業を行うのがインデキシングプログラムです。 このとき、ページ間の索引を照合し、 同一ドメインにおいて内容が同一と判断されるページが存在する場合、 一方は登録されないようになっています。 これは、 同一ページのURLがURL一覧ページに複数表示される不便さをできるだけ避けるようにするためです。

    全文検索プログラム

     フレッシュアイサーチで検索語が入力されると、 全文検索プログラムが、全文検索インデックスを調べて、 その言葉に合致する内容を含んだWebページを検出します。 検出する際に合致する程度を点数化し、 この点数が一定の水準に達したページのURLが検索結果として表示されるようになっています。 この点数が合致度です。画面でMonthly表示を選んだ場合は、 合致度が高いページから順番に並べられます。

     フレッシュアイサーチで応用されている日本語処理や合致度計算は、 日本語処理に長年の実績を持つ東芝の技術をベースにしており、 トピックサーチのフィルタリングほど厳密ではありませんが、 フリーワード検索のためのエンジンとしてはトップクラスの高い精度を実現しています。


プレスリリース記載の情報(製品価格/仕様、サービスの内容、お問い合わせ先、URL等)は、発表日現在の情報です。予告なしに変更されることがありますので、あらかじめご了承ください。最新のお問い合わせ先は、東芝全体のお問い合わせ一覧をご覧下さい。