[PR]今日のニュースは
「Infoseek モバイル」

WWWサーバ内を丸ごと検索できる 検索ロボット
同一ドメイン(ホスト)内 検索エンジン  LOCWWW  ⇒ ENGLISH
  最終更新時刻: 2003年10月13日
   
  1回の処理時間は最大5分に制限されています。 
  申し訳ありませんが混み合っているときには自動的にアクセス 
  制限されます。その場合は最大で5分くらいお待ち下さい。

URL   
検索文字列   
  AND検索   OR検索
  
HTMLタグを 
検索対象に含めない  含める
ページタイトルリスト 
作る  作らない
   
   上位階層制限  しない する     URLから上位  階層まで検索する  
   下位階層制限  しない する     URLから下位  階層まで検索する  
       URLパス  一致するページのみ検索  不一致ページも検索  

   検索文字列の入力例
  • 検索文字列は1文字以上の半角スペースまたは全角スペースで区切って下さい。
  • John Lennon  ⇒AND検索ならJohnかつLennonを含むファイルを検索
  • 源 義経 頼朝 ⇒OR検索なら源または義経または頼朝を含むファイルを検索
  • アルファベット大文字・小文字は区別されません。

   検索オプション
  • HTMLタグを検索対象に含めない場合、タグとその内容を無視して検索します。
    検索対象に含める場合、HTML文書をプレーンテキスト文書として単純検索します。
    単純検索の方が検索速度が速くなります。
  • 検索したページタイトルリストを階層順に作成するよう指定できます。
    ページタイトルリストに含まれるページは検索がマッチする/しない
    には関わりません。
  • 検索階層を制限しない場合、ドメイン(ホスト)内の全階層が対象となります。
  • URLパスとは、 例えばhttp://www.goo.ne.jp/xxx/yyy/index.htmlでは、
    xxx/yyyの部分を意味します。指定により入力されたURLのURLパスに一致する
    ページだけを検索できます。ドメインとはwww.goo.ne.jpの部分です。
 


   LOCWWWの説明
  • 任意の指定ドメイン(ホスト)内のホームページのリンクを次々に辿って指定された文字列を検索します。
  • 外部ドメイン(ホスト)へのリンクはたどりません。
  • データベースを用いないリアルタイム検索です。
    ページ数が多い場合は処理時間がかかりますが、大部分はサーバとの通信に要する時間です。
  • 標準的なHTMLタグに対してはもれなくリンクをたどれます。
    (フレーム対応,proxy対応,Javascriptとページ飛ばしは未対応)
  • 未知サーバの検索向けに作られたオリジナル検索ロボット(スパイダー)です。
  • 文字列検索の対象となるのはHTML文書だけです。
  • 同時にすべての種類のリンクファイルの情報をログウィンドウに出力します。
    情報が多い場合、ブラウザによってはログウィンドウに表示しきれないことがあります。
    この場合、ページをいったんファイルに保存してから読み直せば表示されます。
  • ホームページのデッドリンクをチェックできます。
  • シフトJIS,JIS,EUCの日本語コード系に対応しています。
  • シングルプロセスで処理しています。
  • 巨大サイトに対しては負荷が大きいため検索を御遠慮下さい。
    また、公共の迷惑になるような検索は慎んで下さい。

  • 1回の処理時間は最大5分に制限されています。
  • Windows,UNIX(Linux),Mac等で稼動できます。
  • 端末のコマンドラインからも稼動できます。
  • ディレクトリ階層ごと全ファイルダウンロードする機能もあります。
  • リストで特定されたURLだけをダウンロードする機能もあります。
  • 有償または無償(公共機関での利用)にて設置も受け付けております。お問い合わせ下さい。
  • このページは御自由にリンクしていただいて結構です。
  • ご意見・ご感想等お気軽にお寄せください。
  • ソフト開発のお仕事も募集しております。



   LOCWWWの検索結果例
  • 2002年2月1日にGOOのURL(http://www.goo.ne.jp/)に対して
    文字列 「検索エンジン」 を検索したときの検索結果例(HTMLタグを
    検索対象に含めた場合)です。
    ページ数448個,ファイル数650個程度(9561Kバイト)に対して119秒かかりました。

  • 2002年10月6日にエーザイのURL(http://www.eisai.co.jp/)に対して
    文字列 「アルツハイマ」 を検索したときの検索結果例(HTMLタグを
    検索対象に含めた場合)です。検索階層を下位1階層までに制限しました。
    ページ数1146個,ファイル数1146個程度(8028Kバイト)に対して729秒かかりました。



   LOCWWWのメンテナンス
  • 不具合は一月ぐらい毎にまとめて修正するつもりでしたが、忙しいのでどうも思うようになりません。
  • オプション指定付で引数を持つCGIの出力も検索できるように修正しました。
  • 一部の日本語コードを検索できない不具合があります。次回修正します。
  • マルチプロセス化して処理を高速化したいと思います。



   作者SYNERGETRONより
  • LOCWWW(ろくう)という名前はLOCAL WEBの略です。時々自分の探したい情報がサイトの膨大なページの中でどのページにあるのかわからないという状況に遭遇します。また、インターネットの中には勉強になるページも多くありますが、それらを画像等も含めて一括してダウンロードしたい場合があります。そのような時にLOCWWWがお役に立つかもしれません。ダウンロードについては既にフリーソフト等も多く存在しますが、試してみた限りではどうも完全にはダウンロードできないようでした。LOCWWWの心臓部はリンクを解析する部分になりますが、リンク解析といっても結構面倒で、ブラウザが大変うまくできているのがLOCWWWを作ってみてよくわかりました。なお、このサイトは個人運営のサイトですからメガ検索サイトのように高速処理はできません。リアルタイム検索ですからなおさらです。量より質ということで、医療や学術、技術などの本当に役に立つ分野で使ってもらえることを希望しています。パーソナルな検索ロボットLOCWWWがインターネットの大海で良い船先案内人になってくれることを願います。インターネットは人類の巨大なデータベース。「情報を制する者は世界を制す」るでしょう。


数値解析のページ
LOCWWWのお問い合わせ等は MAIL までどうぞ。


© 2002 by SYNERGETRON
All rights reserverd.