如何使用Internet的查询工具


期版:月刊第3期 PC 应用 作者:Richard Scoville
Internet就像一个浩瀚的知识海洋,里面蕴藏着取之不尽的信息
宝藏。如何挖掘开采它,获得人们需要的东西,目前还存在着两方面的
问题:首先,人们手头的查询工具太多,有WWW(World Wide Web)、Goph
er、FTP以及不计其数的专题新闻组、消息表等等;其次,Internet网
上的资源没有确定的分类,人们要查找的是一堆毫无组织、地址不唯
一的信息。同时,那些热心的程序员、厂商、经纪人还在源源不断地
往Internet上填充着他们的东西。这无形中给检索工作带来了很大难
度,没有一定的方法,在Internet上查询信息犹如大海捞针。哪种情况
下该用什么样的工具帮你简便快捷地找到你想要的信息,看了本文以
后,或许会对你有所帮助。
目录帮助
假如你要查找人们普遍感兴趣的题目,如内战或者热线财经一类
的消息并找到其网络地址,通常这类目录会很大,而且有按专题组织的
地址表。这种情况下,我们一般喜欢用Yahoo(地址:http://www.yahoo
.com/)查找,它列出了8万个网络地址(包括Web页、Gophers、FTP地址
以及Usenet新闻组),顶层又按艺术、计算机、卫生、保健等分成14类
子题目。用鼠标点一下就可以选定子题目表,反复地查找子表,直到你
找到需要的信息为止。
除了Yahoo一类人们普遍感兴趣的目录外,专题目录则覆盖了从古
文物到青年工人等各方面的信息。找到这些专用目录的最佳途径是可
以去密执根大学(地址:http://www.lib.mich. edu/chhome.html)查
找那里的Clearinghouse,那里有面向专题的Internet资源指南。
查询引擎
当人们意欲查询Web提供的信息时,目录项是非常有用的,用户的
问题越专有,待查的目录项就越少。为了取得问题的答案,人们必须使
用查询引擎。查询引擎实际上是一些Web页,你可以在其中输入你想要
查找的文本串。按一下按钮,等一会儿,引擎就会识别出与输入的关键
字匹配的Web地址表。在最近的Web查询扫描中,我们查到60个这样的
页,其中只有10页是我们觉得有用的工具,其余的用处不大,或者只有
计算机科学专业的研究生对之感兴趣。
每一个查询引擎代表一个数据库,里面含有Web页的URL(Universa
l Resource Locator或经专门格式化后的Internet地址)地址以及其
他网络资源。大多数查询引擎数据库是由Crawler程序、漫游Web的软
件程序通过页与页的连接顺次查找新的地址搜集而来的。这里,Crawl
er又被称为机器人或蜘蛛。当蜘蛛找到新的页时,就把新页增加到数
据库中。
这些数据库存有成千上万个Web页,在引擎头的位置每天都在增加
新的页。其中,多数人感兴趣的引擎如Lycos和Excite覆盖面最广,其
中每个数据库有150万个索引Web页,其次是Open Text Index,据称也
有130万个Web页。
每个数据库引擎的大小对查找是否成功起着很大的作用,例如,我
们想用字符串recipewheat Beer(酿啤酒秘诀)查询每一个引擎,其结
果是:最大的Lycos数据库引擎提供给我们437个匹配页(hit),InfoSee
k和Open Text Index数据库则每次提供200个页,用其他数据库则少于
100页,有几种情况下,甚至查不到一个Web页。通常的情形是,数据库
越小,查到的Web页就越少。
大多数数据库引擎严格限制其只能检索Web本身,InfoSeek和Exci
te则比其他引擎更进一步,它们增加了Usenet新闻组索引。InfoSeek
还允许用户查询就近的一组非Internet数据库的信息。
索引中的信息
Web的蜘蛛程序比URL采集信息做得要多一些,它们还搜集有关每
一页的信息,一旦你提交一个查询,查询引擎的backend软件就建立起
一个你所需信息的索引。从一个引擎到另外一个引擎,其索引技术是
各不相同的,你不要因此感到奇怪。
在每个引擎中,都有一个页的索引URL地址和题目。多数引擎还有
每一段的索引标题,其他的引擎则只是记录了频繁提到的词或者文本
的头几行。在Open Text Index数据库引擎中,页的每一个单词都有索
引,甚至包括and一类别的引擎忽略的词也有。结果可想而知,它理所
当然成了唯一能在查找过程中返回是或者不是的查询工具。即使不包
含你所指定的关键字,Excite基于概念的索引也能够帮助人们找到相
关的页。
找到匹配页并不意味着查询成功。一方面,数据库的大小确定了
它查到的匹配页的多少,另一方面,索引质量的好坏还要由有多少个匹
配页与你的查询相关来确定。如我们通过每一个查询引擎查找北卡罗
来纳三角地的房地产信息,然后算一算在Chapel Hill地区有多少个与
之相关的匹配页数。据统计,Web的Crawler返回19个匹配页,我们从In
foSeek上获得200多个匹配页。但是实际上19个当中只有9页是我们所
想要的东西。大多数InfoSeek的匹配页与房地产有关,但是又有许多
东西与北卡罗来纳没有任何关系。
使用正确的工具
无论数据库有多大,待查数据库有多么复杂,查询引擎是你进行检
索的独一无二的好工具。
有时需要进行词组的查询,不同的数据库处理词组的方式不尽相
同。InfoSeek用词的主干部分来检索与该部分匹配的页,如欲查impre
ssionism一词,只需查找与impression匹配的页即可。Lycos则将查询
项作为主干词来处理,所以在这种引擎中,metal一词就与metallic匹
配。
有几种引擎允许用户检索所有的词组,而不只是检索被查询串的
个别单词,它们检索串组合成词组的偶然搭配。有两种引擎可以查到
一个词组的多种变化,这两个引擎是Aliweb(地址:http://web.nexor.
co.uk/public/aliweb.html)和CUI的W3 Catalog(地址:http:// uiww
w.unige.ch/w3catalog)。
另外,使用这些可用工具还有一个问题。在某些引擎中,允许用户
按指定的操作对用户的查询项求精。这将意味着在最基本的底层,你
检索到的地址包括待查串中的任何一个单词或者项的全部,Lycos就是
这样进行的。其他一些引擎允许用户使用更多的布尔项,如AND、OR,
有时还用NOT。只有InfoSeek和Open Text Index两个引擎允许用户使
用相近操作,它们允许你查询与被查串相邻的项。
使用这些可用的工具动态地增加了匹配页的查询质量。例如,我
们使用Open Text Index简单查询页查找酿造小麦啤酒的秘诀,可以得
到90个匹配页,这里 面只有很少的几页与自酿小麦啤酒有关(多数页与
饮酒有关)。 但 当 打 开 "Power"页进行小麦啤酒秘诀的相邻项查询时,
我们可得到6个匹配页,其中有3个正是我们所需的东西。
分开有用和无用的信息
当你获得匹配页表时,你的检索工作才刚刚开始。你得将这些地
址分类以找到你真正想要的东西,多数引擎可以在结果页的顶部显示
它们确实已检索到的词。你可能已经查找过好的、坏的和丑的东西,
而检索引擎也告诉你它确实是在查好的、坏的和丑的东西,记住一点,
你可以通知许多引擎查找全部词组,而不只是关键字。
多数引擎返回的匹配页与查询项密切相关。即使你获得200个以
上的匹配页,你也不用担心要将所有的页都搜集起来,可能顶多你只需
10个。不同的引擎采用不同的方法计算查询页的关联度。InfoprSeek
根据被查项在整个数据库出现频度相近的页中出现的次数来排列匹配
页, Lycos则基于项在页中的出现次数、与其他项的临近度以及在页
中的位置来排列。
大多数引擎提供了匹配页的几种描述。在这方面Lycos是最佳的,
它不仅提供了关联的比率、每页的描述,而且还有文本的简单摘要。
人们只需阅读一下摘要,就可以判断是否是你需要找到的匹配页。
元级检索(Metasearching)
人们可能不大喜欢忙忙碌碌地从一个检索引擎到另一个去查找想
要的信息,那么你应该学习使用元级检索地址。它们是几个检索引擎
同时开始查询得到的页面。
有两种页面:Savvy Search(地址:http://www.cs.colostate.edu
/~dreiling/smartform.html)和MetaCrawler(地址:http://www.cs.
washington.edu/research/project/ ai/metacrawler/www/ home. h
tml),它们可同时在若干个引擎上查询。Savvy Search还会覆盖Archi
ePlex(用于检索FTP地址)和DejaNewws(用于检索新闻组)。这种并行
检索引起的唯一问题是用户访问不到每一个引擎查询工具,例如布尔
和相近操作,用这种方法进行查询就不如实际的词汇查询精确。
另一些元级检索地址允许你在某一时间查询一个主要引擎。用户
可以想用的引擎格式填写并启动它。这样做也许会漏掉一些查询工具
,但是这些页可被保留在文件上供将来快速查询用。
查询后的工作
前述工具你会喜欢用哪一种?这里,我们挑选了3种检索引擎:Exci
te、InfoSeek及Lycos。这3种工具都提供了易于使用的界面,人们可
以从中得到精确的结果。此外,我们还增加了一个目录Yahoo。这是迄
今我们用到的最完整的目录,它提供了一个完美的缺省home page。幸
运的是这些工具经常改进。InfoSeek已经宣布计划把一个目录编入它
的检索地址。而Open Text Index也宣布计划与Yahoo合作形成一个可
能会令人吃惊的产品。
在开拓者的头脑中,无论你最终使用哪一种工具,它们都会使得We
b更有市场。
查找内部消息Tips
一个检索引擎数据库实际上就是与URL地址有关的词和词组的索
引。你要做的工作是查找与该索引匹配的词。这里有几条通用规则可
便于用户最大限度地进行查询。

1.阅读一下引擎的指令 许多检索引擎提供了自身的操作、定义
符及规则集,这些东西有助于你进行高效查询。试着用一用它们。

2.选择不常用的词 检索词与其他词的区别越大,对于加快搜索
越有用。举个例子,你检索埃塞俄比亚弥猴科就比非洲的绿钱币获得
的索引项要多。在检索时,应尽量挑选能够表达你意思的词。

3.注意拼法 如果你在查"astronut"一词,你可以得到符合拼字
正确要求的Web页。对字符串形式看来很相似的词,切记也要检索一下
该词的合理变化,如你要查fly-fishing一词,应该试试查flyfishing
和fly fishing两个词。

4.同义词 记住,你可能查的是一个概念,而并非只是一个单词。
例如,如果你想查找有关背包徒步旅行的地址,在你的查询中就应包含
这些项:徒步旅行、乘牛车旅行、背包徒步旅行以及露营。

5.勿用自然语言 某些地址支持自然语言的查询,即允许用户以
说话的方式提问。不要去用这个功能,你要将焦点放在能够识别你概
念的术语和词组上。

6.重复你查询的东西 在第一次查询过后,回到你最有希望查找
的匹配页,把其他一些你可能会快速广泛进行查询的术语摘录下来。

7.不要忘了NOT 有一些查询引擎支持NOT(非)操作,这个操作允
许你进行输入项的查询。因此,你对非重非音乐的金属进行查询,就可
以找到与工业金属有关的地址,从而避免去查重金属。

8.使用多个查询引擎 我们惊奇地发现,用几个不同的查询引擎
进行同一个查询,查询结果的重叠率很小。所以为了获得最佳的查询
效果,尽量在多个地址上查询。

9.试试使用专有地址 如果你想查找某指定公司的Web页,可以试
试Open Market Commercial Sites索引(其地址为:http://www.direc
tory.net/)。同样,如果你想查找政府的集中Web地址,可在Infomine(
其地址为:http:/lib-www.ucr.edu/Main.html)上进行。如果你想查
找Usenet新闻组,可以用InfoSeek或DejaNews(其地址为:http://www.
dejanews.com/)。最后一点,如果想查找Internet上可卸载的文件,Ar
chiePlex(地址为:http://flosun.salk.edu/archieplex.html)便可
助你一臂之力。