登录注册
社区应用 最新帖子 精华区 社区服务 会员列表 统计排行
主题 : 搜索的困境与突破——搜索的年代划分
卡拉 离线
级别: 总版主

显示用户信息 
楼主  发表于: 2004-05-20   

搜索的困境与突破——搜索的年代划分

消息源:ODP.CN

对搜索进行历史分期是一个糟糕的想法。搜索包含了不同的模式,模式之间不存在质量优劣的可比性,不存在技术的升级换代,所以评价搜索作为总体的历史进步意义很容易走入陷阱。

    搜索提供者热衷于给自己的产品贴上一个第几代的标签,潜台词是我的搜索领先于时代,比别的搜索好。

    如果删除了商业炒作,心里牢记新一代搜索并不意味着比老一代搜索优秀,对搜索进行年代划分仍是一个从本质上把握搜索这个复杂概念的有效方法。

    分类搜索是手工建造的,正是这个原因使它获得了“第一代搜索”的殊荣。无论技术怎样进步,手工建造的东西能够永保青春。

    网络史上第一个分类搜索网站是1994年1月发布的银河搜索(www.galaxy.com),而风光无限的分类搜索网站是1994年4月发布的雅虎(www.yahoo.com )。

    分类搜索从诞生到今天,内部基本没有太大的变化。调整分类的结构或者控制收录的内容,都不能从实质上改变分类搜索。分类搜索提供者之间的竞争,不可能通过技术创新来实现。这个角斗场上,比拼的是内力和耐心,一种不动声色却大而化之的实力。搜狐一般被认为是雅虎的学习者,甚至是模仿者。搜狐从分类搜索网站转型为门户网站,完全是识时务的正确决策,既是超越也是新生,体现了张朝阳的商业睿智。但如果我们认同搜索的战略地位,那么搜狐的转型就不是源于实力,而是源于自卑。同时,张朝阳也给搜索界,甚至是网络界,出了一个难题。在中国的网络狂热时期,几乎每个网站都做搜索,或者综合搜索(门户),或者行业搜索(垂直门户),——当然是分类搜索,因为那时大部分的网站还没有实力做索引搜索。曾经红极一时的“找到啦”网站域名,忠实地记载了当时人们对搜索的热情。但现在这些网站要么转型了,要么消亡了,仍在分类搜索领域默默耕耘的只有实力和资金都并不十分具备优势的蓝帆搜索(www.search163.com)、139探索器(www.china139.com )和北极星(www.beijixing.com)。那么,谁将是中文分类搜索的领军人物呢?

    今天的分类搜索和昨天的分类搜索相比,最大的差别是数据库要丰富得多。但是,你不能称它为进步。互联网的信息资源爆炸式增长,分类搜索网站有限的编辑队伍很难追上信息增长的速度。假设1994的雅虎收录了70%的网站,2004年的雅虎也许仅收录了60%的网站,尽管绝对数量已经不可同日而语。

    分类搜索网站经营者遭遇的尴尬却给他们带来了一笔横财。分类搜索网站的商业模式很简单,向网络用户提供完备的分类网站导航服务,获得一定的访问量后,向商家出售广告位。在这个模式里,分类搜索提供者需要一个庞大的、让用户满意的网站数据库,所以收录网站是免费的,因而成为自己的成本。但太多的网站要求登录,终于有一天,心花怒放的雅虎向他们宣布:我们仍然免费收录网站,但提交者太多,请耐心等待,如果你想及时登录,请交纳99美元的优先收录费。

    今天,90%的分类搜索提供者都学会了这一招,而且不再使用优先收录费这块遮羞布。如果你的数据库已经足够庞大,采取有偿优先收录是聪明的做法,否则,盲目实施收费登录就等于自己阻碍自己竞争力的加强,完全是东施效颦的愚行。

    与第一代搜索稳健发展相比,“第二代搜索”,索引搜索,内部的变革要剧烈得多,竞争和淘汰也残酷得多。

    从真正的索引搜索诞生到今天,短短十年时间内,索引搜索走过了奠基、成长、成熟、创新四个阶段。

    那些为索引搜索奠基的先驱们不应该被忘记,他们是AllWeb,JumpStation,WWWWorm,RBSE,Architext(Excite的前身)。
    1994年4月20日标志着索引搜索成长的开始。这一天,美国华盛顿大学学生布来恩.平克顿发布了网页爬行者(www.webcrawler.com),第一个检索全部文件文字的索引搜索。“我们的成功使进入搜索领域变得容易了,一年之内出现了象Lycos,Infoseek,Opentext这样的竞争对手。他们没有做任何革命性的创造,不过是在我们的基础进行了一些修修补补而已,” 网络爬行者不无牢骚地说。

    1995年12月,DEC公司发布了AltaVista。这个速度超群的网站给索引搜索带来了革命性的贡献:它第一个允许用户使用自然语言进行搜索,而且第一个引进了高级搜索功能。

    1996年5月20日,Inktomi公司发布HotBot。Inktomi源于印地安神话,这只传说中的蜘蛛将文化带给了人类。在网络里,这只蜘蛛具有强大的能力,它能够每天爬行整个网络,保证数据及时更新。

    当网络用户变得不成熟时,索引搜索成熟了。当历史跨入21世纪,他们突然失去了一颗平常心,用宗教般的狂热盛赞他们拥有的搜索工具,声称自己的生活再也离不开它了。

    这就是被我们亲切地称为狗哥的“Google”。

    1998年9月7日,Google的两位创始人和他们仅有的一位雇员宣告了这位网络“上帝”的诞生。

    这是一个传奇吗?是,也不是。很多人都以为比尔.盖茨是一位天才的发明家,独步天下创造了操作系统,结果暴富。——其实不是,他的技术谁都可以达到,他成功是因为他实践了一些基本的商业原则。Google也一样,它引以为自豪的网页排序技术(PageRank)和超链分析技术(Hypertext-Matching Analysis)并不是高不可攀,它成功,是因为它专注,因为它体贴人的服务。

    索引搜索的创新并不是在它成熟后才开始的。诞生于1997年8月的北极光(Northernlight)第一个开发了对搜索结果的自动分类技术。尽管北极光的公共搜索已于2002年1月16日关闭,这种创新具有深远意义。你在搜索框里键入“传奇”,搜索结果会是什么?几乎全部是游戏。但你实际上想找的是发生在河南省辉县的一些周朝传奇故事。北极光的努力最后变成了集群技术(Advanced Documents Clustering Technology或叫自动分类技术)。目前代表性的网站有发布于2000年6月的Vivisimo.com。

    在中国,第二代搜索市场完全是一个不设防的领域。得到国家资助的天网搜索(http://e.pku.edu.cn)由北京大学网络实验室开发,1997年10月29日开始提供搜索服务。但由于体制的原因,天网搜索整整花了六年时间才走出实验室,蹒跚着面对搜索巨人中文Google。

    在资金和技术上有实力对抗中文Google的百度和慧聪,仅在第二代搜索市场短短停留便匆匆转型为第三代搜索。

    书签搜索作为第2.5代搜索登上历史舞台具有必然性。

    你打开浏览器上网,去得最多的地方是哪里?你可能回答新浪,或是搜狐,或是中文Google,或是百度。——都错了。你去得最多的地方是你自己的收藏夹。

    这就是书签搜索存在的生命源动力。

    每个人的背景、爱好、追求都不一样,这就决定了收藏夹一定是千差万别的。但是,能够进入个人收藏夹的网站,一般会具备两条共性:一是反映了大多数人的普遍兴趣,二是在某一领域做得最好。

    书签搜索实际上是一个公共收藏夹。书签搜索网站,如新浪精品(http://dir.sina.com.cn/jinpin/index.htm )、百度网站(http://site.baidu.com )和阿酷网址(www.arkoo.com ),在分析用户爱好和网站现状的基础上,给上网冲浪的人提供了另一种搜索乐趣——最快捷、最直观地抵达目的地。

    新浪和百度提供书签搜索服务,折射出大网站体贴人的商业敏锐。专业书签搜索网站阿酷(www.arkoo.com)在网络里占有一席之地,反映了书签搜索的成长历史。阿酷孕育于个人的收藏夹,后来收藏夹装不下越来越多的一流网站,便分门别类写进了随身携带的小本子。阿酷在朋友中因为善于推荐优秀网站而受到欢迎,最自然的结果是,阿酷本身成为了一个网站,一个可以分享的书签,一个公共收藏夹。

    不象分类搜索需要庞大的手工劳动,也不象索引搜索需要复杂的网络技术,书签搜索建筑在群体的上网实践和严谨的理性分析基础上。分类搜索和引擎搜索崇拜数量,而书签搜索追求质量。正是因为这个原因,Yahoo.com和Google.com可以在中文领域攻城掠地,Chiff.com和Startingpage.com却几乎没有几个中国人听说过。

    竞价搜索(PayPerClick,PPC)本质上属于索引搜索基本模式,看上去也很象传统的索引搜索,但内部却存在本质差别,所以竞价搜索应该划入第三代搜索,而不能看成是第二代搜索(传统的索引搜索)增加了新功能,也不能看成是第二代搜索的创新变种。

    竞价搜索其实是广告商和消费者(广告受众)之间的桥梁。消费者总是在寻找自己需要的产品或是服务,但提供某一类产品或是服务的厂商总有成千上万,要从这么多竞争者之中脱颖而出,显示在引擎搜索结果的第一页是一件异常困难的事情,更不要说出现在第一位。更麻烦的是,想了解电影一般信息的人,比要买某一部电影光盘的人要多得多,按照引擎搜索的算法,产品或是服务提供商网站,基本上就淹没在搜索结果的海洋里。竞价搜索解决了这个问题。它舍弃了一般信息,专注于产品和服务,并且按照广告商愿意出价的高低排列搜索结果。相对于用户导向的引擎搜索,竞价搜索是厂商导向的,所以也称为商务搜索。

    这就是竞价搜索和索引搜索的本质差别。数据库建立,竞价搜索由厂商提交,而索引搜索通过蜘蛛程序抓取;搜索结果排序,竞价搜索按厂商出价高低决定,而索引搜索则按相关度自动生成。

    竞价搜索和结果付费广告又是两个容易引起混乱的概念。它们的前缀形容词一致(PayPerClick,PPC或CostPerClick,CPC),而且竞价搜索也源于结果付费广告,但竞价搜索已经发展成为一种搜索模式,不再等同于结果付费广告。Google也采用结果付费的广告形式,也就是说广告主只有在有人点击时才向Google付费,但Google并不是竞价搜索网站。

    竞价搜索的定位决定了它不能成为综合搜索网站,不能成为网络用户的首选搜索网站,永远没有机会成为搜索的代名词。但因为竞价搜索的专注,因为它体贴地服务于那些有钱人,竞价搜索网站在经济收入上并不一定会输给索引搜索网站。到目前为止,Overture的销售收入远远高于Google,如Bancorp Piper Jaffray估测,2003年,Overture收入7亿美元,而Google收入3亿美元。这个令人兴奋的消息吸引了大量的参与者,据不完全统计,英文世界现有591家竞价搜索网站。

    竞价搜索在搜索活动的弱势地位迫使它大量发展合作代理商,而不是积极推销自己的首页。门户,甚至个人网页成为它的合作伙伴(Partner)或代理商(Affiliate),显示竞价搜索结果,分享广告利润。

    标准的竞价搜索首页和标准的索引搜索首页,设计上、风格上迥然不同。标准的索引搜索首页突出的是搜索框,而标准的竞价搜索首页突出的是广告商、合作方以及管理账号,搜索框反而下降到一个不太显眼的位置。

    竞价搜索的先驱和代表是成立于1997年9月的GoTo.com。总部位于美国加州的GoTo.com于1998年6月开始提供竞价搜索服务,拥有十万个活跃的付费广告商和一个包括雅虎、微软、Infospace、CNN在内的代理商网络。GoTo.com后来改名为Overture.com,2003年10月7日被雅虎收购。

    2000年1月,李彦宏和徐勇从美国回北京创立百度网络技术有限公司(www.baidu.com );2002年8月,以商情服务起家的慧聪公司进军搜索领域(www.zhongsou.com )——民族工业的队伍里,如果这个词还能用的话,从此有了民族搜索。

    按搜索服务的对象分,搜索可以分为公共搜索(Search)和后台搜索(Search Provider)。公共搜索直接面对你我这样普通的搜索用户,而后台搜索则服务于公共搜索网站,向他们提供技术和搜索结果。Power成了一个将情形变得复杂的词。后台搜索往往挤到了前台,而公共搜索完全有可能开发自己的技术和数据库。Google是一个典型的公共搜索网站,但2002年10月开始,它也向雅虎提供搜索结果。2004年2月18日,雅虎终止了Google的服务,不过出乎业界和观察家的意料,它没有起用已经收购的Inktomi索引搜索,而是开发了自己的索引搜索Slurp。

    百度和慧聪以后台搜索的身份进入搜索领域,先后分别向新浪、搜狐、网易、263等门户网站提供搜索结果服务。我们在这些门户网站进行搜索,看到的结果其实是百度和慧聪提供的,——某一时期也许是台湾索引搜索Openfind.com.tw的数据。

    进入搜索领域初期,百度和慧聪都是第二代技术。但他们很快转型为第三代,百度的时间点是2001年10月,慧聪的时间点是2003年4月。——一个有趣的现象是,百度和慧聪都在第二代和第三代之间去意徘徊。这个看似不经意的商业模式选择,其实绑缚着沉重的文化积淀。这个问题将在后面进行剖析。

    尽管百度和慧聪在商业上十分成功,但他们并不是一家成功的搜索企业。这个沉重的话题也将在后面讨论。

    搜狐的竞价广告(http://cpc.sohu.com)完全具备了竞价搜索的雏形,但他们狭隘地理解了自己的杰出产品,没有能够向前推进一步。以搜狐的实力,这一步应该很容易迈出。届时,竞价搜索鹿死谁手,第三代搜索谁领风骚,都还是一个未知数。

    Overture.com声称自己拥有十万个活跃的付费广告商和一个包括雅虎、微软、Infospace、CNN在内的代理商网络。不管是哪家搜索企业,如果它有底气做出类似的声称,而不是声称自己拥有几亿网页的索引和一些花哨的技术,它就是中国第三代搜索的代表。

    第3.5代搜索是一个突破常规思维的范例。分类搜索、索引搜索追求数量,书签搜索则反其道而行之,追求质量。似乎已经很全面了,但另一些人不这么认为。他觉得数百万个网站,数亿个网页仍不算多,于是 “多元搜索”(Meta Search Engine)诞生了。——多元搜索属于索引搜索基本模式。

    在孕育网页爬行者(www.webcrawler.com)的那所大学里,研究生艾里克.塞尔伯格(Eric Selburg)发现,索引搜索网站越来越多,让人糊涂的是,每个网站对同一个关键词给出的搜索结果却差别很多。于是他开发了“多元爬行”(www.metacrawler.com),负责将用户的搜索请求提交给当时几个著名的索引搜索网站,然后将不同的搜索结果同时反馈给搜索使用者。这是第一个多元搜索网站。

    目前比较优秀的多元搜索网站还有Dogpile.com、Ixquick.com、Zapmeta.com。

    以Hotbot.com、Queryster.com为代表的组合搜索(Multi-Search)表面上类似多元搜索,其实却有本质区别。索引搜索在整个网络抓取数据后,多元搜索在索引搜索里抓取网页,而组合搜索则是将几个索引搜索的数据简单地排列在一起。

    中国的多元搜索还没有充分发展,目前有阿酷搜索( www.arkoo.cn )初具多元搜索模样。一些贴有多元搜索标签的网站,如SoIQ.com、88seek.com,其实是组合搜索。

    似乎搜索领域的重大变革都在上个世纪完成了。1998年6月,第四代搜索ODP在美国发布。

    ODP是Open Directory Project的英文缩写,意思是“开放式分类搜索系统”。没有人给它贴上第四代的标签,几乎所有人都将它等同于分类搜索,归类在第一代搜索。其实,第四代和第一代之间的关系,有点类似共产主义与原始社会的关系。不管这种比拟是否恰当,ODP和分类搜索既有惊人的相似,也有本质的差异。——当然,ODP属于分类搜索基本模式。

    ODP的代表性网站是美国网景(www.netscape.com) 管理的Dmoz.org。

    ODP的诞生有点象一个堂.吉诃德喜剧。美国加州一位普通的计算机程序师,里奇.斯格仁塔(Rich Skrenta),因为不满意雅虎搜索(www.yahoo.com ),决心挑战这个商业上的巨无霸。看上去象是鸡蛋碰石头,或是螳臂当车,因为雅虎当时仅编辑队伍就有一百多人,更不要提它雄厚的资金实力。

    但里奇.斯格仁塔成功了。他的力量来自于人民。ODP是开放资源运动的一部分,信念就是开放、共建、共享。里奇.斯格仁塔将这个网站命名为Gnuhoo.com,从名称到框架都和Yahoo.com较劲的一个分类目录搜索体系,但由自愿者编辑,供所有的人免费使用。

    Gnuhoo.com于1998年6月5日问世,13天后,拥有了200名编辑,数据库达到2000类共27000个网站。7月2日,Gnuhoo.com改名为Newhoo.com,7月10日,Newhoo.com即拥有1200名编辑,数据库达到4200类共40000个网站。仅仅5周的时间,便取得了雅虎难以望其项背的成就。

    五个月后,网景收购了Newhoo.com,正式将系统命名为ODP,并将网站改名为Dmoz.org。到今天,Dmoz.org拥有6万多名编辑,数据库达到59万类共计4百多万个网站。Google、美国在线(www.aol.com)、网景搜索、Lycos.com、 Hotbot.com 、Directhit.com等数百家网站都在使用ODP的数据库。

    ODP从一个简单的想法开始,通过个人的力量,取得了如此巨大的成功,主要原因是,ODP真正体现了互联网精神,顺应了互联网的基本规律。网络里每天都在产生无数个网站,发布无数条信息,不管多有实力的公司,它有限的编辑队伍根本没有能力赶上这种爆炸式的增长。而蜘蛛程序抓取的网页永远是机器一样的冰冷。ODP适应了网络的需要,适应了信息消费者的需要,也适应了信息生产者的需要。所以,ODP成功了。

    于是,ODP成为了互联网历史上一块耀眼的里程碑,成为了互联网精神的象征。

    网易(www.163.com)为中国的ODP事业做出了卓越贡献,因为是它第一个将ODP这个概念介绍给了中国网络界。但是,网易并没有传播ODP的精神。直到现在,网易的ODP仅仅为网易的一个频道服务。

    让我们期待ODP在中国的诞生吧。

    会不会产生第五代搜索?

    我有一个幻想,第五代搜索应该是OIP,Open Index Project,开放式索引搜索系统。
在搜索领域新一轮的竞争中,第二代搜索遥遥领先。作为分类搜索象征的雅虎2004年2月18日采取重大行动,雄心勃勃地对Google反攻。但是,这一天并不意味着第一代搜索的东山再起,而恰恰标志着它的没落。雅虎反攻Google,凭借的是Slurp,一个新的蜘蛛程序。即使Google被击败,按照中国武侠界的规矩,它也不算丢面子,因为是败在本门功夫下。雅虎已经放弃了分类搜索,决心做索引搜索的盟主。它声称它已经索引了60亿网页,而Google只有42亿,它还声称它的全文检索达到500K,而Google 只有101K。

    搜索市场的前景是迷惘的,谁也难以预料胜利者和失败者,但又是明朗的,因为搜索王国的统治者一定会是索引搜索。

    索引搜索并不搜索整个互联网,而是搜索预先存储的网页索引数据库。不管是60亿,还是42亿,这些资源属于某几家巨头,我们进入所谓开放的网络,实际上完全依赖这些巨头。他们规定了我们可以获取哪些信息,而且还规定了我们取得这些信息的方式。这是信息的中央集权。

    能不能有一种技术,让我们真正搜索整个网络,而不是搜索网络独裁者的数据库?如果有这一天,信息就能回归到发散式分布,回归到平民手中,而整个网络将沐浴在互联网开放、共建、共享的阳光中。
评价一下你浏览此帖子的感受

精彩

感动

搞笑

开心

愤怒

无聊

灌水
free 离线
级别: 班长
显示用户信息 
沙发  发表于: 2004-05-21   
卡同志贴的东西, 总有文献的味道. 好, 谢了.
描述
快速回复

验证问题:
3 * 6 = ? 正确答案:18
按"Ctrl+Enter"直接提交