Google最巨,雅虎次之:全球网页超过115亿

多年以来,不管是业界专家还是普通用户都对互联网络的规模抱有浓厚的兴趣,不断得出各种猜测数据。现在,一份最新的研究论文显示,截至2005年1月份,全球网页数量达到115亿或者更多。

  这份研究论文由来自意大利比萨大学(Università di Pisa)的Antonio Gulli(现任ASK Jeeves 搜索引擎公司高级产品经理)和爱荷华州立大学的Alessio Signorinialso共同完成。他们在该论文中对网络资源被各家搜索引擎所占有的比例进行了估计。具体数据如下表所示:

Google宣称拥有81亿网页,是最大的搜索引擎数据库。从上表可以看出,该论文的估计结果也显示Google的自我报告比较符合事实,MSN和ASK Jeeves也过高吹嘘自己的实力。

  此外,上表中雅虎的自我报告采用的是2004年的数据,当时该公司宣称其搜索能力可与Google相媲美。虽然雅虎没有正式宣布目前的数据库规模,但该论文的调查还是暴露出雅虎搜索引擎的真实问题。

  互联网上还存在大量受限资源。该论文中的数字均是针对“可视”网络估计所得,也就是网页搜索引擎可容易索引到的那部分资源。除了这些可视资源,还有大量“隐藏网络”或“深层网络”,也就是被锁定在数据库或受到其他系统限制进入,搜索引擎无法获得那部分 网络资源。据之前的调查显示,这部分深层网络可能达到5亿网页。

  另外,虽然该研究基于标准URL,但仍然可能有镜像网页或复制网页被计算在内。因此,虽然最终结果显示为全部网络规模为115亿网页,但独立网页的数量可能要低于该数字。

  最后,数据库规模不能替代搜索结果相关度。搜索引擎拥有庞大的网页并不意味着用户能够在优先搜索结果中得到最恰当的网页。了解搜索引擎的网络覆盖率,仅作为考虑其搜索相关度的众多因素之一。

© 2024 Xiaoxiao’s Weblog. All Rights Reserved. 粤ICP备15088982号