原标题:暗网是什么? 暗网到底是怎样的一张“网”?
暗网如其释义所说,通常是指网络上大部分内容是不能通过静态链接获取的,特别是大部分隐藏在搜索表单之后的页面只有通过用户键入一系列关键词才可以获得。形象的理解是,这些页面是目前搜索引擎所无法抓取的网页、不能检索到的信息,即“看不见”的网站,由于当前的搜索引擎不能索引到或不能在它们的返回结果中显示这些页面,因此对用户来说这部分页面是隐藏的。
来源
暗网HiddenWeb最初由Dr.JillEllsworth于1994年提出,指那些由普通搜索引擎难以发现其信息内容的Web页面。从信息量来讲,与现在能够索引的数据相比,“暗网”更是要庞大得多。根据BrightPlanet公司此前发布的一个名为《TheDeepWeb-SurfacingTheHiddenValue》白皮书中提供的数据,“暗网”包含100亿个不重复的表单,其包含的信息量是“非暗网”的40倍,有效高质内容总量至少是后者的1000倍到2000倍。更让人无所适从的是,BrightPlanet发现,无数网站越来越像孤立的系统,似乎没有打算与别的网站共享信息,如此一来,“暗网”已经成为互联网新信息增长的最大来源,也就是说,互联网正在变得“越来越暗”。
当然,所谓“暗网”,并不是真正的“不可见”,对于知道如何访问这些内容的人来说,它们无疑是可见的。2001年,ChristSherman、GaryPrice对HiddenWeb定义为:虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能或不作索引的那些文本页、文件或其它通常是高质量、权威的信息。根据最近对HiddenWeb的调查文献得到了如下有意义的发现:
(1)HiddenWeb大约有307,000个站点,450,000个后台数据库和1,258,000个查询接口。它仍在迅速增长,从2000年到2004年,它增长了3~7倍。
(2)HiddenWeb内容分布于多种不同的主题领域,电子商务是主要的驱动力量,但非商业领域相对占更大比重。
(3)当今的爬虫并非完全爬行不到HiddenWeb后台数据库内,一些主要的搜索引擎已经覆盖HiddenWeb大约三分之一的内容。然而,在覆盖率上当前搜索引擎存在技术上的本质缺陷。
(4)HiddenWeb中的后台数据库大多是结构化的,其中结构化的是非结构化的3.4倍之多。
(5)虽然一些HiddenWeb目录服务已经开始索引Web数据库,但是它们的覆盖率比较小,仅为0.2%~15.6%。
(6)Web数据库往往位于站点浅层,多达94%的Web数据库可以在站点前3层发现。
暗网分类
一般情况下暗网可以根据其产生原因分为两种:
一种是技术的原因,很多网站本身不规范、或者说互联网本身缺少统一规则,导致了搜索引擎的爬虫无法识别这些网站内容并抓取,这不是搜索引擎自身就能解决的问题,而是有赖整个网络结构的规范化,百度的“阿拉丁计划”、谷歌的“云计算”就是要从根本解决这一问题。
另一个原因则是很多网站根本就不愿意被搜索引擎抓取,比如考虑到版权保护内容、个人隐私内容等等,很多网站都在屏蔽百度、比如最近最大的视频分享网站优酷也宣布屏蔽百度一样,这更不是搜索引擎能解决的问题了。如果他们能被搜索引擎抓取到,就属于违法了。