首页

搜狗搜索引擎_搜索引擎调查报告探测大众心中的秘密隐私

调查报告 |

时间:

2012-02-16

|

【www.stokuaidi.com--调查报告】

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com月初,珍妮·杰克逊(janetjackson)因为走光事件上升为yahoo搜索的人气冠军,其搜索请求达到总数的20%,创下了yahoo搜索关键词的历史最高记录。这一数字是艳星parishilton曾经所创记录的60倍,是歌星小甜甜布莱妮的80倍。

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com互联网上的搜索引擎已经成为反映大众趣味和关注焦点的最好工具,

爱思范文网http://fanwen.is97.com也许比任何其他调查统计都更为真实。

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com高频词与社会热点

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com纵观历史,热门词汇反映了短期内大众关注的焦点,长期来看可以连缀出世事的发展脉络。美国康奈尔大学的研究人员jonkleinberg曾经做过一项调查,通过统计1790年后每年的美国国情咨文的用词,发现了不同历史时期的热门词汇。例如美国独立战争期间出现频率最高的是“民兵”和“英军”;而在1947年到1959年这段时间内,“原子弹”则被反复地提起。

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com如今,搜索引擎声称自己知道大众心中的秘密。搜索引擎不只是被动地答疑解惑;事实上,各大搜索引擎提供了包罗万象的统计数据,这些结果也许十分有趣。keinberg认为:虽然计算机并不懂历史,但是可以通过统计blog(网页访问记录)、e-mail和网页中的文本“学习”到相关的背景知识,从而更好地理解搜索请求的含义。此外,这些统计数据还可以帮助社会学者和营销人员发现某些正在显露出的大众趋势,为他们的研究或者经营提供参考信息。

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com在国内,搜索引擎甚至借助这种反映大众趋向的能力,向更广的商业领域主动出击。2004年2月12日,百度搜索和光线传媒共同发布了“2003年全球华人明星人气榜”。热门词汇周杰伦、《无间道》、《天龙八部》、代言人、绯闻和黑幕等榜上有名。在此之前的1月8日,百度搜索还与胡润联手发布了“2003中国大陆百富人气榜”。

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com但是,搜索引擎有时也会不知所措。比如尝试使用google搜索哈姆雷特的名言“tobeornottobe”,会发现google竟然答非所问,罗列在页面上的是gnu’snotunix官方网站、hotornot交友网站……就是不见莎士比亚的影子。这个经典的例子引出了搜索技术的一个术语—停止词(stopword)。

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com顾名思义,计算机的一切能力都是以计算为基础,即使阅读也不例外。搜索引擎浏览分布在各个角落的网页的同时,还在后台不停地统计词语的出现频率。有一些词语出现率极高,带来巨大的统计成本,却不包含太多的具体意义,比如汉语的“的、是、了”和英文单词“the、and”之流。如果要得出包含该词的全部结果,实在是过多了。例如遇到哈姆雷特名言中的那些高频词汇,经常导致搜索“引擎”突然熄火,因此这些单词得名“停止词”。在google“阅读”哈姆雷特的名言时,遇到了四个停止词,出于无奈,所以它只好对频率最低的“not”进行搜索,得到了一些有关“not”的流行网站。

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com如果将此名言括上引号,google便会突然开窍,顺利地寻找到相关的网站。这一功能被称作短语搜索(phrasesearch)。不过,比google更智能的是alltheweb,它已将这句名言列入搜索目录,在结果页面中直接提供了相关链接。

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com搜索如何实现

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com“已向英特网搜索geraldsalton。共有5,430项查询结果,这是第1~10项。搜索用时0.06秒。”0.06秒,体现着以google为代表的搜索引擎的快捷和高效。这一切,又是如何实现的呢?

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com通常情况下,一间机房只能摆放10台服务器,但是google的机房内可以容纳80台服务器,因为它们都是拆掉了机壳和部分零件的裸机。larrypage和sergeybrin他们将机器的外壳拆掉,再卸下没用的芯片和零件使整机体积缩小,而且容易维护,当然也节省了租用机房的花销。google使用了超过一万台的服务器,并将其分散到五个不同地区的机房内,用以应付浩如烟海的网络信息。

爱思范文网http://fanwen.is97.com

爱思范文网http://fanwen.is97.com为了对每一次搜索请求做出快速的反应,搜索引擎在前期下足了功夫。它们在后台不停地重复三步操作。第一步,搜索引擎会不断的利用爬虫(crawler)程序搜集互联网上所有可达的网页,无论是公开的还是隐藏的—只要曾被访问过,就会招致“爬虫”上身。这样,定期外出的“爬虫”就为搜索引擎囤积起一个海量数据库。由于“爬虫”外出遵循一定的周期,有时可能跟不上网页更新的速度,所以google的“网页快照”会出现与目标页面不尽相同的情况。第二步,另一个程序会统计出缓存网页(cachedpage)中各个字词出现的频率。第三步,根据词频概括出页面的中心思想和段落大意,再按照不同的关键词提炼出索引目录。用户的每一次搜索请求都是基于这些索引计算而得,因此响应异常迅速。

延伸阅读
报告使用范围很广。按照上级部署或工作计划,每完成一项任务,一般都要向上级写报告,反映工作中的基本情况、工作中取得的经验教训、存在的问题以及今后工作设想等,以取得上级领导部门的指导。以下是小编整理的工伤事故调查报告(合集四篇),欢迎阅读与收藏。
2025-04-10
论文是一个汉语词语,拼音是lùnwén,古典文学常见论文一词,谓交谈辞章或交流思想。当代,论文常用来指进行各个学术领域的研究和描述学术研究成果的文章,简称之为论文。以下是小编收集整理的调查报告格式模板范文(精选三篇),仅供参考,希望能够帮助到大家。
2025-04-10
报告使用范围很广。按照上级部署或工作计划,每完成一项任务,一般都要向上级写报告,反映工作中的基本情况、工作中取得的经验教训、存在的问题以及今后工作设想等,以取得上级领导部门的指导。以下是小编整理的社会实践调查报告六篇,欢迎阅读与收藏。
2025-04-10
火灾(huǒzāi)是指在时间或空间上失去控制的燃烧所造成的灾害。新的标准中,将火灾定义为在时间或空间上失去控制的燃烧。下面是小编为大家整理的火灾事故调查报告锦集三篇,欢迎大家借鉴与参考,希望对大家有所帮助。
2025-04-10
业余,汉语词语,读音为yèyú,指工作时间以外,本业之外;非专业的。出自《花城》。以下是为大家整理的家乡群众性业余文化活动调查报告三篇,欢迎品鉴!
2025-04-09
公共政策是指国家通过对资源的战略性运用,以协调经济社会活动及相互关系的一系列政策的总称。以下是小编为大家收集的运用公共政策基本原理和相关知识结合实际撰写一份调查报告或工作报告(锦集3篇),仅供参考,欢迎大家阅读。
2025-04-09
调查报告是反映对某个问题、某个事件或某方面情况调查研究所获得的成果的文章。它可以在报刊上发表,也可以供领导机关作为处理问题、制定政策的依据或参考。以下是小编整理的小城镇建设论文3000字 小城镇建设调查报告范文五篇,仅供参考,大家一起来看看吧。
2025-04-05
报告是一种公文格式,专指陈述调查本身或由调查得出的结论,反映工作中的基本情况、取得的经验教训、存在的问题以及今后工作设想等,使用范围很广,报告的风格与结构因各个机构的惯例而有所不同。以下是小编整理的家乡文化生活现状调查报告高中生精选4篇,仅供参考,希望能够帮助到大家。
2025-04-02
调查报告是对某一情况、某一事件“去粗取精、去伪存真、由此及彼、由表及里”的分析研究,揭示出本质,寻找出规律,总结出经验,最后以书面形式陈述出来。以下是为大家整理的家乡文化生活调查报告高一范文(精选三篇),欢迎品鉴!
2024-10-17
报告使用范围很广。按照上级部署或工作计划,每完成一项任务,一般都要向上级写报告,反映工作中的基本情况、工作中取得的经验教训、存在的问题以及今后工作设想等,以取得上级领导部门的指导。以下是小编整理的大学生就业调查报告300字(锦集4篇),仅供参考,大家一起来看看吧。
2024-10-02
  • 推荐访问

Warning: Invalid argument supplied for foreach() in /www/wwwroot/stokuaidi.com/www/caches/caches_template/default_lx/content/show.php on line 278