林海谐缘

 找回密码
 审核注册
搜索
查看: 1699|回复: 0

Google技术原理存弊端面临七大问题

[复制链接]
发表于 2006-5-13 15:07:51 | 显示全部楼层 |阅读模式
·Google技术原理存弊端 面临七大问题(1)
  毫无疑问,作为搜索引擎的巨头,Google在行业的影响力是勿庸置疑的,然而在中文数字世界里,Google却与中国人的传统思维明显不同,因为它毕竟是外来的搜索引擎,而且是来自于一个热衷于发展技术的剧烈膨胀的公司,所以Google在中国正越来越多地暴露了它水土不服的问题。

  Google技术原理的弊端

  Google区别于其他搜索引擎的一大特点就是其独特的排名算法,Google采用的算法与众不同,并因此拥有专利。其简单的依据就是如果一个网站很有价值,那么其他网站会纷纷和这个网站做链接。Google以此为基础完善了他的搜索排名方法。而此算法也有个名字叫“Page Rank”。 不可否认这种算法很大程度上体现了各网站的重要性,但同时也带来网络欺骗的问题。

  为了追求排名、为了在Google上得到第一或者首页的显示,最好的办法就是增加链接,互相之间交换链接或者设置链接上的欺骗。Google虽然采用了很多方法去保护其算法,以便使其能够准确地反映出网站的价值。但是这样就陷入了一个恶性循环,网站的制作者为了追求较高的知名度,其价值的追求可能会发生偏离,也就是说他们会将网站的重心放在增加链接上,而不再是网站的内容、生动感和独创性。换句话说,一个内容优秀却无太多链接的网站将很难被Google发现。至今,仍未见到Google在这方面提出有效的解决办法或思路。

  不仅如此,Google在搜索工具方面也存在着严重隐患。2005年8月计算机世界网一篇题为《Google搜索工具存在严重隐患 成为黑客帮凶》的文章指出:没有安全保护的Web界面可以使黑客控制大量的家用电子产品,包括家庭网络、PBX企业电话系统、路由器、Web摄像机以及网站等。上述所有的产品都可以通过Google进行渗透。通过整合Google查询信息和文本处理工具,黑客可以获得SQL口令,甚至是SQL的错误信息。黑客然后就可以发动所谓的SQL注入式攻击,这种攻击活动可以在SQL数据库上运行未授权的命令。而且近年来不断有黑客程序利用Google制造病毒威胁互联网的安全。2004年国外流行一种能够攻击BBS的新蠕虫,称号为Santy,它利用了phpBB程序的漏洞,可以通过Google搜索鉴别出潜在的攻击目标。蠕虫Santy先向Google发送一个搜索请求,以获得含有漏洞的网站地址。接着,Santy借助这份网站地址列表,发送一个PHP请求来利用网站phpBB软件的漏洞,就能疯狂传播。截至2004年,将近40000网站已被Santy感染。在2005年,寻找免费“星球大战”游戏的用户可能会发现他们安装了一种新的蠕虫病毒,使得他们可能得到虚假的Google搜索结果。名为P2Load.A的这一蠕虫在Shareaza、Imesh等P2P网络上传播,当蠕虫安装后,它就会修改计算机浏览器的设置,任何企图访问Google搜索引擎的用户会看到一个与Google外观相似的网页,该网页实际上被托管在德国的一台服务器上。即使在输入Google的网址是出现了拼写错误,用户也会被引导到虚假的网站上。

  从2005年3月开始,Google开始大规模清理所谓中文作弊网站,两个月内,波及上千家中文网站。Google出于维护用户利益的考虑对中文网页内容进行重新评估,这对中国网民来说似乎是好事,因为作弊网站带给用户的往往是较差的体验。然而很多优秀的中文网站却也因此受到无辜的牵连。

如果Google针对中文网站的封杀作弊行动是在一种可预期的有序机制下进行,用户或许还能接受,但是在这次大规模清理中,Google采取的这种过于武断的处理方式开始令用户失去对它的信任。

  最近关于“宝马”被Google封杀的新闻被炒得沸沸扬扬,Google的一位发言人表示:“我们不能容忍企图操纵搜索结果的网站,因为我们的目标是向用户提供相关的客观搜索结果。”这虽然符合Google一贯坚持的“不作恶”原则,但在Google按照自己内部法则惩处违规者时,一个更为重要的问题也出来了:谁来监管Google?换句话说,当Google利用强大的技术能力成为信息的集权者,那么又由谁来监督Google,使其真正能坚守“不作恶”原则呢?迄今为止,无论是国际还是国内,这个问题都没有相关的商业行规或法律法规来解答。用户使用Google,规则由Google自己说了算,而所谓的“监管裁决”者同样也是Google自己,如此一来,所谓的公正也就无从谈起。

  Google新技术的隐忧

  Google作为搜索巨头有着巨大的技术优势。Google的创新不是一次两次,而是源源不断的。确切的说,是Google成功地建立起了一个创新的体制,才会有这么多不断的创新产生。Google允许员工自由支配20%的工作时间,研究自己感兴趣的项目,很显然这种机制极大地刺激了技术的创新,但从近年Google所推出的新产品的市场反馈来看,Google在其新产品的推广上显得有些过于草率。

  Google于今年2月9日发布一款名为Google Desktop 3的产品,其中包括一项可以让用户跨多台计算机搜索文件的可选项功能。为了做到这一点,这一应用软件将会自动地将文件的拷贝在Google公司服务器上存储长达一个月。文件的拷贝可以从Google公司服务器上传输到用户的其他计算机上作为存档。据Gartner公司的一份报告称,数据在企业外部传输对于许多企业而言都是一种不可接受的安全漏洞,这是因为作为企业的知识产权可能会被泄露出去。对此,Google公司也表示承认。

  同样的问题也出现在Gmail上,Google在推出Gmail电子邮件服务不久就被发现格式不恰当的电子邮件地址能够让Gmail用户获得Google服务器处理的HTML格式的电子邮件内容。这个结果将破坏Gmail通信的隐私,黑客很容易获得用户的电子邮件内容和电子邮件地址等信息。尽管随后Google承认了这个问题,并表示这个问题已经修复,但由此暴露的问题却不得不令人担忧。

  另外,Google推出的“Google地球”自推出以后就备受争议,一方面,它可以为广大用户提供便捷的服务,让用户无论身在何处,都可以借助卫星成像轻松找到住所和企业的所在位置,查看自己的出行路线;但另一方面,该服务也将许多国家的政府大楼、军事设施以及一些敏感地点曝光出来,很容易被恐怖分子利用,所以引起了许多国家的担忧和警惕。人们担心这样会导致自己的隐私权受到侵犯,而更害怕这些详细的地理信息可能被恐怖组织利用,进而再发动类似“9·11”事件的恐怖攻击。Google地球服务引起了许多国家的担心,除了以色列,印度、韩国、泰国和俄罗斯等国也相继对Google地球服务发出警告,理由是担心这一服务会泄露国家机密。

  随着Google中国开始在大陆推广,包括上述产品在内的服务不断的“中国化”,种种争议和安全问题也必将带入中国。

  Google意识形态水土不服

  Google进入中国市场,需要面临的不仅仅是中文搜索等技术问题,更需要研究的是中国的文化以及中国网民的上网习惯。Google之所以能迅速发展为英文搜索的巨头,除了其领先的技术优势,更得利于其符合西方用户的上网习惯。那么Google是否符合中国的需求呢?

  简单列举两个事件:

  其一,2005年,由于有人使用了“Google炸弹(googlebombing)”技术恶作剧,结果使得在Google搜索关键词“失败”时会出现美国总统布什的简介,如果用户在Google输入“failure(失败)”一词进行搜索,就会发现白宫网站的布什简历出现在搜索结果的第一位。Google公司表示,虽然Google一贯打击Google炸弹的使用,但是该公司并不打算取消这些链接以改变搜索结果。

  其二,美国政府今年1月份要求联邦法庭责令Google开放其数据库内的大范围数据。美国政府认为需要Google的数据来确定色情网站在网络搜索引擎中出现的频率,以复兴两年前美国最高法院曾发起一项Internet儿童保护法案,即惩罚那些允许儿童访问的色情网站。但Google拒绝接受传讯,也拒绝提供政府要求的100万随机Web地址以及任何一周内所有Google搜索记录。Google在法庭文件中称公开数据将侵犯用户隐私权并泄露公司的商业秘密。

  Google目前的搜索模式仅仅只是将互联网上的各种信息搜集并直接呈现给用户,在这个过程中,Google并没有对这些相关信息进行必要的审核。

  然而截至去年年底,我国已有70多万个网站,约有1.1亿网民在网上获得信息,但网上也出现了一些有害的甚至违法的内容,其中有些内容危害了青少年的健康成长。中国政府也依法对互联网进行管理,尽可能限制那些违法、违背社会道德,尤其是对青少年有害的内容在网上传播。这样做是合情、合理和合法的。然而,在Google上键入某些关键词却可以很容易地搜到很多被严禁传播的包含色情内容和反动内容的网址和页面。Google以其复杂而全自动的搜索方法,排除了任何人为因素对搜索结果的影响,显然并不符合中国政府的要求。

·Google技术原理存弊端 面临七大问题(2)
  Google触及个人隐私

  由于Google庞大的信息量吸引了广大的用户群,由此也聚集了庞大的用户相关信息。Google的隐私资料收集行为也越来越受到人们的关注和担忧。Google-Watch曾于2005年刊登文章,警告用户小心Google对隐私资料获取的“阴险”与“强硬”,并列举了Google在用户隐私资料收集方面的九大“阴谋疑点”:

  1. Google的“老不死”cookie

  Google是第一个使用Cookie的搜索引擎供应商,其Cookie有效时间竟然直至2038年。Google的Cookie在用户的硬盘上留下独一的ID记录。

  2. Google记录所有能记录的资料

  Google将记录所有搜索引擎用户的Cookie ID、网址IP、登录时间与日期、搜索偏好以及浏览器类型。Google还会针对你的IP地址提供给你不同的地域性搜索结果。

  3. Google资料保护并不完善

  Google没有任何资料保存政策,很显然,他们可以自由读取搜集到的用户个人资料。

  4. Google不会透露资料的用途

  当纽约时报2002年在采访中就资料用途问题咨询Sergey Brin时,他拒绝对此发表评论。 

  5. Google雇佣“危险人物”

  Mutt Cutts——Google重要软件工程师,曾经为美国国家安全局工作。

  6. Google工具条是间谍软件

  Google的免费工具条能够记录用户浏览的所有页面,并且读取用户的所有Cookie,Google已经在其隐私政策中承认这一点。而且Google工具条每次更新都无声无息,并不询问用户是否需要更新。

  7. Google的页面缓存拷贝行为违法

  根据美国网络版权法,Google的页面缓存记录行为违法。 

  8. Google并不是你的朋友 

  目前Google占有75%站外链接份额,网站管理员不得不寻求Google的认可。如果网站管理员试图利用Google已知的搜索排名算法提高自己的排名,将受到Google的惩罚,其链接和流量将被Google中止。而Google目前并没有出台公开处罚标准和政策。 

  9. Google是个人隐私的定时炸弹

  每天有2亿用户使用Google搜索服务,其中大部分在美国本土以外,Google的隐私资料收集行为将成为个人数据的定时炸弹。连华盛顿新成立的安全局资料采集部门都梦想获得Google搜集资料的高效能力。

  事实上,Google也正在试图诱惑每一个人在互联网上完整记录自己的人生,包括交际、商业、生活、情感和思想。Google“搜人”并“记录人的生活”,把物理社会的个体、组织和交往行为映射到互联网上,通过数字化和虚拟化后据为己有,并最终改造成Google的资产。

  Google这个“庞然大物”让人期待又让人猜忌——Google是不是知道得太多了?甚至包括我看什么书;我在哪儿旅游;在哪儿冲浪;和谁通讯……。每个人都在猜疑,Google究竟会干什么?由于大量的个人信息集中在一起,Google正在成为互联网上最大的个人隐私隐患。尽管有调查显示,Google的信任度得分总是很高,然而,一些保护隐私的积极拥护者却对其颇为担心。Google会不会成为立法者滥施权力的对象?同样,犯罪分子会不会对Google下手?犯罪分子可以使用黑客手段,或者在一些公司员工的帮助下,盗取数据用于敲诈,或是偷盗他人的ID。

  Google面临纠纷困扰

  就像Google产品的安全问题层出不穷一样,Google所牵涉到的各种纠纷也从未间断过。

  仅2005年Google牵涉到的版权纠纷就让其应接不暇。法新社和美国娱乐网站Perfect10曾于2005年先后起诉Google“非法”显示其网站的文字和图片内容。目前,法新社起诉Google在新闻中使用了其版权文字和图片一案尚无定论。如果法新社和Perfect10胜诉,意味着Google不能在查询结果中显示其他网站的文字图片,这无异于宣布Google的死亡。

  Google在2004年12月份宣布了它的图书馆计划,但随后有着8000位著作者成员的一个组织将Google告上了法庭,称该公司“严重侵权”,因为这家搜索引擎巨头在没有得到许可的情况下把他们的享有版保护的书籍用于商业用途。 2006年新年伊始,Google Talk就被起诉,拥有目前大部分网络电话都使用到的技术的Rates Technology公司正对Google的基于网页的电话呼叫系统提出控告,并要求索赔50亿美元。

  除了版权方面的纠纷,Google还面临着广告欺诈的起诉。2005年6月,网络营销工具销售商Click Defense正式向美国加利福尼亚州圣何塞地方法院提起诉讼,指控Google没能有效地保护广告客户免受“点击欺骗”,从而使客户损失了至少500万美元。尽管Google表示其公司已经采取相应措施,防止点击欺骗的发生。但Click Defense认为,Google采取的措施还远远不够,无法有效的保护广告客户免受点击欺骗。

  而春节期间悄然上线的“google.cn”中国网站近日被指涉嫌违规经营。Google.cn事实上并没有取得在中国运营互联网信息服务所必须的ICP牌照,而按照我国现行政策的相关规定,外资在没有得到许可的前提下,并不允许经营包括ICP在内的电信业务。目前Google.cn和“赶集网”采用了同一张ICP证,即赶集网所持有的编号为“京ICP证050124号”的ICP证。Google.cn的做法明显不符合我国现行的关于外资网站申办ICP经营许可证的相关管理政策。目前此事已经引起信产部的关注,有关部门正在对这一问题进行调查。Google全球副总裁兼中国区总裁李开复就此专门出面解释,但只是表示“一直受到政府部门的指导”,却没能明确申明Google中国网站属于“合法”还是“违法”。信产部方面则表示“早就注意到这个问题”,并已上报有关领导,等待最后“说法”。

  Google遭遇中国本土搜索引擎公司的挑战

  根据市场调查公司艾瑞的统计数据,2004年,Yahoo、3721、一搜三家在搜索市场上的总市场份额为30.2%,略低于百度的33.1%,而Google只占了22.4%。2005年,百度占的份额仍是最高,达到46.5%。其次是Google的26.9%。不论Google在美国多么成功,但在中国却正逐渐被本土搜索引擎超越。

  首先,Google对于中文关键字的理解显然没有中国人自己理解得透彻。Google在英文搜索市场可能比较得心应手,但是在进行中文搜索时,结果往往把单词拆得太碎,以至于搜出来的东西都不是想搜的东西。

  其次,在中国Google面临着渠道的最大挑战。Google在美国是采取直销的模式,即广告主可以通过登陆Google的官方网站Google AdWords页面注册办理(需国际信用卡)。这个过程简单且十分方便,没有任何中间环节。但是,在中国却情况迥异。在中国,国内的搜索广告都是走渠道代理商。本土搜索引擎从几年前就开始建渠道,但是Google目前在国内的代理商只有三四家。

  再者,不仅是渠道,付费方式也是Google必须面对的一个问题。在中国信用卡并不普及,而且企业也不能通过信用卡付广告费。另外还有很多细节,例如中国的广告主并没有习惯自己上网去登搜索广告。这是需要引导的,需要有一定的人力、物力、财力等方面的投入。

  Google中文市场前景不被看好

  Google进入中国市场,更面临着技术和成本等方面的问题。

  首先,从技术角度来讲,中文搜索离不开中文分词。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。对于Google这样一个建立在英文搜索技术上的搜索引擎而言,其在中文分词技术上却不及国内的搜索引擎。

  比如,《功夫》公映之前很久,在百度上检索“功夫”就能直接指向周星驰的电影,可是Google搜索相同的“功夫”,则大失所望。因为这些时令性的关键词都需要专业团队去随时添加,由于Google缺乏专门针对中国市场的开发力量,尤其是对中国互联网信息检索存在的问题了解不透,所以,Google对于国内市场需求的反应速度很慢,本地化技术服务力量也跟不上,无法解决国内网民遇到的一些实际问题。

  根据清华大学IT可用性实验室2005中文搜索引擎质量对比的研究表明:本土搜索引擎在以网页搜索为代表的搜索引擎质量方面有较大突破。百度在总体指标上已超过Google成为第一。本土搜索引擎的技术优势突出表现在相关性、网页覆盖率、反作弊、中文分词等方面。在中文分词技术上,本土搜索引擎有明显优势。从服务功能对比看,海外搜索引擎对国内搜索需求变化不如本土搜索引擎敏感,服务功能不如本土搜索引擎丰富(如图3)。

  其次,从转化成本角度来讲,Google的服务是全球化的,各种语言的网页按一种固定或不固定的比例存放在美国服务器上。假设Google要检索4亿中文网页,而中文网页在其中占5%,那么Google总共就要检索80亿网页;百度基本只为中国网民服务,所以它只需要为这4亿中文网页提供假设1000台服务器,但为了实现同样的效果,Google则需要2万台服务器。

  另外,在相对区间的对比上,国内纯中文搜索引擎的网络推广应用远高于国外搜索引擎中文版。由于国外搜索引擎本地化程度不高,准确性差、查全率低、内容更新不及时、响应速度慢、不适合中文使用习惯、信息相关性不如英文搜索引擎,诸多难题严重制约了外国搜索引擎中文版的本地化推广。在国内搜索引擎市场上,中文搜索引擎占有绝对优势,搜索引擎的未来更将是本地化服务一统天下,而Google恰恰是在这方面做的很不好。严格地说,Google还没有真正实现本土化,Google中文的模式甚至没有任何技术优势。

  综上所述,尽管Google在英语语系的国家更有市场,但在中国,却是本土搜索引擎占了上风。(作者系中国出版科学研究所研究员人民邮电出版社副社长)
您需要登录后才可以回帖 登录 | 审核注册

本版积分规则

QQ|手机版|小黑屋|林海谐缘论坛 ( 豫ICP备07015145号 ) |
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论 | 管理员:linker(QQ:80555546) 群:3067918

GMT+8, 2024-11-21 22:14 , Processed in 0.027547 second(s), 14 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表