收藏文章 楼主
内幕调查:出卖Alexa(二)
网友【血蜘蛛】 2005-01-25 03:30:15 分享在【时代发展的印记】版块    1    1
要想彻底搞清楚Alexa排名是否可信,必须从技术上对Alexa的全球网站流量监测进行全面的解剖,当然,Alexa从来没有公布自己的技术细节,记者决定“以彼之道,还施彼身”,既然Alexa声称其数据来源就是那个工具条,记者决定首先从破解工具条入手。

受记者委托,圈内著名的Web技术专家小林,用了近一个晚上的时间,对Alexa工具条及其向Alexa返回的数据进行了细致的分析,得出了很多宝贵的第一手资料。多年前对Alexa就做过研究的小林认为,最近的这次分析揭示了一些Alexa更隐秘的技术细节。

小林告诉记者,现在最新版本的Alexa工具条的运作机理与以往没有太大的改变,每当用户以装有Alexa工具条的IE浏览器打开新页面时,Alexa的一台服务器(data.alexa.com)都会收到加密的数据包,这个数据包中的核心信息就是十几个参数,这些参数包括当前网页地址、页面打开时间、用户端显示分辨率、Alexa工具条版本号、该用户是否为“亚马逊”的用户等,其中有一个重要的隐含参数,经小林分析,认为是Alexa为每个已安装的工具条自动生成的ID号码,这个号码应该是全球惟一的。Alexa可以通过这个ID对每个反馈数据包的发出者进行惟一标识,这是解决PV重复计算问题和防止同一用户多次刷新作弊的一个重要手段。

小林告诉记者,从目前研究的结果来看,任何一个汇编高手都可以很容易地掌握Alexa工具条返回的数据包中的秘密,如果这个人同时也是一个网络编程高手,那么要针对Alexa作弊就比较容易了。从记者后来对一位上海的Alexa作弊高手的采访来看,小林的分析完全正确。该作弊者正是一位资深的Web开发工程师,其采用的手段与小林的分析也基本吻合——编写一个Alexa工具条返回码生成器,批量产生Alexa能够辨识的代码串,然后用虚拟多用户的方式发回data.alexa.com,这样就可以欺骗Alexa的服务器,让它误以为这些数据是不同用户发来的(征得该作弊者本人同意,本专题在最后公开了记者与该作弊者的网上聊天实录)。

小林认为,这种以编程方式模拟多用户访问的作弊方式的实现,最重要的环节就在于对那个Alexa用来惟一标识用户身份的ID号的生成算法的破解,这需要对足够多的Alexa工具条进行嗅探,抓取其数据包进行定量的算法分析。但小林同时也指出,这些工作对于一个编程高手来说,确实不算什么,只是最终作弊的实现仍需要模拟一个足够快的ID号生成程序,这可能会比较困难,不过据小林估计,国内能做这些事情的人不在少数,只是互联网这个圈子里的高手们很少去做罢了。

从以上的技术分析来看,Alexa的服务器每天所做的工作就是不断接收全球用户传回的数据包,提取其中的那十几个参数并写入专门的数据库,然后在某个特定时间对当天收集到的这些数据进行分析计算,并以新的计算结果去更新当日的网站排名。据记者观察,这个数据库的分析结果至少会保存三年之久,因为在Alexa网站上对每个网站的Rank排名变化趋势图最多能提供三年来的数据变化。

在破解了工具条的DNA之后,记者还与一些朋友探讨了Alexa工具条在全球的分布情况。按照Alexa的说法,工具条是它惟一的信息获取来源,那么工具条在全球用户中的分布也就成了另一个可以影响Alexa排名的重要因素。如果工具条真的是Alexa数据的惟一来源,可以想象,当中国网民都没有安装Alexa工具条的时候,新浪Sohu.com这样的门户网站恐怕在Alexa排名中都见不到影子,可是今年下半年以来,新浪和Sohu.com就已经紧随Google排在全球第四和第五的位置了,这似乎说明了Alexa工具条已经在中国具备了较高的普及率,否则,新浪、Sohu.com以及紧随其后的占领了Alexa全球500强中近1/3份额的中国网站就都有作弊的嫌疑。

幸好记者的一位朋友曹政提供了令人欣慰的数据。作为网站流量分析专家,曹政在tong123.com 上为多达2000家国内各类网站提供长期的流量监测与统计分析服务。曹政的流量分析与Alexa的不同,Alexa不在被监测的网站上做任何事,而tong123.com对网站进行页面内嵌方式的第三方流量统计。受记者委托,曹政临时在其数据采样分析器里加入了对Alexa工具条的监测。经过一周的数据统计,曹政得出的结论是:访问tong123.com 系统监测的2000家网站的所有用户中,Alexa工具条的安装率在1.5%左右。

就在发稿前,曹政还给记者发来了对这一结果的补充说明,他认为,由于tong123的系统采用累计平均值的计算方法,Alexa工具条的实际安装比例应该比现在得到的数据更高,因为这个监测项刚加进去不久。

由于tong123.com的监测范围是2000家各类网站,基本上排除了由于监测对象较少可能造成的用户选择倾向性,其可信度比较高。即使以1.5%这个被低估的安装率来衡量Alexa在国内用户中的影响,也已经十分惊人了,若国内互联网用户以总数9000万计算,则其中安装了Alexa工具条的用户可能已超过130万。按照Alexa声称的1000万左右的工具条全球下载总量来看,中国网民对Alexa的热衷似乎显得更为突出,这或许也可以作为国内网站今年在Alexa排行榜中整体排名提高的一个解释。

既然工具条的分布会从很大程度上影响Alexa的监测结果,那么Alexa的排行榜就可能出现很大的地域相关性,如果确实如此,Alexa的权威性就真值得怀疑了。事情远没有这么简单,在Alexa网站上,记者看到全球网站前10万名排行榜的报价是499美元,显然,在大洋彼岸,还是有人认可Alexa的排名数据,甚至会花钱去买那个排行数据。
meiguo.com 发布人签名/座右铭·有时你看似是一件很吃亏的事,往往会变成非常有得的事。
·凡事都留有余地,因为人是人,不是神,不免有错处,可以原谅人的地方,就原谅人。
·好的时候不要看得太好,坏的时候不要看的太坏。
大家都在看
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

1   2005-01-25 03:30:15  回复

回复/评论:内幕调查:出卖Alexa(二)

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 川普政府终于听说了日本新首相【高市早苗】因为台海表态引发外交危机的事儿了?
  2. SpaceX在加速IPO计划,目标估值1.5万亿美元!
  3. 联邦政府启动“红色日落行动” 审查比特币矿机的供应链
  4. 美国医疗保险全攻略:华人必读指南
  5. 因为错误驱逐合法大学生,特朗普政府公开道歉!
  6. 外国人的入境中国手续简化,可以提前在网上填报入境卡了!
  7. 中美高层通话后… 川普总统计划明年访华,芯片管制也松口了!
  8. 顶级文凭可早获绿卡!H1B签证“全新加权”抽签制度生效
  9. ICE启动了在社交媒体的全天候监控项目
  10. 英伟达H200芯片的对华销售仍然在受美国的两重限制
  11. 美企的2026招聘计划“谨慎”了,AI影响显现!
  12. 马斯克“描绘三步”实现太空太阳能宏图
  13. 学习英语12年后,终于实现了“美国梦”!
  14. 五角大楼的机密报告:中国导弹可以击沉美军航母
  15. 美国仍然依赖纸质信件的真相剖析
  16. 美国在AI竞争中失利了?阿里千问模型在全球领先
  17. 多名移民法官在同时期被解雇,引发司法危机
  18. 感恩节餐桌的费用回落,零售商推出了低价套餐!
  19. 在特朗普访华之前,白宫向中国“递三份礼物”
  20. 2026年版的“公共负担”新规复活,华人家庭遭遇精准打击!
  21. 加州政府推出了“永久删除按钮”,强化个人隐私保护!
  22. 马斯克或将成为首位身价万亿美元的人类富翁
  23. 特朗普总统宣布“平安夜”和“节礼日”也放假
  24. 美国将西半球划为“特殊利益区” 引发全网对门罗主义的新解读
  25. 美国政府批准了对台3.3亿美元的军售
  26. 川普政府再次出奇招!拒绝所有胖子的移民申请?
  27. 美宝家庭关切:双国籍审查和户口注销真相
  28. 马杜罗夫妇在纽约法庭短暂出庭,被指为战俘
  29. 马斯克指控“美国慈善家”做空特斯拉,涉案逾百亿美元!
  30. 美国华人揭示的五大高收入职业
  31. 强制注销户口?传闻中国在加强双重国籍监管
  32. 德州少女在圣诞前夜失踪,全力搜寻中!
  33. 在海外漂泊12年后的真实感受
  34. 领着美国福利金,却常往母国汇款?美国财政部开始严查!
  35. 美国移民局(ICE)新提案打算限制福利使用,有记录者可能影响绿卡申请!
  36. 川普总统正式签属涉台法案,解放军示警!
头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(1) 分享
分享
取消