南京股票配资-中国互联网内容真的在衰落吗?
栏目:金源最新资讯 发布时间:2024-08-11
普通人切身感到的互联网信息的衰退,有时候未必是信息不存在了,而是我们搜不到了。

图片来源:

‍‍“全球前100万个网站中,中文网站仅占1.3%哈尔滨股票配资,英文网站则占59.3%”;

“中文网页数量仅略高于印尼语和越南语”;

“十年间中国网页数量下降七成”……

这种关于中国互联网内容占比低、下滑迅速的说法,在互联网上流行已久。中国有十多亿网民,却连互联网内容的角落都占不住,甚至还在继续下滑。这种反差感,不能不让人印象深刻。这是真的吗?

有缺陷的数据

这些说法的数据都来自同一个来源,一个监测网站,通过分析1000万个访问量最大的网站来确定互联网内容的语言分布。许多关于互联网语言多样性的讨论都是基于这些数据。根据数据显示,英语内容一直是​​互联网的主流。

不过,法国学者丹尼尔·皮米恩塔及其合作者不同意这种观点。皮米恩塔是法国互联网与发展基金会创始人之一,他与合作者一直致力于研究互联网语言的多样性和文化分布,联合国教科文组织曾委托他撰写互联网语言多样性专题报告[1]。

有趣的是,皮米恩塔之所以涉足互联网语言多样性研究,是因为法国人高估了互联网上英语内容的比例。1995年,时任法国总统希拉克在一次峰会上表示,互联网几乎是一个100%英语的世界。但在皮米恩塔看来,这样的说法经不起检验[2]。

当时其他流行的说法也不可靠,比如 1999 年的一项研究声称英语内容占互联网的 80%。但这项研究只对 3,000 个网站进行了一次抽样,没有多次重复数据以获取特征,这在统计上是不可接受的。不过四川股票配资,这些数据当时被反复引用[3]。

关于网络语言多样性的数据一直很不完善。1998 年,研究人员首次使用基于搜索引擎的数据方法来研究网络语言多样性。但到了 2007 年,他们发现搜索引擎报告的可靠性下降,不得不寻找新的方法。自 2011 年以来,讨论网络语言分布的政策制定者和语言学研究人员不得不完全依赖和,这两个数据来源都是来自商业营销领域。使用他们的数据是无奈之举。

该方法存在显著缺陷,尤其是忽略了互联网的多语言特性。例如,很多网站同时使用多种语言,但通常只记录其中一种主要语言,导致非主要语言内容被严重低估。这样的统计方法导致大大​​低估了除英语之外的其他互联网语言的存在。

另外,计量单位是网站,而不是页面。一些非英语网站可能在首页上有英文摘要或几个英文单词,这可能会导致整个网站被算作英文网站。此外,许多英文网站还有其他语言版本,不被计算在内。

互联网内容中中文占比是多少?

为了纠正这种误解,皮米恩塔和他的同事开发了一种新的统计方法。他们的方法不仅依赖于网站声明的语言石家庄股票配资,还结合了多个关键因素,包括互联网用户的语言偏好、不同地区的网络流量、社交网络的订阅量以及各国互联网服务的发展进度。这种综合考虑使研究结果更具代表性和准确性。

尽管等网站数据显示,英文内容占据互联网的50%以上,但这项研究显示,这一比例实际上仅为20%左右。

具体来说,英语现在占互联网内容的20.4%,中文占18.9%,西班牙语占7%至9%,其他语言如阿拉伯语、印地语、俄语、法语和葡萄牙语分别占3%至4%。相比之下,本次研究中印地语和中文内容的占比增长了10倍以上。按照本次研究的计算标准,中文内容不仅没有减少,而且在全球范围内持续增长。

英文内容的比例其实是下降的,从1998年到现在,英文内容的比例从80%下降到了20%。不过,这并不是英文内容消失了,而是因为其他语言的内容大幅增加,削弱了英文内容的相对比例,而中文内容则在上升[4]。

皮米恩塔及其同事认为,互联网的发展可以分为几个主要阶段。最初,从 1992 年到 2000 年,网络主要围绕英语内容构建。随后进入第二阶段,从 2000 年到 2010 年,这一阶段的特点是欧洲语言的崛起,尽管英语仍占主导地位。从 2010 年到 2020 年,互联网进入更加国际化的阶段,亚洲语言和阿拉伯语等非西方语言迅速发展。

很难说 的统计数据能够代表互联网上语言分布的真实情况,毕竟这方面的研究并不多,研究团队的成果缺乏交叉验证,其计算标准也处于迭代过程中。

论文还提到,互联网语言测量领域是两个偏差相当普遍的领域的交叉点:语言人口统计学和互联网。在这两个领域,数据并没有很好的共识。根据数据来源的不同,一些数字可能会有很大的差异,比如某个国家有多少人说这种语言,或者网页总数有多少。

但他的研究至少表明,过去普遍引用的数据是有失偏颇的,中文互联网内容的占比或许并不像越南语那么小,中文互联网内容的快速消亡也并非定局。

衰落的不仅仅是中国互联网内容

2005年,一个商学院的学生为学费发愁,想着怎么赚钱交学费。很快他就想出了一个主意,“百万美元主页”。这是一个一百万像素的广告页面,每个像素一美元,广告位以100像素为一组出售。一年后昆明股票配资,他真的成了百万富翁。

截至 2019 年,百万美元主页仍在运营,但广告位中 40% 的链接指向无效网站,广告位背后的许多网站已多次更改并指向全新的域名。百万美元主页不仅展示了一个经典的商业案例,也说明了早期互联网内容的衰落[5]。

对于互联网内容而言,这种衰落其实每天都在发生。今年 5 月,皮尤研究中心的一项新研究发现,截至 2023 年 10 月,2013 年至 2023 年期间曾经存在的所有网页中有四分之一已无法访问。2013 年的网页中有 38% 已经消失。即使是 2023 年的网页,到当年 10 月也有 8% 的网页无法访问。

该团队从互联网快照数据库Crawl的档案中随机收集了近100万个网页样本,从2013年到2023年每年对Crawl收集的页面进行抽样(每年约9万个页面),并检查这些页面是否仍然存在。

这项研究旨在调查互联网上有多少内容不再可访问。研究人员将无法访问的网站定义为主机服务器上不再存在的网站,常见的 404 错误及其变体。如果一些网页不再能从过去辨认出来,它们可能已经消失,但这并不是研究的重点。

具体而言,21% 的政府网站至少包含一个断开的链接。新闻网站页面的所有链接中有 5% 无法访问,所有抽样页面中有 23% 至少包含一个断开的链接。在网站流量排名前 20% 的新闻网站中,约有 25% 的页面至少包含一个断开的链接。在约三个月的观察期内,近五分之一的 帖子不再可见[6]。

在学术领域,许多数字论文已经从互联网上消失了。数字学术论文通常具有唯一且不变的DOI,以确保学术链接和引用的持久性,但现在许多DOI背后的作品已无法找到。

伦敦大学伯贝克学院文学、科技与出版研究员马丁·伊夫 ( Eve) 调查了 70 多万份带有 DOI 的数字学术论文,发现近 28% 的论文并未出现在主要数字档案馆中,这意味着超过 200 万篇学术论文未能保存下来[7]。

或许是因为互联网没有实体,保存互联网信息的成本难以直观看到,所以我们产生了互联网信息可以继续存在的错觉。事实上,互联网内容的存储一直是个难题,无论是成本还是工作量。互联网内容总是在增长,归档和存储都是需要花钱的。问题是谁来买单?

高质量信息更难找到

普通人有时切身感受到的网络信息的衰落,并不一定意味着这些信息不再存在,而是我们再也找不到它了。

问题出在搜索引擎上,如今搜索引擎在信息搜索上已经不再像以前那么可靠和准确,输入关键词得到答案的直观、清晰的交互体验正在减少,如今我们在搜索引擎输入关键词,得到的往往是内容同质化、信息重复、各种广告信息的软文。

2022 年,一位工程师发表了一篇题为《谷歌搜索正在消亡》的博客文章,指出谷歌的搜索结果一片混乱。如果你搜索菜谱、健康内容或产品评论,前几条非广告结果都是格式相同、内容重复的软文,正文中仍会出现大量广告和链接 [8]。

这是搜索引擎商业模式不可避免的问题,让内容占据搜索引擎首要位置就是一门叫搜索引擎优化(SEO)的生意。这门生意不同于竞价排名,是利用搜索引擎算法的漏洞,通过大量重复关键词、伪原创内容或者不相关的链接来提高网页排名。我们熟知的小编体就是这种针对搜索引擎,刷关键词骗点击的产物。

据市场研究公司 SEO 称,去年该业务价值 760 亿美元。搜索引擎优化已成为大多数在线营销的重要组成部分,知名网站通过产品链接佣金赚钱,其中一些甚至是骗局。[9]

为了保证内容的可靠性,现在很多用户在搜索词后面加上“”,以搜索论坛用户的真实观点。如果没有认真开发搜索功能,恐怕会有更多的用户转向它。

在今年欧洲信息检索大会( ,简称“ECI”)上,来自德国的四位研究人员发表了一篇题为《谷歌变坏了吗?》的研究,回应了网民对搜索引擎的质疑。这项研究的出发点是网民对搜索引擎质量下降的抱怨,结果显示网民的直觉是正确的。

研究团队花了一年时间监测、Bing和搜索结果的变化,发现所有搜索引擎在处理SEO内容方面都存在问题,远超全网平均水平。越靠前的内容,越优化,返利链接越多,链接越多,内容越不复杂。其中,联盟营销内容(为平台推广产品,获得点击或返利的内容)只占网络产品评论的一小部分,却主导着搜索结果。不仅是,所有搜索引擎都受到垃圾内容的困扰[10]。

搜索引擎运营商正试图通过排名算法更新来严厉打击SEO和联盟营销内容。从搜索结果来看,更新产生了明显但短暂的效果,联盟垃圾邮件的数量从实验开始到结束一直在减少。优质杂志和社交平台通常会在多次抓取中稳定地出现在搜索结果的顶部,而纯产品评论农场和一些频繁出现的垃圾邮件网站则相对短暂,经常在排名更新后消失。

雅虎前首席执行官、谷歌早期员工玛丽莎·梅耶尔 ( Mayer) 表示,如果谷歌搜索变得更糟,那是因为整个网络都变得更糟了。当她刚开始为谷歌工作时,互联网上只有 3000 万个网页,抓取和索引所有网页都比较容易。现在谷歌可能要面对数万亿个网页。在经济激励的驱动下,虚假信息、点击诱饵内容和广告链接正在不受监管的情况下迅速增长。[11]

随着人工智能技术的进步,互联网上此类垃圾信息越来越多。今年一家网络安全公司发布的“坏机器人”报告显示,去年所有互联网流量中近一半(49.6%)来自机器人,创2013年以来最高水平。尤其是坏机器人,现在已占到所有流量的三分之一。

应用程序安全总经理 Nanhi Singh 表示:“自动机器人很快将占据比人类更大的互联网流量比例……随着越来越多的人工智能工具的出现,机器人将变得无处不在。[12]”

随着互联网内容的不断扩大,谷歌只能玩打地鼠游戏来追捕隐藏在数十亿个网站中的骗子。前述论文的作者表示,这是一场长期的战斗,搜索引擎已经输掉了这场“与 SEO 垃圾邮件的猫捉老鼠游戏”。

搜索引擎的逐渐流失是一个全球性的问题,对于中国网民来说广西股票配资,优质数据更是有限,比如一些行政公开数据。

中国公共数据透明度大幅提升,2013年以后的几年中,国家统计局公布的人口数据、经济统计数据等统计指标数量增长了673%。《中华人民共和国政府信息公开条例》也在2019年进行了修订,强调信息公开要“坚持公开为常态、不公开为例外”。

然而,在2015年达到顶峰之后,信息公开呈现下滑趋势。

不同类型的信息公开程度不同,法律法规是关系到公民和企业生计的事务,因此相对透明,而与内部工作流程相关的文件则透明度较低。随着安全意识的增强,老百姓看到的数据越来越多,涉及健康、消费、物价、就业等,而能源、科技、创新、金融等公开信息较少。

特别是对于科技创新信息,公开文献比例自2017年开始逐步下降,到2022年公开比例达到2009年以来的最低点。

文档保存水平也令人担忧。政策文件链接在发布两年后仅剩78%仍然可用。大多数失效文档与网站无法访问或网站更新有关。其中一些可能在其他地方仍可用,但只有一小部分[13]。

对于生活来说,这种变化或许不会带来什么重大的不便。但对于相对严肃的用户,比如科技行业的投资者来说,这些信息的缺失仍会带来很多不便。与同样深受网络垃圾和广告信息影响的发达国家相比,优质信息的差距或许才是中国互联网真正的短板。(参考文献略)

撰文:张天琪

文章原创于金源网络科技有限公司:http://haimianbeibei.com/