维基百科全书 Wikipedia 20 周岁记-FreeOA

维基百科全书 Wikipedia 20 周岁记

2021-01-16 21:11:39

阿炯

Wikipedia 20 周岁了。2001 年 1 月 15 日 Jimmy Wales 与 Larry Sanger 上线 Wikipedia 项目，Larry 正式提出“Wikipedia”一词，昨天正是它的 20 周岁生日。

Wikipedia，中文名“维基百科”，它的 slogan 是“自由的百科全书”，它是一部基于互联网、内容开放的全球多语言百科全书，也是目前世界上最大的百科全书，基于 wiki 技术，其支持多语言全球协作。Wikipedia 由非营利性组织 Wikimedia Foundation 运营。同时，它也是第 15 名最受欢迎的网站，提供 300 多种语言提供，并由志愿者编辑社区维护。

在过去的 1 年中，每月有超过 28 万人编辑维基百科，就在写这篇文章的同时，来自世界各地的志愿者们仍在贡献他们的力量。

对于这些志愿者来说，参与维基百科的编辑工作，不仅是为他人提供有价值的信息，同样也是在扩宽自己的知识边界。在参与维基媒体运动的同时，分享和宣传自己的学识也会让人充满成就感。

2020年，维基百科的总浏览量达到了 1185 亿次。随着数据智能、AI 技术的崛起，维基百科还产生出了一种更间接的经济效益 —— 作为大量机器学习数据集的原始文本，“喂料” 给各种各样的自然语言处理模型。亚马逊和苹果训练 Alexa 和 Siri 根据维基百科回答事实问题；谷歌用它来填充 "fact boxes（事实框）"，应用到有关事实问题的搜索场景。

在这里，从学生到政治家再到新闻记者，每个人都在这里寻求有关任何主题的快速简报，尽管甚至维基百科都说不应将其用作信息的主要来源。而且，维基百科也有不足，比如广为人知的作者多样性问题。有研究发现，在维基百科上撰写内容的人，大部分是居住在北半球发达国家、擅长科技产品的男性白领。他们所撰写的往往是自己感兴趣的信息。这变相造成了一种 “幸存者偏差”：在维基百科中，关于《指环王》中角色的条目就有超过 150 条，而关于越南战争的内容却少于 10 条。

参考链接

维基百科生日活动
维基百科电子礼物包
维基百科 20 周年官方公告

维基百科因 AI 聊天机器人流量下降

维基百科运营方维基媒体基金会在2025年10月表示，由于越来越多用户通过 AI 聊天机器人和搜索引擎直接获取维基百科上的信息，导致其人类访问流量显著下降。这一现象引发了基金会对维基百科未来可持续发展的担忧。维基媒体基金会的高级总监 Marshall Miller 在官方博客中指出，虽然人们以新的方式获取知识是受欢迎的，但 AI 工具和社交平台在使用维基百科内容时，应该鼓励用户访问维基百科本身。他强调，维基百科的流量减少将导致志愿者减少，内容生产与扩充受到影响，甚至可能导致个人捐赠的减少，这将直接威胁到维基百科的正常运营。

有趣的是，尽管 AI 和搜索引擎使维基百科的直接流量减少，但维基百科的数据对这些平台而言愈发重要。许多大型语言模型都使用维基百科作为核心数据集，而 Google 等平台长期依赖维基百科的文章来生成摘要和知识面板，这也进一步分流了维基百科的访问量。Miller 还提到，维基百科在 2025 年 5 月观察到源自巴西的 “人类访问流量” 异常高。经过调查后，基金会调整了自动检测系统，发现最近的人类页面浏览量同比下降约 8%。这一趋势反映出 AI 和社交媒体改变了用户获取信息的方式，搜索引擎越来越多地直接返回基于维基百科内容的答案，让用户无需访问原始页面。

为了应对 AI 带来的挑战，维基百科正在加强政策和技术能力，规范第三方平台对其内容的使用，并与主要内容再利用方合作。此外，基金会还计划通过 YouTube、TikTok、Roblox 和 Instagram 等平台，向年轻用户推广维基内容。Miller 呼吁用户在进行网络搜索时，关注原始出处和引用，主动点击链接访问来源，帮助维护知识的完整性和原创性。面对 AI 带来的流量冲击，维基百科的未来发展值得持续关注。

公开 “AI 写作识别指南”

维基百科编辑团队于2025年11月公开其内部使用的《AI 写作识别指南》，首次系统性揭示大语言模型（LLM）在行文中的 “行为指纹”，为公众提供了一套可操作、有据可依的 AI 文本鉴别方法。

自 2023 年启动 “AI 清理计划”（Project AI Cleanup）以来，维基百科编辑们每天面对数百万条编辑提交，积累了海量 AI 写作样本。他们发现，自动化检测工具基本无效，而真正可靠的判断，来自对语言习惯与叙事逻辑的深度观察。

1.空洞的重要性强调 AI 热衷用泛泛之词标榜主题价值，如 “这是一个关键时刻”“体现了广泛影响”，却缺乏具体事实支撑 —— 这种 “重要性焦虑” 在人类撰写的百科条目中极为罕见。

2.堆砌低价值媒体报道为证明人物或事件 “值得收录”，AI 常罗列大量边缘媒体曝光（如某博客采访、地方电台片段），模仿个人简历写法，而非引用权威、独立信源。

3.“现在分词” 滥用式总结频繁使用 “强调…… 的重要性”“反映…… 的持续相关性” 等模糊尾随句式（语法上称为 “现在分词短语”），制造一种 “深度分析” 的假象，实则内容空洞。维基编辑称：“一旦你注意到这种套路，就会发现它无处不在。”

4.广告式形容词泛滥 AI 偏爱使用 “风景如画”“视野壮丽”“干净现代” 等营销话术，行文 “听起来像电视广告脚本”，缺乏客观、克制的百科语感。

5.过度结构化但缺乏洞见段落看似逻辑清晰、层层递进，实则重复同义表述，缺乏人类作者的批判性思维或独特视角。

维基团队指出，这些 “语言指纹” 深植于 AI 的训练逻辑：模型通过海量网络文本学习 “如何像人一样写作”，而互联网充斥着自我推销、SEO 优化与内容农场式文本。因此，AI 自然继承了这些 “数字时代写作病”—— 即便技术再进化，只要训练数据不变，这些习惯就难以彻底清除。

微软等向维基百科付费获取企业级数据访问权

在维基百科庆祝其 25 周年的2026年1月中旬之际，全球多家科技巨头正竞相为其 “企业级” 数据访问权买单。继谷歌之后，微软、Meta、亚马逊以及 AI 新秀 Perplexity 和 Mistral AI 均已正式加入 Wikimedia Enterprise 计划。

这项由维基媒体基金会（Wikimedia Foundation）于 2021 年推出的付费计划，旨在为大型商业公司提供定制化的 API 接口。据该基金会收入高级总监透露，该服务会根据 AI 公司的特定需求，对维基百科海量的文章数据进行重新 “调校” 和结构化处理，使其更易于模型训练和商业用途。虽然 Meta 和亚马逊此前已在合作名单中，但此次是首次公开披露。

维基媒体基金会表示，这笔收入将直接用于支持该非营利组织的长期运营。在 AI 时代，高质量的语料库已成为核心资产，这种合作不仅能为维基百科提供更可持续的商业模式，也是确保 AI 公司获得可靠数据源的关键平衡点。