ザザイズム

書くことは命の洗濯。日常で考えたことや国内外旅行記などつづっています。

言語別Wikipedia記事数ランキングが意外だった

f:id:zazaizm:20160531012045p:plain:w300
ウィキペディア(英語版)にある、
言語別の記事数データが興味深かったのでご紹介。

以下2016年5月段階のこちらのデータを使用しています。
List of Wikipedias by speakers per article - Meta

言語ごとのWikipedia記事数ランキング

f:id:zazaizm:20160530204025p:plain:w400
圧倒的首位は英語。英語の記事数は日本語の約5倍
改めて数字として見せられると圧倒されます。



まぁ、英語が1位なのは納得がいくとして、
ちょっと眺めてみると「こんな言語が上位なんだ」って思いませんか。


2位はスウェーデン語
スウェーデン語話者数は約910万人。
話者数ランキング58位。

なのに、Wikipediaの記事数は
英語に次いで2位。
日本語版記事の2倍以上。

なんてこったい。




3位はセブアノ語
聞いたことも見たこともない。何かと思ったらフィリピンの言語らしい。
なんてこったい。






10位のワライ語も、

ワライ??笑い??なんぞ???

ってなるくらい聞いたことがない。
これまたフィリピンの言語らしいです。






スウェーデン語・セブアノ語・ワライ語が記事数上位なのは、
「Lsjbot」というボットによって作成されているからだそうです。
gigazine.net
作者はスバーカー・ヨハンソンというスウェーデン人。
妻がフィリピン出身。
というわけでこの3言語の記事を大量に作っているそうな。




この3言語に限らず、この手のボットはランキング上位の言語の記事数に大いに貢献している模様*1

f:id:zazaizm:20160531021628p:plain:w360
ボット記事が半数を超える所は赤文字で割合を示しています。
必ずしも「ボット記事=質が悪い」とはいえないかもしれない。
でも、単純に「記事数が多い=良い」と見なすのはよろしくないと思われる。




日本は総記事数では13位。ボット記事を差し引いた場合では英語、ドイツ語、フランス語、スペイン語、イタリア語、ロシア語に続いて7位。
日本は記事を手生産しているのが特徴のようです。




ちなみに、世界の言語別話者数上位20位はこんな感じ。
f:id:zazaizm:20160530204038p:plain:w400
話者数と比べるとやっぱりウィキペディア記事は欧米系の言語に偏っていることがわかる。





話者数のわりに記事数が多い言語

話者数のわりには記事数が多い言語、上位10位を抜粋。

f:id:zazaizm:20160530210952p:plain:w300


飛びぬけて多いのが上位3位。

ヴォラピュク語、
イド語、
インターリングア。

1ミリも聞いたことがない言語ばかり。


これらはどれも「人工言語」
話者数がめちゃくちゃ少ないがためにこんな大変な数字になっているみたい*2




4位のアラゴン語はスペインのアラゴン州で話されている言語。
話者数1万人程度に対し、3万近い記事が存在するそうな。これはなかなか凄まじい数字。しかもボット割合は13%とさほど高くない。
自然言語(いわゆる普通の言語)で話者数より記事数が多いのはアラゴン語だけ。
ちなみに8位のアストゥリアス語もスペインの地方言語。ただ、こちらはボット割合59%と若干高め。





話者数のわりに記事数が少ない言語

先ほどとは逆に、話者数のわりに記事数が少ない言語も15位まで表にしてみました。

f:id:zazaizm:20160530213445p:plain:w300

目立つのはインドの言語。表中では黄色く示してあります。
全体的に見ると、「話者数のわりに記事数が少ない」というよりは、
「話者数に記事数が追いついていない」みたいです。

2位のアラビア語エジプト方言だけちょっと異色な気がします。インターネット事情が悪いのかと思ったら今はそうでもないみたいだし。そもそもエジプト方言=口語(アーンミーヤ)だからあまり文章として書かれないのかもしれない。




話者数と記事数の散布図

f:id:zazaizm:20160530234533p:plain:w400
散布図を書いたは良いけど読みにくかった……。
相関係数は0.38。相関としては弱め。



じゃあ、どんな要因が記事数の多寡に影響を与えているのでしょう?

ある程度は「ボット」の存在によって説明はできるかもしれない。ボット記事数を差し引いたバージョンは作成に大幅に手間がかかるのですっ飛ばしてしまったけど、
それでもまだ説明できない部分は残りそう。



「話者数のわりに記事数が多い言語」を例にとると、言語復興運動との関連性もあるのかな?と思う。
特にスペイン圏内。アラゴン語とかアストゥリアス語とか。カタロニア語も話者数のわりに記事数はそこそこ多くて、全体で20位以内に入ってるし。


言語を残すために、ウィキペディアで記事を書いているのだとしたら、
ウィキペディアは単なる百科事典以上の意味を帯びてくるのかもしれない。


そこまで考えていくとなかなか興味深いと思う。









想像以上に見たことのない言語ばっかりで目が回りそうですので、
今日はこのくらい。

*1:ソース: "Wikipedia Statistics - Bot article creations only"

*2:特に、ヴォラピュク語はSérgio Meiraという方が作った「Smeira」というボットで記事の91%が作られているらしく、それで数字が恐ろしく飛び抜けている模様。ヴォラピュク語に注目を集めるのが目的だった模様。ウィキペディアがそんな使い方されているとは何とも意外。 ソース: Volapuko jam superas Esperanton en Vikipedio — Libera Folio