$$ \gdef\TM{\operatorname{TM}} \gdef\TR{\operatorname{TR}} $$

新型コロナウイルス感染者数の分析

NHKの夕方のニュースで、都道府県別の1日の感染者数が報告されますが、あれを毎日観ていて、私の地元と東京都の感染者数の倍率（比率）がだいたい一定だなぁと思いました。しかし本当にそうでしょうか。またもし本当なら、なぜそうなるのでしょうか。NHKのサイトにはまさに報道で示しているデータがダウンロードできましたので、これをつかって分析してい行きたいと思います。分析にはRを使用しました。

東京都感染者数の倍率に着目する

新型コロナウイルス感染者数の各道府県に対する東京都の倍率（東京倍率）$\operatorname{TM}$を以下のように定義します。

$$ \TM = \frac{T}{R_i} $$

ここで、$R_i$は道府県$i \in \{1,\ 2,\ \dots,\ 46\}$で、$T$は東京都の感染者数とします。

同様に、東京都に対する各道府県の比率（東京比率）$\operatorname{TR}$を次に様に定義します。

$$ \TR = \TM^{-1} = \frac{R_i}{T} $$

以下の表は、2022年8月以降の東京倍率TMの平均値を計算し、上位10県を示しています。なお、算出に当たり、分子または分母が0の場合は$\operatorname{TM} = \operatorname{TR} = 0$として計算しました。

$R_i$	$E(\operatorname{TM})$	標準偏差
島根県	37.3	9.8
鳥取県	36.9	7.7
徳島県	35.1	14.2
秋田県	31.8	9.0
高知県	28.7	11.2
山形県	27.8	6.7
岩手県	27.6	6.6
山梨県	26.0	5.3
福井県	24.3	7.9
富山県	23.7	6.0

※平均の定義式は割愛しますが、倍率の和を期間日数で割ったものです。

さて、この値は経時的にあまり変化しないのではないかというのが、先の疑問でした。これを確かめるため、折れ線グラフを描いてみましょう。

あまりよくわかりませんね。線がごちゃごちゃしているし、20～50くらいにまとまっていると思えば一定といえなくもないかもしれないし、変動しているようにも見えます。

新型コロナウイルス感染者数は集計の方法の影響もあり、1週間の周期があることが知られています。そこで、各道府県のデータを曜日ごとにグループ分けして見てみましょう。曜日ごとにすると線が短くなるので7月からの約2か月分を見てみます。

これはかなりよさそうです。通常、集計作業の関係で月曜日の感染者数は多めに報告されるといわれますが、比を取ることによってその影響も除去されていることがわかります。また、秋田県を除く県で概ね一定の水準で推移していることが見て取れます。これは先の仮説を裏付けるものですが、なぜ秋田県では7月の初めに大きな変動が起きたのでしょうか。秋田県も8月に入ると他県と同様にばらつきが小さくなっています。7月初めごろの感染の状況は他と違ったのでしょうか？

TM増大の原因を探る

上図は2022年の全国の感染者数の推移を示しています。これを見るとわかるように7月の初めは全国的に感染者数が落ち着いていました。その後、8月にかけて急速に感染者数が増加したのでした。感染者が全国に波及するにつれて、比率が安定したということでしょう。このことから、TMは感染者数が少ないときは変動しやすいと考えられます。実際、定義をみるとわかるように、地方の感染者数が少なくなるほどTMは大きな値になります。感染者数が落ち着いていたとはいえ、東京では慢性的に感染が発生していたのに対し、地方ではピークを過ぎると非常に少ない値になります。念のため、秋田県の感染者数の推移をみておきましょう。

このように、6月終わりから7月初めごろにかけての秋田県の感染者数は、ほとんど0に近い値を取っていました。これがTMが大きく変動した要因でしょう。言い換えれば、TMは、感染者が恒常的に発生しているような状況では一定の値で推移していくだろうということです。また興味深いことに2月から3月ごろにかけて、全国では大きめの波が発生していたにも関わらず、秋田県ではこの波が生じていません。これはこの時期の秋田県のTMが大きくなっていたであろうことを示唆しています。

しかしまだ疑問はあります。なぜ秋田県だけがあのような大きな変動を見せたのでしょうか？同じ東北地方の岩手県では大きな変動は見られませんでした。また、その他の地方でもそうでした。なにか、感染者数の波が底を打つときに大きな変動を起こす要因があるのでしょうか？これを考察するため、岩手県の他に同様の変化が起きていた地域を探していきます。

変動係数上位10県
$R_i$	$E(\operatorname{TM})$	標準偏差	変動係数
山形県	74.7	175.5	2.3
秋田県	90.9	212.6	2.3
大分県	52.2	120.1	2.3
島根県	97.6	203.6	2.1
青森県	50.6	104.6	2.1
熊本県	37.8	78.0	2.1
宮崎県	49.6	101.5	2.0
鳥取県	85.9	168.7	2.0
岩手県	70.1	137.3	2.0
愛媛県	53.9	104.1	1.9

上表は全期間のデータ（2020年1月16日から2022年8月16日まで）で算出したTMの平均値と標準偏差、それに変動係数です。いま関心があるのは倍率が大きく変動した地域を特定することですが、標準偏差の値が大きいと見なせるかどうかは感染者数との関係で決まるので、その影響を除去しなければなりません。そのため、標準偏差を平均値で割った統計量である変動係数を用います。先の仮説の通り、TMは感染者の増加局面では余り大きく変動しないと考えられるため、変動係数の値にもあまり影響を与えません。そのため、全期間の変動係数の平均値を取れば、変動の度合いがわかります。

この集計により、今まで上位に来なかった大分県などが大きな変動を持つ県であることがわかりました。また、青森県や熊本県なども新しく加わりました。

地方経済とコロナの関係を探る

新型コロナウイルスは都市のウイルスだといわれています。人口が多く、人の交流が多いほど、感染が広がりやすいからです。さらに、人口の数は経済規模と相関するため、経済が発展した地域ほど感染が広がりやすいのです。そこで、ここまで分析した変動係数と、経済規模の指標となる県内GDPとの関係を調べてみたいと思います。具体的には、内閣府が毎年公表している「県民経済計算」で、2018年度分のデータを利用します。県民経済計算は各都道府県が集計を行っており、公表に時間がかかるそうで、完全なデータが利用できる最新の年度が2018年度分でした。感染者数のデータは、2021年4月1日から2022年3月31日までを利用します。時系列がずれてしまいますが、数年で一地域のGDPの値が急激に変わることはないので問題ないと判断します。

内閣府では県民経済計算として11種類の統計を発表しています。それらは総生産や一人当たり所得、人口など、すべて地域の経済規模に関連しています。これらの指標とTMをそれぞれ比較したのが下図です。全体的に負の相関があることが見て取れます。やはり、経済の規模が大きいほどTMは低い傾向があります。雇用者報酬や雇用者数、人口などが特に負の相関が強いことがわかります。

このことをよりはっきりと確認するため、回帰分析を行ってみます。下図は、TM（の変動係数）と県民経済計算の関係を線形回帰モデルで推定した結果の表です。ここでは、実質県内GDPと、総人口、一人当たり雇用者報酬、就業者数を分析しました。それぞれ、列(1)から列(4)に対応しています。この表からわかるように、各統計とTMとには顕著な負の相関関係があることがわかります。表は、TMの行が、TMが1単位上がった時の各統計値の変化を表しています。たとえば県内GDPは-0.083と表示されています。これは、TMが1単位高くなると県内GDPが約83億円下がることを意味しています。この表だけでは因果関係までには言及できませんが、観察されたデータからはそのような関係が導けるということです。同様に、2列目を見ると-28.801と書かれています。これは、1単位が10万人ですから、TM1単位の上昇につき、約290万人の人口が少なくなります。たとえば、神奈川県はTMが0.385で、総人口が約920万人です。それに対してTMが1.41の鹿児島県の総人口は約160万人で、人口量に大きな差があることがわかります。

さらに、人口や雇用者報酬が統計的に有意な差があることを示しているのに対して、県内GDPでは統計的に有意な差があるとはいえません。これは、当初の予想に反して、県内生産量が多いか少ないかは、新型コロナウイルス感染者数とはあまり関係がないことを示唆しています。それよりも人口が多い地域や、雇用主が多く稼いでいる地域で感染が広がりやすいといえます。これはいわゆる人流、人の移動や接触の方が強い影響力を持っているといえる一つの証拠になります。