チョコレートとノーベル賞#
元の論文#
Chocolate consumption enhances cognitive function, which is a sine qua non for winning the Nobel Prize
(チョコレートの消費はノーベル賞受賞に必要不可欠である認知能力を高める)
という強めの主張をしている。
追試してみる。
データ#
同様のデータを統計的因果推論の理論と実装 - 共立出版がdata06.csvとして配布している。
論文をもとに同様の収集方法をとったらしいが、年度的にはもっと新しいデータになっているらしい
# y1: 人口1000万人あたりのノーベル賞受賞者数
# x1: 人口1人あたりの年間チョコレート消費量(kg)
# x2: 一人あたりGDP
data06 = """
country,y1,x1,x2
australia,3.871325502,4.9,54.763
austria,15.65853828,8.1,49.701
belgium,8.643572769,5.6,46.198
brazil,0,1.2,8.755
canada,4.17386626,4,46.55
china,0.021249789,0.1,10.004
denmark,22.24752355,4.9,60.657
finland,7.260276558,5.4,48.678
france,9.046821006,4.3,40.319
germany,9.98135639,7.9,46.232
greece,1.865921418,2.5,19.604
ireland,12.05448628,7.9,81.637
italy,2.535105679,4,33.09
japan,1.980565613,1.2,40.063
netherlands,9.650766575,5.1,53.053
norway,20.37488303,5.8,74.986
poland,1.833324603,5.7,15.727
portugal,1.94207716,2,23.35
spain,1.265977079,4,29.816
sweden,30.76310773,6.6,52.896
switzerland,28.79889044,8.8,85.135
unitedkingdom,18.7831965,7.6,41.855
unitedstates,11.44517395,4.4,65.134
""".strip()
import pandas as pd
from io import StringIO
data = StringIO(data06)
df = pd.read_csv(data)
df.head()
| country | y1 | x1 | x2 | |
|---|---|---|---|---|
| 0 | australia | 3.871326 | 4.9 | 54.763 |
| 1 | austria | 15.658538 | 8.1 | 49.701 |
| 2 | belgium | 8.643573 | 5.6 | 46.198 |
| 3 | brazil | 0.000000 | 1.2 | 8.755 |
| 4 | canada | 4.173866 | 4.0 | 46.550 |
df.plot.scatter(x="x1", y="y1")
df.plot.scatter(x="x2", y="y1")
<Axes: xlabel='x2', ylabel='y1'>
結果#
チョコレート消費の影響は小さくなったが、まだプラスの値ではあった
別の交絡がある可能性はある
import statsmodels.formula.api as smf
from stargazer.stargazer import Stargazer
Stargazer([
smf.ols("y1 ~ x1", data=df).fit(),
smf.ols("y1 ~ x2", data=df).fit(),
smf.ols("y1 ~ x1 + x2", data=df).fit(),
])
| Dependent variable: y1 | |||
| (1) | (2) | (3) | |
| Intercept | -3.422 | -4.246 | -6.320* |
| (3.227) | (3.235) | (3.203) | |
| x1 | 2.704*** | 1.505* | |
| (0.598) | (0.756) | ||
| x2 | 0.313*** | 0.196** | |
| (0.066) | (0.085) | ||
| Observations | 23 | 23 | 23 |
| R2 | 0.493 | 0.519 | 0.598 |
| Adjusted R2 | 0.469 | 0.496 | 0.558 |
| Residual Std. Error | 6.650 (df=21) | 6.478 (df=21) | 6.064 (df=20) |
| F Statistic | 20.420*** (df=1; 21) | 22.656*** (df=1; 21) | 14.904*** (df=2; 20) |
| Note: | *p<0.1; **p<0.05; ***p<0.01 | ||
追試論文#
Prinz, A. L. (2020). Chocolate consumption and noble laureates.
ヘックマンの2段階選択モデル(two-stage Heckman selection model)で検証
GDP、R&D支出、論文数などでコントロールしてもなおチョコレートとノーベル賞数は正の相関
本当に効果があるのか、別の交絡が残っているかは不明