kivantium活動日記

プログラムを使っていろいろやります

世界各国の論文数について分析してみた

kivantium.hateblo.jp
と同じ授業のレポート第二弾を書いています。今のところイカれたテーマが思いつかない&誰も提供してくれないのでまじめなデータ解析をします。

国の研究能力の指標として、その国で書かれた論文の数があります。論文を書くためには研究者・適切な研究機関・金が必要だと推測できます。そこで、論文の数をいくつかの統計データから説明できるかどうかを調べてみました。

データセット

分析対象のデータ

country,GERD,researcher,paper,perGERD,perresearcher,university
Australia,20955.6029453885,92648.8,782149,920.6720693129,8.2291317307,8
Austria,10752.6294717646,39922.6,241610,954.8331625671,9.1154513101,0
Belgium,10603.4222703075,44649.0770839605,335160,698.7131956184,9.0254855638,1
Canada,24565.3585315516,156550,1110886,698.7131956184,8.2647900411,5
Czech Republic,5812.9387204484,34271.10346,185849,553.0486278292,6.4589066631,0
Denmark,7513.4036086148,40858,234852,1338.5718169633,14.0078273721,0
Finland,7175.5951679866,39196.2,212195,1319.2857451713,14.5440445269,1
France,55218.2462793874,265177.215,1421190,837.9223702846,9.2841658557,2
Germany,103909.020254091,360900,1983270,1265.5934649658,8.4504074178,3
Greece,2213.4444660432,27667.5225080698,203437,200.0852307671,5.6295448359,0
Hungary,3249.5685230096,25038,124265,328.4687747468,5.7073170732,0
Iceland,314.8369995551,2258.3,12399,986.9189039688,12.5393760381,0
Ireland,3271.4665541303,15732,119983,712.7111817348,7.2863693206,0
Italy,26520.4101395677,117973.2187,119983,437.2957032828,4.6167570972,0
Japan,160246.832208716,660489,1929402,1258.4674916988,10.042405352,5
Mexico,8058.4705879358,46124.9606019897,188449,69.6599378295,0.9276625447,0
Netherlands,15376.7219962018,72324.7,614552,915.2810712025,8.1103059926,6
New Zealand,1766.5885729083,16300,146264,400.1695675505,6.8776371308,0
Norway,5538.5765890913,27841,183463,1090.2709821046,10.4000747105,0
Poland,7918.1247651769,71472.3,387982,205.6548949451,4.1168308277,0
Portugal,3942.6514553515,43321.2020276897,164769,377.0240253671,8.0383727066,0
Slovak Republic,1190.627600677,14727.4,64247,219.9569445421,5.4211783853,0
Spain,19192.6619068923,123582.6,857158,411.9312993652,5.3291008451,0
Sweden,14151.2814524565,62294,417156,1474.0304000309,12.1818258855,2
Switzerland,13251.3988626944,35949.9883,445163,1671.0891986323,7.2355025604,4
Turkey,13315.1029817842,89074.860569977,348836,175.7207991874,3.0885714108,0
United Kingdom,39858.8272123591,259346.6,2141375,621.7643779421,8.0584967219,19
United States,453544,1252948.35,7846972,1443.2769231748,8.080879984,28
China,336495.438508647,1484039.7,3129719,247.292197152,1.8714245902,3
Russia,40694.5006276634,440581,639598,284.9076594345,5.8332768372,0
Singapore,8149.318247726,34140.997,171037,1536.6620244389,10.1555705277,2
South Africa,4870.7058280022,21382.5,144413,95.4815695915,1.1136744568,0
Chinese Taipei,30332.1376312077,140124.423824446,446282,1297.6870724398,12.2432873591,0

country=国の名前
GERD=研究開発費総額(Gross Domestic Expenditure on R&D)
researcher=研究者の人数(専従換算)
paper=論文数
perGERD=国民一人当たりのGERD
perresearcher=労働者1000人当たりの研究者数
university=トップ100大学数

研究者数と研究開発費による論文数の重回帰分析

まずは研究者数と研究開発費で論文数をどれくらい説明できるかを調べてみます。

> summary(lm(data$paper~data$GERD+data$researcher))

Call:
lm(formula = data$paper ~ data$GERD + data$researcher)

Residuals:
    Min      1Q  Median      3Q     Max 
-885893 -216638 -144989  139289 1619550 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)      3.190e+05  9.183e+04   3.474  0.00158 ** 
data$GERD        2.339e+01  2.847e+00   8.216  3.6e-09 ***
data$researcher -2.813e+00  8.193e-01  -3.434  0.00176 ** 
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 448300 on 30 degrees of freedom
Multiple R-squared:  0.911,	Adjusted R-squared:  0.9051 
F-statistic: 153.5 on 2 and 30 DF,  p-value: < 2.2e-16

自由度修正済み決定係数(Adjusted R-squared)が0.91と高く、GERDと研究者数どちらも有意と出ているのでまともなモデルと言えそうです。
GERDは強い正の影響を与えていると言えそうですが、興味深いことに研究者の数は負の影響を与えているようです。これは直感に反します。そこで片方ずつプロットを見てみます。

library(maptools)
plot(data$GERD, data$paper, xlab="研究開発費", ylab="論文数")
pointLabel(x=data$GERD, y=data$paper, labels=data$country)

f:id:kivantium:20150703224515p:plain:w600

plot(data$researcher, data$paper, xlab="研究者数", ylab="論文数")
pointLabel(x=data$researcher, y=data$paper, labels=data$country)

f:id:kivantium:20150703224930p:plain:w600

中国の研究者数が外れ値っぽいです。中国は研究者の数がやたら多いにも関わらず論文数はそこまで多くないようです。これが重回帰分析で研究者数が負の影響を与える原因でしょう。研究者といっても企業に所属する研究者は論文を出さない、論文を出すけどこのデータベースには登録しない、他の国で研究者としていない職種を研究者に含めている、中国の研究者は質が低い……などの原因がありそうです。

国ごとの研究重視度

論文なんて研究者と金さえあれば出る(暴論)のだから、研究開発費と研究者数を人口で割った値を比較して、その国がどれくらい研究に力を入れているか調べてみました。

plot(data$perresearcher, data$perGERD, xlab="一人当たり研究者", ylab="一人当たり研究費")
pointLabel(x=data$perresearcher, y=data$perGERD, labels=data$country)

f:id:kivantium:20150703225604p:plain:w600
きれいな正の相関があります。(r=0.79)
北欧の国が研究開発に力を入れている様子が分かります。

大学ランキングと論文数

論文を書くにはいい大学があればいい(暴論)ので、トップ100の大学数が論文数にどういう影響を与えているか調べました。

plot(data$university, data$paper, xlab="QS大学ランキングトップ100の大学数", ylab="論文数")
pointLabel(x=data$university, y=data$paper, labels=data$country)

f:id:kivantium:20150703225829p:plain:w600
わーアメリカすごーい(棒)

アメリカが突出しすぎていて他の国が分からなくなっていますが、なんとなく正の相関がありそうです。

結論

  • 研究開発に金を突っ込むと論文がいっぱい出る
  • 研究者の人数は研究開発費よりは重要じゃないかもしれない
  • 北欧の国は研究に力を入れていそう
  • 大学ランキング高い国は研究もしっかりやっている

自明な結果しか出てきませんでした。やはりテーマ選択を間違えたか……