統計、恐るるべからず: 統計に苦手意識を持つ研究者へのヒント
情報や評価が溢れる現代社会において、信頼や公正性はますますとらえどころのないものになっています。真実の解明に取り組む科学者は、このことを肝に銘じておく必要があるでしょう。
たとえば、薬物研究の結果が正しく公表されなければ、その薬剤を服用する人に害を及ぼす可能性があります。これはきわめて大規模な組織的ミスですが、けっしてあり得ないことではありません1。
より身近なところでも、研究結果の解釈を誤れば、時間、お金、人的資源の浪費を生み、科学や科学者に対する一般社会の信頼を損なうことにつながります。研究者のキャリアにもプラスにならないことは言うまでもありません。
正確な報告のために統計を正しく使おうとすると、そのややこしさに戸惑うかもしれません。しかし、統計をむやみに怖がるべきではありません。この記事では、統計に苦手意識を持つ人のために、研究結果をより丁寧かつ緻密に分析するためのヒントを紹介します。
研究者がミスを犯す理由
統計学は、人々に不安感を抱かせる不思議な学問です。数学に嫌悪感を持つ人はあらゆる数字に恐怖を感じるものですが、数学に抵抗感がない人も、統計の不確実性にはうんざりしています。統計では多くの数字を使いますが、代数や微積分のように明白で確実な答えが導き出されるわけではないからです。
研究のデータや結果の分析と報告でミスが発生する主な理由の 1 つは、統計に対する抵抗感です。抵抗感があると、統計に関するあらゆることを避けたくなり、学ぶことも回避してしまいがちです。そうなると、研究結果の扱いが杜撰になり、正確性と確実性に十分な注意が払われなくなります。
統計上のミスが生まれる原因は、数字に対する怯え以外にも、次のようなものがあります。
- 正式な訓練を受けていない – 統計に関する正式なトレーニングを十分に受けていない研究者もいますが、今はインターネット上にさまざまな学習ツールがあるので、トレーニングの不足を独学で克服することも可能になっています。
- サポートの欠如 – 統計が苦手な場合は、作業をチェックしてくれる人を見つける必要があります。サポートが得られないと、チェックが難しくなるでしょう。
- リソースの不足 – 時間や資金が限られていると、データの収集と分析に十分な注意を払えなくなり、ミスにつながりやすくなります。たとえば、時間不足で検証を省く、資金不足で人員配置が不適切、といったケースがあります1。
回避可能な8つの統計ミス
統計のミスは、データの収集、分析、報告など、研究プロセスのさまざまな段階で発生します。統計に苦手意識がある方も、不正確な報告を避けるために、基本的なミスを把握しておきましょう。
- クリーンなデータを使用していない
データがクリーンかどうかは、実際のデータを見ない限り読者には分かりません。そのため、このミスは、データの透明性に対するジャーナルの要求を高める一因となっています。外れ値や欠損値のあるデータセットは、分析前に慎重に処理する必要があります。たとえば、新入生の平均身長を報告する際に、記録データの4分の1が空白であったり、何人かがバスケットボール部員だったりすると、正確な平均が得られない可能性があります。これに対する解決策は、データをよく理解することです。散布図やヒストグラムなど、いろいろなグラフを作成してみて、データがどのように見えるかを把握しましょう。
- サンプリング方法が不適切
この問題は、調査データを利用する研究でよく見られます。根本的な間違いは、収集されたデータが対象母集団を代表しているものだと仮定してしまうことです。しかし、調査で真に代表的なサンプルを得ることは非常に困難です。研究では、必要な調査件数を確保するために、もっとも便利な方法を選択してしまいがちです。しかし、スーパーマーケットの外に立つ、自宅の固定電話に電話をする、等の方法では、結果のデータが歪められてしまいます。データを収集するときは、対象母集団と、実際にサンプリングをする集団について慎重に検討しましょう。
- 疑似相関を報告してしまう
実際には関連していない変数間に、有意な相関関係があると考えてしまうミスです。たとえば、米国で授与された修士号の数と興行収入の間には、強い相関が見られました2。しかし、これらの変数に密接な関連がないことは明らかです。
- 相関関係から因果関係を推測してしまう
変数間に有意な正または負の相関があっても、一方の変化が他方の変化を引き起こすというエビデンスにはなりません。これについては、サメの攻撃とアイスクリームの消費との間の強い正の相関という有名な例があります3。この相関関係は、アイスクリームを食べることによってサメの攻撃が引き起こされることを意味しているのでしょうか?常識的に考えればそうではなく、どちらも第 3 の要因、つまり夏という季節が原因であることがわかります。
- 不適切な分析方法を用いている
このミスを避けるために統計のエキスパートになる必要はありません。知識が不十分な状態で複雑なデータ分析を行うことは不可能だからです。ただし、どのような分析方法を使えばいいのかは理解しておく必要があります。たとえば、単純な線形回帰はカテゴリ変数に使用できるか?t検定で複数グループ間の有意差を見つけることはできるか?といったことは押さえておきたい知識です。少々手間はかかりますが、知っておくことで、きまりの悪いミスを避けられます。
- 分析の仮定を確認していない
これは最初のミスに関連しています。どの分析方法も、使用されるデータに関する仮定に基づいています。たとえば、多くの方法は、基になるデータが正規分布しているという仮定に基づいています。データの分布が異なる場合、結果が正確でない可能性があります。解決策は、使用する変数とデータを十分に理解することです。ここでもグラフが役立ちます。
- 結果を正しく報告していない
統計に苦手意識を持つ研究者には、得られた結果の解釈と報告が正しくないというミスがよく見られます。多くの場合、結果が誇張されています。つまり、特定の限られたケースで真である可能性があることを示しているにすぎない結果について、「何かを証明した」と述べています。統計は、きわめて精密で保守的な言語です。結果が帰無仮説を棄却できないことが示唆されたとしても、それは証明されたことを意味するわけではありません。反証できないことを意味するだけであり、結果は、その仮説を支持する証拠を提供するだけです。これは、統計に慣れた研究者にとっても分かりにくい概念かもしれません。
- データと結果のつまみ食いをしている
必要な結果があらかじめ分かっている研究を行うことは、好ましくありません。なぜなら、データの操作や、目指す結果が生成される試験方法を探すことにつながるからです。データを取得して精査した後に仮説を立てることも、非倫理的なアプローチです4。
これらのミスの多くは、常識を働かせて注意を払うことで回避することが可能です。しかし、実際の研究では、より複雑なミスが頻発します。最善の解決策はやはり、統計に関する知識と経験が豊富な友人や同僚に相談することでしょう。
参考資料
1. Brown AW, Kaiser KA, and Allison DB. Issues with data and analyses: Errors, underlying themes, and potential solutions. PNAS. 2018, 115, 2563–70. https://doi.org/10.1073/pnas.1708279115
2. Statology. 5 examples of spurious correlation in real life. https://www.statology.org/spurious-correlation-examples/ [Accessed 29 July 2022]
3. Statology. Correlation does not imply causation: 5 real-world examples. https://www.statology.org/correlation-does-not-imply-causation-examples/ [Accessed 29 July 2022]
4. Gray K. Statistical mistakes even scientists make. KDnuggets. https://www.kdnuggets.com/2017/10/statistical-mistakes-even-scientists-make.html [Accessed 29 July 2022]
View Comments