研究者が避けるべき4つの統計学的エラー

2018年12月03日 8.7k ビュー

統計学は、2つ以上の変数の関係性を見極め、研究上の問いを評価するためのツールです。また、生物統計学は、統計学、確率、数学、コンピューティングを組み合わせたもので、生物医学の問題解決に使われます。生物統計学を用いることで、新薬に効果があるかどうかや、疾病の原因因子、患者の平均余命、全体の死亡率・罹患率などを分析することができます。

生物医学の研究において、統計学はもっとも重要なツールの1つであるにも関わらず、意識的か無意識かによらず、誤用や乱用が蔓延しています。実際、統計学の誤用が論文のリジェクトの主な要因になるケースが急速に増えています。

この記事では、生物医学分野で統計学が誤用される理由と、蔓延するこの問題の解決手段について考えます。まずは、統計エラーの背後にあるものを見ていきましょう。

1. 統計データを示すための明確さ不足：論文では、統計的手法とその手法による分析データを示します。しかし、統計的仮定を明確に示せていない論文が多く、読者が統計データの全容を掴むのを妨げる大きなグレーゾーンが存在しています。医学部の学生と教員を対象としたある横断的調査では、53.87%が統計学を非常に難解と捉えており、p値と標準偏差の意味を正確に定義できなかった割合はそれぞれ52.9%と36.45%にのぼり、50.97%がサンプルサイズを正しく計算できないことが明らかとなりました。この結果は、研究者に必要な能力として、データを正しく分析する力だけでなく、それらを正確に使用して提示する力の重要性を示しています。

2. データ対理論のバランスの悪さ：臨床研究が統計学の面で厳格な査読を経ている一方、基礎科学研究はそうではありません。生物化学、行動科学、動物実験、細胞培養が関係することが多い基礎研究の学際的性質が、統計学的分析を困難にしています。研究者は実験終了後に統計分析の導入を決める場合が多く、このような事後分析的手法では、限られた情報しか得ることができません。

3. データ収集開始前の意思決定不足：サンプルサイズ（例：マウスの数）の決定など、実験の重要な局面で統計分析を計画しておくことはきわめて重要です。こうすることで、研究結果に大きなメリットをもたらすことができます。結果に影響を及ぼし得るサンプルの変数（体重、BMIなど）が複数あることを考慮すると、それぞれの結果ごとにサンプルサイズを計算し、実際の最大のサンプルサイズを決定するのが効果的なアプローチと言えるでしょう。研究者は、出される結果の関係性の分析を、データ収集前に決めておくことが理想的です。この方法は、偽陽性の関係を防ぐ上で効果的です。主要転帰変数を明確にし、研究に比較群（例：薬品A対薬品B）または従属群（例：鬱症状のあるマウスへの薬品Aの投与による変数の効果）を含めるかどうかを判断しましょう。

4. データ収集と統計分析のバイアス：研究デザインの段階でも、対照群（条件）、ランダム化、ブラインディング、レプリケーションに配慮することがきわめて重要です。サンプルサイズが大きい場合は、ランダム化によって意図しないバイアスや交絡を取り除くことができます。たとえば、薬品Aの効果を動物の体重・心拍数・BMIによって評価する研究があったとしましょう。この場合、研究者はそれぞれの実験を独立したものとして設定しがちです。このアプローチは、バイアスと交絡を生み出します。一方、対照群と薬品を投与する群に対して十分なランダム化を行うと、心拍数・BMI・体重を適切に観察することができます。

同様に、事後分析が未確定で、懸念のある因果経路を十分に検討することなく複数の分析で潜在的関係性を調べる方法では、研究者は、すべての潜在的関係性を分析する中で、結果を「フィッシング」する可能性があります。したがって、統計的手法を使う場合は、その方法論や論拠を示し、指針として広く認められている国際医学編集者会議（ICMJE）ガイドラインなどの規定に準拠することが重要です。

論文出版プロセスにおける統計学的エラーの意味

正確な結果を得るためには、データを正確に扱うことが重要です。また、統計的正確性は、論文を出版する上でもきわめて重要です。ジャーナルが統計学的エラーを見つけたら、著者は広範囲に及ぶ修正を余儀なくされるか、論文自体がリジェクトされることもあるでしょう。残念ながら、統計エラーは決して珍しくありません。出版プロセスの段階でのよくある統計的ミスは、以下のように分類できます：

研究デザインのミス（例：対照実験がランダム化されていない、対照群が不適切）
データ分析のミス（例：対応のあるデータに対応のない検定を行う、他の統計データを用いずにp値のみを報告する、直線関係の確認をせずに直線回帰分析を行う）
データ表現のミス（例：標準偏差ではなく標準誤差を使ってデータを表す、円グラフを使用して連続型変数の分布を示す、多重比較の際の調整がない）
データ解釈のミス（例：後付け的に推論する、失敗した研究を成功した研究として解釈する）

統計分析の説明に関するエラーであれば、修正は難しくないでしょう。しかし、データ分析やデータ解釈、結果の考察部分にミスがあった場合は、論文全体を通した大幅な修正が必要になります。また、研究デザインにエラーがあった場合は、研究をやり直さない限り修正が不可能であるため、論文はリジェクトされるでしょう。

統計学の誤用を防ぐには

統計データは、最先端の生物医学を進歩させる上で欠かせないものです。これを実現するには、統計データの収集、分析、表現の誤用や乱用を避ける意識的な努力が必要です。

研究者一人一人がこのような意識を持ち、規定に従って統計学を扱う必要があるでしょう。ICMJEは、「生物医学系ジャーナルに投稿する論文の要件の統一」を義務付けています。これらのガイドラインは、統計的手法が正しく使用され、説明されるようにするための提言となっています。

ICMJEのガイドラインの他にも、研究者が知っておくべきガイドラインとして、「Statistical Analysis and Methods in the Published Literature（出版論文における統計学的分析および手法、SAMPL）」などがあります。これらは、それぞれの統計学的手法や分析ごとの報告方法について詳しく解説しており、実験的研究におけるデザイン、実行、解釈に関する指針を示すことを目的としています。

生物医学分野の論文はほとんどの場合、統計学に支えられています。したがって、生物医学系ジャーナル（とくに、Lancet、Nature、Science、Cell、JAMAなどのインパクトファクターが高いジャーナル）は、生物統計学者を編集者や査読者として雇っています。論文の審査チームに生物統計学の専門家を加えるジャーナルは、徐々に増え始めています。

データを基にエビデンスをまとめて結論を導き出すのは、研究デザインの変数やサンプルサイズ、評価項目の数を考慮すると、確かに難しいことかもしれません。しかし、コンピューターや統計ソフトウェアなどのツールによって、データの解釈や分析の手段は増えています。とは言え、ツールの増加によって誤解やミスが増えている側面があるのも事実です。

ノルウェーの数学者／生物統計学者／医学研究者で、スタヴァンゲル大学健康科学科のジョー・ロイスリエン（Jo Røislien）博士は、「[…]統計学は、研究結果を信頼するかどうかへの確信度合いを定量的に示すもの」と説明しています。したがって、研究者は、研究に着手する前に統計学的手法のベストプラクティスを学んでおく必要があるでしょう。統計学は、正しく扱うことができれば、生物医学の現状の知見をさらに拡張できる力を秘めた強力なツールなのです。

関連記事：

学術界でキャリアを積み、出版の旅を歩もうとしている皆様をサポートします！

無制限にアクセスしましょう！登録を行なって、すべてのリソースと活気あふれる研究コミュニティに自由に参加しましょう。

Top

便利さを実感して頂けましたか？

あなたの周りの研究者にもぜひご紹介ください

このコンテンツは「研究の実施」ステージに属しています。

研究を行うにあたっての基本を学びましょう。エキスパートによる無料の個別コーチングを受けましょう。

研究者が避けるべき4つの統計学的エラー

Related Reading

エディテージ・インサイトについて

登録する

エディテージとつながろう！

当社のグローバルサイト

研究者が避けるべき4つの統計学的エラー

Related Reading

ビッグデータはグッドデータか？ ビッグデータ処理…

統計的情報を効果的に表現するには？ 役立つ2つの…

統計的有意性と臨床的意義をつなぐためのパラダイム…

ビッグデータはグッドデータか？　ビッグデータ処理…

統計的情報を効果的に表現するには？　役立つ2つの…