「再現不可能性の問題は深刻ですが、誤解されている面もあります」

「再現不可能性の問題は深刻ですが、誤解されている面もあります」

研究者は多忙なものですが、その中でもヨナス・ランスタム(Jonas Ranstam)氏はとりわけ忙しい研究者と言えるかもしれません。ランスタム博士は世界でもっとも多くの論文を査読した人物として公式に認定されており、1年間で661本の論文を査読したことがあります。医学統計学者である同氏は、査読者の貢献を称えるためにPublonsが設けたSentinels of Science(科学の門番)賞を2016年に受賞し、最高の査読者の1人として知られるようになりました。今回のインタビューでは、医学統計学から査読まで、幅広いテーマについてお話を伺うことができました。


ランスタム博士は、フルタイムの研究職から身を引く前は、医学統計学の教授や上級講師として、ルンド大学(スウェーデン)など複数の学術機関に務めていました。現在は医学統計学者として、学術・研究機関、病院、政府機関、企業の臨床学や疫学研究者の統計アドバイザーを務めています。また、その専門性を活かし、Osteoarthritis and Cartilage誌の副編集長、British Journal of Surgery誌の統計編集者、Acta Orthopaedica誌の統計コンサルタント、その他複数の国際医科学誌の統計学専門の査読者として活躍しています。自身が運営するブログ「Statistical Mistakes(統計的誤り)」では、医学研究の統計的誤りに関する系統的レビューを行なっており、既存文献を参照しながら、そのような誤りを防ぐための方法を解説しています。


インタビュー前半では、統計的方法論、運営しているブログ、医学研究において不確実性のある結果を発表することの問題、再現性の危機についてなど、幅広いテーマでお話を伺いました。また、論文で統計データを用いるときに研究者がよくするミスについてもお聞きしました。

まずは、現在の活動についてお聞かせください。独立した統計学者/コンサルタントとしてどのようなことをしているのでしょうか?

臨床治療研究の分野を中心として、医学研究の問題に取り組んでいます。具体的には、研究プロジェクトの研究デザイン開発に参加したり、研究プロトコルや統計分析計画を書いたりしています。また、論文の査読や助成金申請書類、ときには就職応募書類のレビューも行なっています。前職の大学教授職とは対照的に、今は管理業務が非常に少なく、指導業務に至ってはほとんど行なっていません。

ブログ「Statistical Mistakesを始めた理由は何でしょうか?

このブログは当初、自分用の参考文献リストにすぎませんでした。査読をするときは、著者の学びを手助けする意味で、査読コメントに参考文献を含めることがよくあり、その作業の効率を上げるためにリストを作っていたんです。しかし、仕事柄、さまざまな場所で異なるパソコンを使って作業することが多く、リストをワードファイルに保存しておくのは不便でした。もっとも簡単な解決策が、WordPressの提供するブログサービスを利用することだったのです。


リストを公表することで不都合が生じるとは考えませんでした。むしろ、ほかの研究者の論文執筆や査読の手助けになるかもしれないと思いました。


ほかにも2つのブログに関わっています。ArthroplastyWatchでは、人工関節置換術の安全に関する情報を世界中から集めています。DRICKSVATTEN.BLOGは、スウェーデン国内の飲料水に関する情報を集めたブログです。

ブログの中で、医学研究者は「統計学的方法論について無知である」と言及されていますが、どのような改善方法がありますか?データや統計分析の扱いについて、医学やその他の分野の研究者の意識を高めるにはどうしたらいいでしょうか?

私が言ったことは、残念ながら事実です。ダグラス・アルトマン(Douglas Altman)氏は、次のように指摘しています。「統計分析の多くは、統計的手法に関する理解が不十分な人々によって行われている。さらに、その論文は同程度の知識しか持たない査読者によって査読されている」[Altman DG. Statistical reviewing for medical journals. Stat Med 1998;17:2661-2674]。


統計的な誤りは、結果として私たちすべてに影響を及ぼします。統計的誤りがなければ、より効果的・効率的な治療が可能ですし、コストを抑えることもできるはずです。私が最大の問題だと考えているのは、良質な医学研究には確率的現象への理解が不可欠であるにもかかわらず、多くの医学研究者が決定論的思考で研究を行なっているということです。


医学研究の質を向上させるための試みも行われており、統計的レビューの重要性は、多くの医学ジャーナルで高まっています。試験記録の公開や、CONSORT、PRISMA、ARRIVEなどの試験報告チェックリストの遵守は、論文がアクセプトされる上で欠かせない要素となっています。

ご自身のプレゼンテーションの中で、「すべてとは言わないまでも、多くの著者は、自分の研究結果の不確実性についての意識が低すぎる」と指摘されています。その点について詳しくお話し頂けますか?

医学研究はたいてい定量的なものです。つまり、研究結果のサンプリングや不確かさを定量化しているということです。これらは通常、p値や信頼区間を用いて測定されます。有意でない結果は、発表するには余りにも不確実であると考えるのが一般的です。


しかしながら、p値や信頼区間が正しく算出されていたとしても、実際よりも不確実性が低い印象を与えることができます。たとえば、仮説生成型の研究結果は、それが確証的であるかのように見せることができますし、多重検定の影響は無視または不適切な方法で補正することができます。このような行為が必ずしも故意であるとは限りませんが、一般的な方法論自体に、体系的に過大評価された経験的支持を伴う研究結果を生み出す性質があるように思います。現在の出版界が「出版するか消え去るか(Publish or perish)」という文化であることを考えると、このようなことが起こるのも不思議ではないのかもしれません。

別のプレゼンテーションでは、ジャーナル編集者は、より多くの被引用数が見込めるガイドラインの出版に躍起になっていると指摘されていました。この点についても詳しく教えてください。

レビュー論文やガイドラインなどの論文は、ほかの論文よりも引用されやすく、それゆえにジャーナルのインパクトファクターに大きな影響を与えると言われています。


この現象についてどの程度調査が進んでいるのかは分かりませんが、私が医学統計学の分野で働き始めた当時、医学研究の分野でもっとも多く引用されていたのがNonparametric Statistics(シドニー・シーゲル著)という統計学のテキストで、この中には分布によらない検定に関するガイドラインが含まれていました。

医学/生物統計学研究において、データの管理/保管/共有はどのような役割を担っていますか?

個人的に、結果の再現性は重要かつ必要なものだと考えていますが、オープンデータやデータシェアリングの議論は、少々危ういと感じています。複合的なデータベース構造や高度な統計分析によって、過小評価すべきでない多くの問題が表面化します。統計的再分析における誤りや誤解によって、妥当な研究結果の信頼性も容易に損なわれてしまいます。このような問題を防ぐには、データシェアリングに評価基準を定める必要があると思います。

科学が直面している再現不可能性の問題について、ご意見をお聞かせください。この問題を解決する方法はあると思いますか?

再現不可能性の問題は深刻ですが、誤解されている面もあると思います。科学は現状の事実に対して問いを投げかけることで発展します。結果を再現できるということは重要な要素ではありますが、再現できなかったとしても、それは必ずしも悪いことではありません。


私は、研究を適切にラベリングすることが重要だと考えています。多くの研究は探索的なものであり、目的は仮説を立てることです。このような研究は計画も立てやすく、適切に遂行できますが、推論の域を出ない結果に終わる可能性もあります。このような結果の不確実性を確証的に算出することはできないので、再現性がないのは当然と言えます。


また、検証的研究の結果も不確実だと言えますが、こちらの場合はより確定的です。なぜなら、結果の推論による不確実性を算出できる方法で計画・遂行されるからです。とは言え、一部の結果は誤っていたり再現不可能であったりすることが想定されます。


残念ながら、多くの研究に統計的な誤りが存在しています。実験を例に挙げると、エンドポイントが事前に設定されていなかったり、分析計画の中の多重検定に不適当な多重度補正が行われていたり、独立観測ではなく相関性を基にしていたり、といったことです。さらに、統計的評価の基礎となる前提条件が満たされているかどうかも無視されがちです。このほかにも、同等の重大な誤りは疫学研究の分野でも頻発しています。


現状を脱するための簡単な方法はありませんが、研究資源をより合理的に使用するためには、統計的な厳密さが明らかに不足しています。

著者、査読者、編集者としての経験から、統計データを使用する場合に著者がもっともよくするミスはどのようなものだと思われますか?これらのミスを防ぐ方法はありますか?

もっとも頻発するミスの原因は、p値と統計的有意性を正しく理解していないことだと思います。これらは不確実性に関連する重要な指標ですが、しばしば誤って使用されています。


最近出版された複数の論文(米国統計学会によるものなど)では、これらの問題が議論され、改善策が提案されています。BASP(Basic and Applied Social Psychology)誌は、「帰無仮説の有意検定」を一部含むようなp値やその他の統計的指標の使用を禁止しています。しかし、推論による不確実性を無視することは、状況を悪化させるだけでしょう。


 

インタビューの前半はここまでです。後半では、学術出版における査読についてお話を伺います。お楽しみに!

学術界でキャリアを積み、出版の旅を歩もうとしている皆様をサポートします!

無制限にアクセスしましょう!登録を行なって、すべてのリソースと活気あふれる研究コミュニティに自由に参加しましょう。

ソーシャルアカウントを使ってワンクリックでサインイン

5万4300人の研究者がここから登録しました。