- 記事
- 人気
すべてのデータを消失してしまったら、どうなるのでしょうか?
朝起きて、研究データがすべてなくなっているのに気づいたらどうなるか、想像してみてください!おそらく研究者にとって最悪の悪夢ですが、現実になってしまった不運な研究者もいます。データがすべて失われたというと衝撃的に思えるかもしれませんが、もっと衝撃的なのは、データの保管方法です。
ブリティッシュ・コロンビア大学バンクーバー校の進化生態学者であるティモシー・ヴァインズ氏が書いた、The Availability of Research Data Declines Rapidly with Article Ageという論文によると、研究者は古いデータを実家の屋根裏、車庫に置いた箱の中、今や使われていないフロッピーディスクなどに保管している、とのことです。こうした保管方法は、データの完全な喪失という深刻な結果を招きかねません。
研究データを効果的に管理することは、多くの研究者にとって、研究経歴のどの段階であっても、根強く残る問題です。ネイチャー誌に掲載されたある論文が報告している統計により、効果的なデータ保管の重大さが明らかにされています:
データ出力が急速に増加している
- 世界のあらゆるデータの90% は、ここ2年間で作られたものである。
- 科学的なデータの出力は、現在、1年に30%の割合で増え続けています。
多額の投資にもかかわらず、データが効果的に管理されていない
- 現在想定されている、研究・開発に対する世界の総支出は1.5兆ドルだが、危機にさらされている。
- 生み出されたデータの多くが失われている。データセットの出典が明らかにされる確率は、1年に17%ずつ減少している。
- 20年経過したデータセットの80%が利用できない状態である。
以上の統計から、科学が現在直面している深刻な問題が明らかにされています。予想されるように、データ喪失が科学に与えるコストは計り知れません。適切なデータがなければ、多くの研究がほとんど再現不可能になります。
こうしたケースの1つとして、農業研究者のメルヴィン・マッカーティ(Melvin McCarty)氏の例をあげましょう。1958年から1973年の15年間、ネブラスカ州周辺の植物や草のライフサイクルを記録しました。40年後、生態学者のリジー・ウォルコヴィッチ(Lizzie Wolkovich)氏が、気温上昇が植物のライフサイクルにどんな影響を与えているかを調べる実験とつなげるため、マッカーティ氏のデータを探し始めました。ところが、マッカーティ氏はすでに亡くなり、ローデータを見つけることができませんでした。このようにデータは喪失されると取り戻すことができませんし、再度一からデータを収集するということは、追加経費がかかるのを意味します。
研究データの喪失は主として、研究者だけがデータを保管しているために生じます。ですから、データ管理ツールを用いてデータを安全に保管するべきです。こうしたツールはたくさんあり(たとえば電子手帳、Google Drive などのクラウドストレージサービス、GitHubのようなコードホスティングサイト、より新しいツールとしてProjects)、広く利用されています。Digital Science勤務のネイサン・ウェストガース(Nathan Westgarth)がある記事で指摘しているように、 地理的境界を越えた共同研究がますます増え、それにより研究データの管理が難しくなっています。共同研究者の技術的な経験のレベルの多様性、入手できる様々なツールについての知識、守らねばならない実験室のシステム・プロセスについて守らねばならない制約、これらは、円滑なデータ管理の複雑さを増大させる、単なる要因にすぎません。結果として、多くの研究がベースにしているデータが入手できないために、それらの研究が機能不全に陥ってしまうのです。
研究者以外では、ジャーナルもまたデータ保護において不可欠な役割を果たすことが可能です。現在、論文投稿時に研究を支えるデータを著者に提出させ、データのアクセスと保護を保障しているジャーナルは多いです。データ共有 はデータを保護し科学の進歩を支援するので、開かれた科学への正しい一歩だと考えられています。研究データは値段がつけられないほど貴重なものであるため、研究者とジャーナルは、データが永遠に失われることがないようにする取り組みに参加することが必要です。
あなたはデータ管理ツールを使っていますか?データの共有により喪失は防げるでしょうか?
下のコメント欄からご意見ください。
コメントを見る