実験室からバイオインフォマティクスの世界へ:異分野への挑戦
ビッグデータの歴史
アデレード大学理学部に所属していた当時、遺伝学の研究をしていた私は、自分がビッグデータの時代から逃れられないことを知りました。「データサイエンス」や「ビッグデータ」という言葉に初めて出会ったのは、遺伝学コース3年目の 2016年頃でした。
フォーブス誌の記事「A very short history of big data(ビッグデータ小史)」によると、ビッグデータが登場したのは1944年初頭でした。生物学の研究データの生成能力が増大したことにより、分野の関係者は、そのデータを分析するためのスキルと知識を持つ必要に迫られました。結果として、複雑な生物学データを分析するための新たな分野、すなわち「バイオインフォマティクス」や「計算生物学」が誕生したのです。
実験室からコンピュータへ
学部での演習は、実験室で実験を行うための技術に焦点を当てたものが多く、生物サンプルや試薬を使った、ウェスタンブロッティングによるタンパク質の検出や、DNA配列を増幅するためのポリメラーゼ連鎖反応(PCR)、遺伝子変異を誘発するためのCRISPR-CAS遺伝子編集技術などを学びました。その頃の私は実験を行うことが多く、PCRや遺伝子判定などをよくやっていました。一方、バイオインフォマティクスの講義は理論ベースのものがほとんどでした。その当時、プログラミングはあまり得意ではありませんでしたが、実習の主要部分ではなかったため、課題はすべてこなせていました。
プログラミングに初めて出会ったのは、初心者向けのバイオインフォマティクスのワークショップに参加した2014年でした。2014年は、アデレード大学のバイオインフォマティクス・ハブと、大学が誇るスーパーコンピューター「フェニックス」が開発された年でもあります。しかし、この経験が、後に自分が研究室での実験からバイオインフォマティクス(コンピュータ解析によって生物学データを分析する学問)に移行する最初のきっかけになるとは、そのときは夢にも思っていませんでした。
異なる研究分野への挑戦の旅
専門をバイオインフォマティクスに変えたものの、学ぶべきことが膨大だったことは認めざるを得ません。まず越えなければならなかった壁は、プログラミングの習得でした。これは、新しい言語で文を書くことを学ぶのと非常によく似ています。「文」(コマンドライン)が書けるようになったら、次はそれらを機能的なコーディングスクリプトにまとめる方法を学ばなければなりません。ある意味、1つ1つの文を、意味のある段落になるように組み合わせる作業と言えるでしょう。私は、シークエンシングデータの処理によく使われるプログラミング言語である「Bash」と「R」から学び始めました。会話文とは違って、コマンドラインやその構造の背後にある論法を理解するのに苦労したことを覚えています。プログラミングの背景がない私にとって、コマンドラインの文字列や記号は、古代の象形文字のようにチンプンカンプンなものだったのです。
「失敗すること」の恐怖を乗り越え、それぞれのコマンドがどのように機能するかを確かめるために大胆にコマンドラインを実行できるようになるまでには、それなりの時間を要しました。学習プロセスを速めるために、プログラミングのオンラインコースに申し込んだこともあります。また、壁にぶち当たったときは、バイオインフォマティクスや統計学、計算生物学の専門家に、迷わず相談しました。訓練を重ねるうちに、何度も行き詰まりながらも、時間とともに徐々にスキルを習得していくことができました。
次の課題は、データ処理を学び、理解することでした。データクリーニングや品質チェックなどの各データ処理プロセスの背後にある論理的根拠を理解することは、データ分析における意思決定をする上で欠かせない要素です。最初は、コードを実行した後に何が起きるのかを理解することで精一杯でした。これは、処理されたデータファイルを確認し、出力の解釈を行うことについて、あまりにも当時の私が無知だったからです。また計算生物学で使用されている用語(階層的クラスタリング、主成分分析[PCA]、ブートストラップなど)を理解するのにも苦労しました。しかし、試行錯誤を繰り返して経験を重ね、ゆっくりとではあるものの、着実にデータ分析スキルを磨いていきました。
コンピュータによるデータ分析に必要な思考過程は、実験とは大きく異なると実感しています。たとえば、研究室で実験を行なっていたときは、事前に実験計画を立て、その手順通りに慎重に実験を行い、結果を解釈していました。実験は実体で構成されているので、進捗を目で見て実感することができました。一方、バイオインフォマティクスでは、抽象的なプログラミングの世界で進められているデータ分析を、端末のインターフェース上で確認することしかできません。コードが機能しなかったときなどは、何の進歩もないとしか感じられず、敗北感に覆われます。でも、少しずつではありますが、Githubなどのオンラインリポジトリを使って、コードに加えた変更を記録する方法(バージョン管理)も学んでいます。これによって、実験ノートに実験記録を書き留めるのとは大きく異なるものの、作業の進展を把握することができるようになりました。
新たな分野での技術的なスキルを習得するのとは別に、データ分析に関わる学生にまつわるステレオタイプが存在することも知りました。バイオインフォマティクスや計算生物学を研究している学生は「キーボードをカチャカチャしているだけ」で、研究室で実験を重ねている学生よりも楽をしているという誤解があり、「大した仕事をしていない」という風潮が存在します。このステレオタイプのために、私はしばらくの間、軽度のアイデンティティー・クライシスに悩まされました。この誤解を解くために、同僚たちには、データ分析による結果よりも、その過程について多くの話をするようにしました。データ分析は、徹底的な思考やプログラミングプロセスを経て、生データが洗練されたデータとして視覚化されることにより、さらなる解釈が可能になるものであるということを知ってもらいたかったのです。
振り返ってみると、実験者からデータマイナーへの転身の旅は、困難な道であると同時に、やりがいのあるものでもありました。覚悟と粘り強さがあれば、転身は間違いなく可能です。私は現在、修士(MPhil)の学生としてアデレード大学の植物エピジェネティックおよび生殖研究グループで、データ分析による植物エピジェネティックの理解に関する研究に取り組んでいます。現地のセミナーや全国規模の学会で、ポスターや研究発表も行なっています。これまでに参加した学会には、Australian Bioinformatics and Computational Biology Society 2017(ABACBS、アデレード)、Australasia Conference for Undergraduate Research 2017(ACUR)、ComBio2018(シドニー)、Lorne Genome Conference 2019(ビクトリア)などがあります。
ここまで長い道のりを歩んできましたが、素晴らしい研究者とデータサイエンティストたちの指導によって今の私があることに、非常に感謝しています。とは言え、学ぶべきことはまだまだ残っています。バイオインフォマティクスと計算生物学の世界に魅せられた私にどのような未来が待ち受けているのか、楽しみにしています。
コメントを見る