Hadoopがゲノムシーケンスに最適な理由

著者: Roger Morrison
作成日: 19 9月 2021
更新日: 19 4月 2024
Anonim
知ってますか 全ゲノムリシーケンスとターゲットリシーケンス
ビデオ: 知ってますか 全ゲノムリシーケンスとターゲットリシーケンス

コンテンツ


ソース:A3701027 / Dreamstime.com

取り除く:

ゲノムシーケンスには、すべてのデータを処理するための強力なテクノロジーツールが必要であり、Hadoopが任務を果たします。

臨床ゲノミクスは魅力的なテーマであり、人々は最先端のテクノロジーに取り組んでおり、迅速かつ正確な結果を処理しています。市場には多くのゲノムシーケンサーがあり、それらはペタバイトの配列データを生成しています。配列の増加は近い将来エクサバイトのデータを生成するでしょう。ここで、Hadoopは複雑なゲノミクスのワークフローを処理するための完璧なプラットフォームです。 Hadoopは、大量の情報を保存およびソートでき、意味のある分析を提供できます。 (これが実際にどれだけのデータを必要としているかを知るには、ビット、バイト、およびその倍数についてを読んでください。)

ゲノミクスの現在と未来

今日、ゲノムマッピングは開発のピークに達しました。ゲノミクス業界に携わる多くの人々は好奇心で一杯になり、新しい機会が出現するにつれて、より良い技術が時間の必要性です。ゲノムシーケンスは、非常に反復的でリソース集約的なタスクです。 2013年だけでも、約15ペタバイトのデータが生成され、わずか2,000シーケンサーで生成されました。この驚異的な量には、300 KBのシーケンスされたヒトゲノムデータが含まれていました。このデータ生成速度では、2018年までに約1エクサバイトのデータが生成されると推定できます。これは、実行ごとにより多くのデータを生成するシーケンサーの成長によるものです。もう1つの理由は、非常に強力で低コストのゲノムシーケンスマシンの出現です。 2008年以来、これらの機械の価格は着実に低下しています。これは、強力な次世代マシンが市場に進出しているためです。

ゲノムマッピング業界のニーズ

複雑なアルゴリズムは、ヒトゲノムから収集されたデータの処理に使用されます。次に、この情報を保存する必要があります。将来、元のデータと比較するためにレビューされる可能性があります。特にシーケンスセンターで採用されている強力なマシンを使用して行う場合、100 GBのデータを処理および保存するタスクはそれほど難しくありません。調査によると、この量のデータは約1,000 CPU時間で処理できるため、非常に簡単です。この技術進歩の速度で、ゲノム産業は数秒で数千ギガバイトをすぐに処理することは明らかです。


ただし、データ管理とストレージの技術はそれほど速く進化していないため、貴重なデータの大きな損失が予想されます。これは、ヒトゲノミクスの進歩を著しく妨げるため、本当に望ましくありません。そのため、簡単に更新できる効率的なデータ管理手法が非常に必要です。これは、ゲノムマッピングが強力なコンピューターを備えた大規模な研究室から小さな病院や研究室に移行する近い将来に特に有効です。

ソリューションに期待されることは何ですか?

新しいゲノム配列決定技術が発見され、開発されているペースは非常に速いです。このペースは、主要な病気を根絶するための強力なステップの形で、医学にとって非常に有益です。ただし、このペースも非常に難しい場合があります。

課題は、シーケンスプロジェクトによって生成された大量のデータを管理するという形です。そのため、ビッグデータの保存と処理に役立つ効果的なソリューションが必要です。このソリューションは、適応性がありながら、安価で高速でなければなりません。このソリューションで提供される分析も正確かつ一定でなければなりません。それでは、問題の解決策は何ですか?間違いなく、それはHadoopです。 (Hadoopの使用に関する詳細については、サービスとしてのビッグデータ(Hadoop)に関する5つの洞察を参照してください。)

Hadoopがゲノムシーケンスに最適なソリューションである理由

ゲノミクス業界が必要とするのは、データを効果的に管理し、処理し、将来の使用のために保存できる優れたソリューションです。このソリューションは、Hadoopソフトウェアと完全に一致するようです。そのため、Hadoopは、ゲノミクス業界の現在のデータストレージ技術を大幅に改善できる、完璧なビッグデータ管理ソフトウェアと見なすことができます。

Hadoopのリアルタイム機能により、ゲノムシーケンサーは大量のデータをリアルタイムで一度に分析および保存できます。これにより、データの将来の使用も可能になります。 Hadoopは、従来のシステムよりもはるかに高速で信頼性が高いため、多くのレガシーシステムに勝つことができます。


バグやストレスなし-あなたの人生を破壊することなく人生を変えるソフトウェアを作成するためのステップバイステップガイド

誰もソフトウェアの品質を気にしない場合、プログラミングスキルを向上させることはできません。

他にHadoopでできること

Hadoopにより、ゲノミクスと遺伝子シーケンスの分野で多くの可能性と機会が開かれました。 Hadoopは、より高速なシーケンス処理が可能な並列コンピューティングオプションを提供します。また、HadoopのMapReduce関数を使用すると、多数の遺伝子を非常に簡単にマッピングできます。このため、Hadoopでのシーケンスは本当に「次世代」になり、はるかに複雑ではなくなります。

Hadoopの機会

Hadoopには、ゲノム業界でいくつかの機会がありますが、最高のチャンスは、ジャーナルGenes&DevelopmentのLynda Chinの記事「Making sense of cancerゲノムデータ」から得られました。この記事では、現代のゲノミクスがどのように新しい扉を開いたのかを議論し、これは癌に関するゲノム情報の発見のような多くの肯定的な結果をもたらしました。このため、がん自体の治療法の発見に近づいています。ただし、この分野での研究能力を高めるには、もう少し注意と強力なデータ管理アプリケーションが必要です。これは、Hadoopの速度、パワー、および精度を証明するための最良の機会です。

Crossbow:次世代のデータ管理プラットフォーム

Crossbowは、ゲノムのリシーケンスの分析を目的としたソフトウェアパイプラインであり、最適なソリューションの1つです。これは、ボウタイと呼ばれる配列データを整列させるための迅速なアルゴリズムと、配列データを比較および検査する強力なアルゴリズム、つまりSoapSNPというジェノタイパーとの間のHadoop内の統合の結果でした。 Apache Hadoop上に構築され、MapReduceフレームワークの実装に基づいています。 Crossbowはポータブルでスケーラブルであり、クラウドコンピューティングツールとしても適しています。

この強力な統合により、10個のノードを持つローカルクラスターで1日で完全なゲノムを検査できます。 40ノードのクラスターを使用すると、プロセスはさらに高速になり、わずか3時間で完了します。総コストは100ドル未満です。 Crossbowの精度をテストするために実施された研究は、Crossbowが各ゲノムを99%の精度で比較できることを示しました。 Crossbowのもう1つの便利な機能は、クラウドで実行されることです。したがって、Crossbowは、病院などの数千の将来のシーケンシングセンターが、強力で高価なコンピューターやテクノロジーを必要とせずに、大量のゲノムデータをシーケンスできるようにします。

その他のHadoopベースのゲノミクスソフトウェア

多くの企業が、ゲノミクスの世界を変えるHadoopの力を認識しています。彼らは、高度なゲノムシーケンスの可能性を活用するために、Hadoopを適切に修正しました。 Hadoopベースの有名なゲノムシーケンスソリューションの例を以下に示します。

  • Hadoop-BAM:これは、ジェノタイピングなどのゲノミクスに関連するさまざまなアクティビティにHadoopのMapReduce機能を利用する強力なデータ管理ツールです。これはBinary Alignment / Map形式で機能します。
  • Cloudburst:このHadoopベースのソリューションは2009年に作成されました。ゲノムシーケンスの比較と個々の遺伝子のマッピングに非常に効率的です。これは、この目的のために設計された最初のHadoopベースのアプリケーションの1つでもあります。

結論

ビッグデータとゲノミクス業界の統合は、現代において恩恵をもたらしています。これらのプラットフォームは、癌のようないくつかの病気の治療法の発見に効果的です。ゲノムマッピングによって発見されたデータは、このような病気の予防情報の定式化に使用できます。ビッグデータの出現は、ゲノミクスの世界におけるターニングポイントと見なすことができます。情報が賢明に使用される場合は、医療のより広範な分野でも使用できます。この分野を前進させる唯一の方法は、Hadoopなどの適切なデータ管理ツールを使用することです。