Прогресс в биофизике за последние несколько лет значительно снизил стоимость секвенирования коротких олигомеров нуклеиновых кислот. Таким образом, в значительной степени, задача секвенирования полного генома, также именуемая „вторичный анализ“ стал ИТ-задачей, где оставшиеся нерешенные вопросы связаны с передачей больших объемов данных через глобальные и локальных сети, управления обработкой данных в распределенной среде, обеспечение стабильности большого количества параллельных процессов и серверов, а также финансовые затраты на обработку.
В настоящей презентации мы описываем наш опыт портирования коммерческого приложения для геномной повторной сборки в среду облачных вычислений. Мы описываем основные архитектурные решения, которые легли в основу портинга, и его процесс, который начался с HPC дизайна, и итоге привел нас к типу архитектуры которую часто называют Большими данными.
В конце презентации мы обсуждаем финансовые аспекты масштабной обработки геномов в облаке, основных системных компонентов, и влияние, которое они оказывают на аппаратное и программное обеспечение.
Дмитрий Рекеш
Дмитрий живет и работает в Калифорнии в “IBM Advanced Cloud Solutions”, где занимается новейшими разработками в области облачных вычислений, больших данных (Big Data) и крупных стратегических аутсорсинговых проектах. Дмитрий имеет научный бэкграунд, в 1996 году он – выпускник Физтеха. Степень доктора наук по физике он получил в университете штата Аризона (Arizona State University), имеет также степень магистра делового администрирования Школы бизнеса Хааса при Калифорнийском университете в Беркли (Haas School of Business at UC Berkeley).