Навигация по сайтуНавигация по сайту

Знания обо всем, заключенные в ДНК

ДНК обладает самой высокой плотностью записи данных, до достижения которой технологиям человека придется долго и долго совершенствоваться. Именно поэтому некоторые ученые достаточно амбициозны, чтобы сделать целью своей жизни разработку технологии, благодаря которой можно будет использовать ДНК как носитель информации будущего. Но этот путь тернист - на нем таится множество трудностей.

Данное поле исследований вначале было лишь шуткой в среде ученых. В феврале далекого 2011 г. биоинформатик Ник Голдмэн (Nick Goldman) вел дискуссию со своими коллегами в Гамбурге; они пытались выяснить, как можно заархивировать огромное количество данных цепочки ДНК и другой информации. Ник Голдмэн вспомнил, что в тот момент ученые были настолько разочарованы в границах возможностей традиционного программного обеспечения компьютера, что они были готовы обратиться к научной фантастике. «Мы подумали: «Что нам тогда мешает хранить информацию с помощью ДНК?»

В тот момент всем внезапно стало не так уж и смешно. «Нам в голову пришла идея», - сообщает Голдмэн, руководитель исследовательской группы из Европейского института биотехнологий в Хинкстоне, Великобритания. Разумеется, накопители на основе ДНК работали бы очень медленно, по сравнению с микросхемами памяти на основе кремния, способными считывать  и записывать биты за микросекунды. Чтобы закодировать информацию на только что изготовленную цепь ДНК с помощью какой-либо базовой последовательности, понадобились бы долгие часы; а чтобы эту информацию считать с помощью специального устройства для секвенирования ДНК, понадобилось бы еще больше времени. Несмотря на это, все же стоит помнить, что в форме ДНК заключено все суммарное наследие человека - в клетке, которую невозможно увидеть невооруженным глазом. Если бы можно было достигнуть такой плотности записи данных, ДНК бы смогла посоревноваться с кремнием за потребителя, потому что она идеальна для долгосрочного хранения данных.

«Мы сидели в баре с ручками и салфетками и собирали идеи, - рассказывает Ник Голдмэн. - Что человек должен сделать, чтобы реализовать эти идеи?» Самые тяжелые хлопоты ученого заключались в следующем: при синтезе и секвенировании ДНК происходит в среднем одна ошибка на каждые 100 нуклеотидов. Поэтому для хранения большого массива информации молекула была бы слишком ненадежна; именно поэтому необходимо было найти универсальный работоспособный метод коррекции ошибок. Если бы биты записывались с помощью пар азотистых оснований, можно было бы находить и исправлять ошибки? «В течение всего одного вечера мы узнали, что это было возможным», - утверждает Голдмэн.

Ученый и его коллега из Европейского института биотехнологий в Хинкстоне Эван Бёрни (Ewan Birney) принялись за работу в своих лабораториях, адоптировав изначальные идеи. Два года спустя они официально заявили о первом успехе - с помощью ДНК им удалось записать 5 файлов, включая сонеты Уильяма Шекспира и отрывок из знаменитой речи Мартина Лютера Кинга “У меня есть мечта». Независимо от них тем временем биолог Джордж Чёрч (George Church) и его команда из Гарвардского университета в Кембридже, США, обосновали, что на ДНК можно хранить информацию. До недавнего времени разработанный первой группой носитель данных на основе ДНК был крупнейшим в своем роде и обладал емкостью в 739 килобайт, пока исследователям из компании Microsoft и их коллегам из Вашингтонского университета, США, не удалось закодировать 200 мегабайт информации на ДНК в июле 2016 г.

Достижение нового рекорда указывает на то, что интерес в использовании ДНК как носителя информации до сих пор не утихает в среде исследователей генома. Дело в том, что мир стоит на пороге информационного кризиса. Если подсчитать все, что записывает человек - от астрономических изображений, поступающих с телескопов каждую ночь (а это около 200 ГБ на одну единицу техники), до видео, загружаемых на Youtube, - то к 2020 г. цифровой архив возрастет приблизительно до 44 миллиардов ГБ.

Для долгосрочной архивации люди предпочитают хранить редко используемую информацию на старомодных магнитных носителях. На данном виде устройств информацию можно архивировать в два раза плотнее, нежели на кремниевом, однако считывание занимает значительно больше времени. По мнению Дэвида Марковитца (David Markowitz) из Агентства передовых исследований в области разведки в Вашингтоне, США, даже это промедление невыносимо. Как считает исследователь, в будущем существование вычислительных центров с эксабайтами информации (миллиард гигабайт) на запоминающих устройствах с магнитной лентой вполне вообразимо.

Но есть и существенные недостатки: только строительство и эксплуатация одного такого центра за 10 лет обойдется в миллиард долларов США, а также будут потрачены сотни мегаватт энергии. «Хранение информации на молекулярном уровне имеет такой потенциал, что все эти расходы можно было бы сократить почти в три раза», - утверждает Дэвид Марковитц. Если бы было возможно записать информацию с такой плотностью, с которой она закодирована, например, в геноме кишечной палочки Escherichia coli, всего лишь один килограмм ДНК мог бы хранить всю информацию, которой обладает человечество.

Это весьма сложно

Развить этот потенциал непросто. Прежде чем ДНК сможет составить серьезную конкуренцию традиционным технологиям хранения данных, ученые должны будут справиться с целым рядом задач и преодолеть множество трудностей: от надежной записи информации на ДНК и прицельного считывания только необходимой пользователю информации до быстрого и экономически выгодного производства нуклеотидных цепей.

Несмотря на все трудности, все больше и больше ученых решаются попробовать себя в этой сфере и бросить вызов технологиям. Корпорация исследований полупроводниковых технологий - учреждение в г. Дарем, США, являющееся дочерней организацией консорциума по производству чипов и микросхем, - вступила в гонку по разработке технологии записи на ДНК. Голдмэн и Бёрни, например, получают финансирование от Британского правительства, чтобы проводить эксперименты с новыми разработками носителей на основе ДНК. Оба ученых хотели бы основать собственное предприятие, на котором они бы смогли проводить опыты на основе собственных исследований. В апреле 2016 г. Агентство передовых исследований в области разведки и Корпорация исследований полупроводниковых технологий организовали собрание ученых, чтобы провести дискуссию о разработках в данной сфере.

«Уже десять лет мы пытаемся найти альтернативу кремнию с целью использования в производстве носителей данных, - сообщает директор Корпорации исследований полупроводниковых технологий, а также ведущий исследователь Виктор Жирнов. - Его весьма сложно заменить. Но этого можно достичь с помощью ДНК - самого сильного кандидата на его место».

В 1988 г. художник Джо Дэвис (Joe Davis) и ученые из Гарварда впервые представили цифровую информацию (0 и 1) с помощью четырех азотистых оснований ДНК. Последовательность ДНК, которую исследовательская команда вставила в палочку E. coli, могла сохранить всего лишь 35 бит. Исследователи представили копию одной древнегерманской руны в виде упорядоченной матрицы 5×7, где единицы представляли темные точки изображения, а нули - светлые.

В настоящее время Джо Дэвис присоединился к команде в лаборатории Джорджа Чёрча, где с 2011 г. ведутся исследования в области хранения информации на ДНК. Группа из Гарварда надеется, что применение данной технологии поспособствует сокращению высоких затрат на синтез ДНК так же, как изучение генома когда-то сократило затраты на секвенирование. В ноябре 2011 г. лаборатория Джорджа Чёрча проводила эксперименты в сотрудничестве с исследователями Шри Косури (Sri Kosuri) из Калифорнийского университета в Лос-Анджелесе и Юанем Гао (Yuan Gao) из Университета Джона Хопкинса в Балтиморе, США, с целью доказательства осуществимости проекта. Используя множество коротких цепей ДНК, команде удалось закодировать версию книги в 659 кБ, сочиненную Джорджем Чёрчем. Кроме конкретной информации каждая цепь содержала также данные о порядке частей, который должен появиться после секвенирования.

Ноль из бинарной системы ученые представили в виде оснований - аденина или цитозина, а бинарную единицу - в виде гуанина или тимина. Такая свобода в выборе позволила исследовательской группе избежать некоторых известных проблем, появляющихся при чтении созданных последовательностей, например: в областях со скоплением гуанина и цитозина, в повторяющихся отрезках или на местах, связанных друг с другом так, что цепи сворачиваются. Можно утверждать, что исправления ошибок как такового в этом случае не было, ученые полностью полагались на свойство избыточности и производили много копий каждой цепи. Так, после секвенирования цепей ДНК Косури, Чёрч и Гао обнаружили суммарно 22 ошибки - слишком много для надежного хранения данных.

Исправление ошибок через избыточность

Для своего носителя в 739 кБ Голдмэн, Бёрни и их коллеги из Европейского института биотехнологий использовали цепи ДНК; в ходе эксперимента они заархивировали одно изображение, текст на языке стандарта обмена информацией ASCII, аудиофайл, а также PDF-версию публикации Джеймса Уотсона и Фрэнсиса Крика о структуре двойного винта ДНК. С целью предотвращения повторения оснований и других источников ошибок команда применила несколько иной подход к процедуре записи. Например, кодирование информации проходило не с помощью бинарной системы из 0 и 1, а с помощью троичной системы, построенной на основе комбинаций из 0, 1 и 2. К тому же постоянно менялось азотистое основание, представляющее ту или иную цифру. Таким образом удалось избежать проблем при чтении информации, которые могли быть вызваны повторением. Когда последовательности ДНК накладывались друг на друга (цепь с сотней оснований последовательно делилась на каждые 25), ученые могли с точностью заключить, что для каждого отрезка из 25 азотистых оснований осуществлялась проверка на наличие ошибок и исправление этих ошибок.

Секвенирование генов: существующие на данный момент способы записи информации на ДНК пока слишком долгие и дорогостоящие, чтобы люди могли свободно использовать их в качестве носителя информации

По окончании эксперимента команда потеряла две последовательности из 25 оснований - по иронии судьбы это был отрывок из статьи Крика и Уотсона. Несмотря на полученные результаты, Ник Голдмэн остался уверенным в том, что ДНК все же годится для долгосрочного, экономически выгодного хранения информации, которое к тому же требует малых энергозатрат. Как долго такой носитель способен хранить информацию, Ник Голдмэн продемонстрировал посредством открытия, сделанного в 2013 г.: генетический материал лошади был извлечен из кости животного, сохранившейся в вечной мерзлоте 700.000 лет. «Уже через 3 года работники вычислительных центров перестанут полагаться на жесткие диски, -  утверждает исследователь. - А через, скорее всего, 10 лет никто уже не будет полагаться на запоминающие устройства с магнитной лентой. Если человек желает сохранить информацию на долгий срок, в игру вступает ДНК - как только мы получим возможность с легкостью записывать информацию в ДНК, пользователь сможет отложить свои данные в долгий ящик и забыть о них, пока они ему вновь не понадобятся».

Представление Голдмэна возбудило фантазию Луи Сезе (Luis Ceze) из Вашингтонского университета и Кэрин Штраусс (Karin Strauss) из Исследовательского центра Microsoft в Редмонде, США, которые занимаются исследованиями в данной области с тех пор, как в 2013 г. прослушали в Великобритании доклад Ника Голдмэна о своей работе. «Мы были ошеломлены, насколько плотной, постоянной и совершенной является молекула ДНК», - вспоминает Кэрин Штраусс.

По словам Штраусс, по своему возвращению в Вашингтон сама исследовательница, Луи Сезе и их коллега Георг Силиг (Georg Seelig) сразу принялись за работу. Свое внимание они сконцентрировали на следующем крупном недостатке носителей данных на основе ДНК, худшем, нежели возможность ошибки. С использованием традиционных технологий секвенирования можно вызвать только всю закодированную информацию, а не конкретную ее часть; то есть устройство всегда должно считывать все цепи ДНК, что может занимать долгое время. В то время как конвенциональные запоминающие устройства на компьютере позволяют пользователю сделать прицельный вызов именно тех данных, которые ему необходимы.

В апреле 2016г. исследовательская группа представила свое решение этой проблемы на конференции в Атланте, США. Сначала ученые изымают малые пробы из своего архива ДНК. Затем они используют так называемую полимеразную цепную реакцию (ПЦР), чтобы, с одной стороны, определить цепочку с желаемой информацией, а с другой - произвести больше копий. Такое стремительное приращение количества копий делает процесс секвенирования быстрее, экономически выгоднее  и точнее, нежели прежние способы. Ученые также разработали альтернативный способ исправления ошибок, что позволило в два раза увеличить плотность записи информации и сделать устройство более надежным по сравнению с носителем, разработанным Европейским институтом биотехнологий (ЕИБ).

Фотографии котят

Для проведения демонстрации Кэрин Штраусс, Луи Сезе и Георг Силиг закодировали несколько различных изображений, суммарно составляющих 151 кБ, как с помощью своей технологии, так и с помощью технологии ЕИБ. Они сделали запрос на три фотографии - котенка, Сиднейского оперного театра и обезьяны - с помощью технологии ЕИБ; в процессе чтения возникли ошибки, которые ученые исправили вручную. Фотографию оперного театра они вызвали с помощью своей технологии, ошибок при этом не возникло.

Специалист в области информационных технологий Ольгица Миленкович (Olgica Milenkovic) и ее коллеги из Иллинойского университета в Урбана-Шампейн, США, разработали носитель на основе ДНК с прямым захватом, на котором можно производить перезапись хранимой информации. С помощью их метода данные кодируются на длинных последовательностях ДНК, на концах которых записывается адрес ячейки памяти. Исследователи используют этот адрес, чтобы с помощью полимеразной цепной реакции или биохимической технологии CRISPR-Cas9 прицельно обратиться к конкретной цепи, чтобы сделать ее копию и переписать.

Тогда последовательность адреса необходимо выбирать таким образом, чтобы она не препятствовала считыванию информации и одновременно в достаточной степени отличалась от других, чтобы ее не перепутали при возникновении ошибки. Кроме того, необходимо преодолеть и другую проблему: иногда в молекулах образуются петли из-за того, что два не связанных друг с другом отрезка обладают комплементарными последовательностями из азотистых оснований. Все это требует скрупулезного подсчета. «Для этих целей мы с самого начала используем компьютер. Поэтому действительно сложно найти что-либо, что имеет все эти характеристики», - сообщает Миленкович. Тем не менее ее исследовательской группе удалось заменить этот трудоемкий процесс математическими формулами, с помощью которых можно намного быстрее разработать модель кодирования.

Большую часть кодируемой информации занимают изображения милых животных 

Следующим барьером на пути к созданию совершенного носителя данных на основе ДНК служит диапазон и скорость синтеза молекулы, и, как признается Шри Косури, он не был уверен в осуществимости идеи хранения информации на ДНК именно по этой причине. Чтобы узнать что-либо о глобальных проблемах архивирования информации, человеку необходимо подняться до градации в петабайт. «Это не невозможно, - сообщает Косури. - но людям необходимо понимать, что это означает увеличение емкости в миллион раз».

Дэвид Марковитц подтверждает, что это нелегко: «Господствующий способ изготовления - это химический процесс, разработанный почти 30 лет назад и занимающий 400 секунд для добавления одного единственного азотистого основания». По мнению исследователя, если бы у ученых был выбор способа, миллиарды различных цепей ДНК производились бы одновременно параллельно друг другу, чтобы запись проходила быстрее. На данный момент рекорд находится на уровне одновременного изготовления 10.000 цепей.

«Шестой порядок величины - невеликое дело»

Другой недостаток, мало связанный с предыдущими, заключается в высоких затратах на синтез ДНК. 98% финансирования (12.660 долларов) экспериментов Европейского института биотехнологий тратится именно на этот процесс. На секвенирование же приходится лишь 2% благодаря сокращению расходов со времени завершения проекта по декодированию генома человека в  2003 г., когда затраты уменьшились в 2 миллиона раз.

Целью значительного сокращения затрат занялся Джордж Чёрч и другие исследователи, запустив проект HGP-Write в 2016 г. Программа нацелена на полное искусственное воссоздание генома человека: 23 пары хромосом с 3,2 миллиардами нуклеотидов. Если проект HGP-Write окажется успешным, то, по мнению Шри Косури, геном человека займет лишь 0,75 ГБ памяти. Разработка пригодного для практического применения носителя данных становится серьезным вызовом. Многие исследователи, в том числе Виктор Жирнов, остаются оптимистичными и верят, что расходы на синтез ДНК смогут снизиться в несколько раз.

В апреле 2016 г. Исследовательский центр Microsoft предпринял первый шаг и заказал 10 миллионов цепей ДНК у Twist Bioscience, старт-апа в Сан-Франциско, США. По словам Кэрин Штраусс и ее коллег, они используют цепочки, которые по их новой технологии можно расширить до хранения 0,2 ГБ информации. Несмотря на то, что успехи в области синтеза ДНК еще не достигли цели проекта HGP-Write, Штраусс считает, что само по себе увеличение объема памяти в 250 раз имеет большое значение.

Ник Голдмэн с уверенностью заявляет, что это лишь первый глоток будущих технологий: «Мы пришли к тому, что нам необходимо 100.000-чикратное увеличение емкости, чтобы ввести новый носитель информации, и мы считаем, что это возможно, - утверждает исследователь. - Открытия предыдущих лет не дают никакой гарантии на успех; однако каждый год или каждые два года совершается какой-либо прорыв в технологии считывания данных. А в области изучения генома шестой порядок величины - невеликое дело. Нам нужно лишь немного подождать».

Опубликовано: 22.01.2017 в 17:30

Похожие статьи

Вперед Назад

Комментарии

Комментарии отсутствуют

Выберите себе хорошего специалиста!

Понравилось? Поделитесь с друзьями или разместите у себя: