Молекулы ДНК представляют собой надежное устройство по хранению информации, хорошо защищенное от ошибок чтения и записи. Ученые пытаются приспособить их для хранения произвольных данных с 1988 года, когда американским биоинформатикам впервые удалось записать 7,9 килобайт информации на молекулу ДНК и прочитать ее.
Георг Черч George Church
Эд Реджис (Ed Regis)
Группа ученых под руководством Шрирама Косури (Sriram Kosuri) из Гарвардской медицинской школы в Бостоне (Harvard Medical School) разработала особый компьютерный алгоритм, позволяющий сжать и подготовить для записи на молекулу ДНК практически неограниченный объем информации. Они создали книгу (электронную версию "Регенезис: как синтетическая биология переизобретет природу и нас самих", написанной участником группы Джорджем Черчем (George Church) и писателем Эдом Реджисом (Ed Regis) из 53 тысяч слов на молекулах ДНК, и прочитали ее при помощи устройства секвенирования Illumina HiSeq, достигнув рекордной плотности записи информации на сегодняшний день.
Электронная версия книги содержит в себе 5,27 мегабит (658 килобайт) информации, в том числе 53,5 тысячи слов, 11 картинок и 1 ява-скрипт.
Система секвенирования Illumina HiSeq (Секвенирование (sequencing) – это общее название методов, которые позволяют установить последовательность нуклеотидов в молекуле ДНК).
Данные разбиваются на куски одинаковой длины и записываются на короткие фрагменты ДНК длиной в 159 нуклеотидов. Каждый такой блок содержит 96 бит данных, 19 битный адрес блока и два фрагмента по 22 бита, кодирующих начало и конец "пакета" информации. В каждом случае один нуклеотид кодирует один бит данных - азотистые основания аденин (А) и цитозин (С) обозначают логическую "единицу", а гуанин (G) и тимин (T) - логический ноль.
При записи информации блоки синтезируются из отдельных нуклеотидов при помощи струйного ДНК-принтера. Наличие адреса у каждого блока позволяет хранить информацию в виде смеси из коротких последовательностей нуклеотидов, а не единой цепочки ДНК. Это позволяет хранить практически неограниченный объем информации, увеличивая длину адресной части блока.
Эффективность алгоритма: книга была считана всего с десятью ошибками на 5,27 мегабит данных.
Еще одно преимущество, помимо неограниченной длины записи и устойчивости к ошибкам - невероятно высокая плотность записи - 5,5 петабит на кубический миллиметр (за счет использования нуклеотидов в качестве единичных битов). Это больше аналогичной характеристики для флеш-памяти и жестких дисков в миллионы раз, и в сотни раз превышает плотность записи данных в квантовой голографии.
Будущее?
Ученые полагают, что такие характеристики ДНК-памяти могут помочь ей стать одним из основных способов хранения информации в архивах.
Это новость от журнала ММ «Машины и механизмы». Не знаете такого? Приглашаем прямо сейчас познакомиться с этим удивительным журналом.