Понедельник, 22 Мая 2017

Биокодирование: 900 ТБ в грамме бактерий

Новый метод записи данных, представляющий собой конвертацию информации в последовательности ДНК, позволит сохранить содержимое целого винчестера в одном грамме живых бактерий E. Coli (кишечная палочка)… и это еще не предел!

Бактерия e. coli - кишечная палочка

Идея записи данных внутри бактерий витала в воздухе уже не первый год. Даже самая простая бактерия имеет в себе невероятно длинные цепочки ДНК, являющиеся прекрасными носителями данных, при этом такой носитель будет намного сложнее испортить, чем обычный винчестер. Ведь бактерия – наиболее приспособленный к выживанию микроорганизм, способный не только пережить любую мировую катастрофу, но и преспокойно жить, например, в кислоте – таким не похвастает ни один современный электронный носитель, будь то HDD или SSD. Более того, бактерия постоянно размножается – клетки делятся, сохраняя последовательности ДНК практически нетронутыми. То есть, информация постоянно резервируетсяю.

Принцип кодирования информации в последовательности ДНК довольно прост – у ДНК существует четыре нуклеотида: аденин, цитозин, гуанин и тимин. Именно они могут послужить своеобразными «битами» информации в четверичной системе счисления.

В своей презентации Гонконгские ученые показали, каким образом можно закодировать в последовательности нуклеотидов ДНК слово “iGEM”: они использовали обыкновенную таблицу символов ASCII для конвертации каждой буквы в числовые значения десятеричной системы счисления (i=105, G=71 и так далее). Затем их перевели в значения четверичной системы счисления (105=1221, 71=0113 и так далее). И, наконец, числа были заменены на принятые в генетике обозначения нуклеотидов (0=A, 1=T, 2=C и 3= G). В итоге слово iGEM превратилось в ATCTATTGATTTATGT.

Последовательность нуклеотидов в двойной спирали

Когда набор данных полностью сформирован, можно прогнать результат через алгоритм сжатия, который позволит значительно снизить количество используемых «битов» и повторяющихся последовательностей. Повторы в последовательности могут отрицательно влиять на «здоровье» ДНК и бактерии, так что алгоритм сжатия убивает сразу два зайца – увеличивает количество данных, записанных в одной клетке, и убирает последовательности одинаковых «битов», могущие навредить «здоровью» бактерии.

Длина последовательности ДНК не настолько велика, чтобы записать в одной клетке целую фотографию или книгу, поэтому наиболее простым решением становится разбивка файла на фрагменты, расположенные в разных клетках. Дабы собрать впоследствии эти фрагменты воедино, в каждой последовательности ученые предлагают оставлять вводную и заключительную запись с информацией о положении данного фрагмента в общей картине файла. То есть, для всех отдельных ячеек данных (последовательностей ДНК, заключенных в клетках) исследователи создали универсальную структуру, состоящую из заголовка, непосредственно данных и контрольной суммы.

Заголовок состоит из последовательности в 8 «бит», он разделяется на четыре вложенных уровня — зону, регион, область и участок – именно эти данные адресуют определенную клетку, говоря о том, какую часть файла она представляет. Контрольная сумма, которая будет включаться в «футер» последовательности ДНК, поможет восстановить данные в случае случайных мутаций, происходящих при делении клетки.

Итак, что если информация закодирована и продублирована делящимися клетками. Каким образом восстановит данные получатель? Получатель воспользуется технологией секвенирования ДНК с высокой пропускной способностью (так называемая NGS). Технология позволит проанализировать и сравнить большое количество копий одной и той же последовательности а затем вычислить какая из этих копий (или набор частей из разных копий одной последовательности) совпадает с контрольной суммой. После того восстановленные данные нужно будет прогнать через алгоритм сжатия (но в обратном порядке), получив в результате «разжатые» данные в исходном виде.

Колония кишечной палочки

Последним шагом является сборка данных воедино – здесь раскодирующему последовательности нужно будет знать «формулу», благодаря которой можно вычислить правильный порядок заголовков и контрольных сумм. Без этой самой формулы данные превращаются в бесполезные куски информации – то есть шифрование в таком методе записи заложено изначально.

Но все это – теория, а как обстоят дела с биокодированием на практике? На практике простое биокодирование пока невозможно – все вышеописанное проделывалось в порядке эксперимента, однако чтобы синтезировать ДНК с определенной последовательностью нужно очень дорогое оборудование и работа высококвалифицированных специалистов. Процесс записи при этом займет значительное количество времени – то есть на практике пока технология остается очень далекой от стадии работоспособности у простого пользователя.

Несмотря на это, возможности биотехнологии удивительны. В одном единственном грамме бактерий E. coli можно хранить до 900 000 гигабайт (или примерно 900 терабайт) данных, а это в свою очередь означает, что в одном грамме бактерий умещается в 450 раз больше информации, чем в самом емком на рынке винчестере.

Что касается опасности кишечной палочки, на которую производится «запись» информации – здесь ее нет. Исследователи использовали не вирулентный штамм бактерии, которая не способна ни на что большее, кроме как на размножение и запоминание данных.

Комментарии Facebook:

Оставьте комментарий

*


© 2003 — 2017 OutZone

Создано в студии webdesire