Исследователи с факультета компьютерных наук Генри и Мэрилин Тауб разработали метод на основе ИИ, который ускоряет поиск данных на основе ДНК на три порядка, при этом значительно повышая точность.
В состав исследовательской группы вошли аспирант Омер Сабари, доктор Даниэлла Бар-Лев, доктор Итай Орр, профессор Эйтан Яакоби и профессор Туви Эцион. Исследование опубликовано в журнале Nature Machine Intelligence.
Хранение данных ДНК — это новая область, которая использует ДНК как платформу для хранения информации. ДНК предлагает значительные преимущества в качестве носителя информации, в том числе: Долгосрочное сохранение: в 2013 году исследователи в Дании успешно извлекли ДНК из кости лошади возрастом 700 000 лет.
В 2021 году международная группа извлекла ДНК из мамонтов, живших более миллиона лет назад.
Напротив, срок службы магнитных дисков, используемых в центрах обработки данных, измеряется годами или, в лучшем случае, несколькими десятилетиями.
Это подчеркивает потенциал ДНК для долгосрочного хранения. Энергоэффективность и экономическая эффективность : «облако», которое обеспечивает работу большинства современных вычислительных сервисов, опирается на центры обработки данных , которые потребляют около 3% мировой электроэнергии и выделяют около 2% от общего объема выбросов углерода.
С экспоненциальным ростом данных ожидается, что воздействие существующих технологий на окружающую среду значительно возрастет.
Непревзойденная плотность данных: ДНК-хранилище обеспечивает плотность данных в 100 миллионов раз больше, чем традиционное цифровое хранилище.
Это означает, что том, который в настоящее время содержит один мегабайт, теоретически может хранить до 100 терабайт с использованием ДНК.
ДНК — это молекула, состоящая из последовательности органических соединений, называемых нуклеотидами. Эти нуклеотиды подразделяются на четыре типа, представленные буквами A, C, G и T. В отличие от традиционных вычислений, где данные кодируются с использованием только двух цифр (0 и 1), хранение ДНК основано на последовательностях из четырех букв, что значительно увеличивает количество возможных комбинаций.
Для записи (хранения) данных в этой технологии требуется синтез ДНК — создание молекул ДНК на основе последовательностей, кодирующих информацию.
Для чтения сохраненных данных необходимо секвенирование ДНК.
Проблемы хранения данных ДНК Разработка технологии хранения данных на основе ДНК сопряжена с рядом технологических проблем: Как синтез, так и секвенирование являются длительными и подверженными ошибкам процессами, приводящими к ошибкам удаления, вставки и замены.
Из-за ограничений процесса синтеза, производятся множественные копии каждой молекулы ДНК, кодирующей данные.
Эти копии хранятся вместе, неупорядоченно, в контейнере для хранения В процессе секвенирования извлекается множество ошибочных копий этих молекул, большинство из которых содержат ошибки, а некоторые полностью исчезают.
DNAformer: поиск данных с помощью искусственного интеллекта Текущее исследование представляет собой комплексное вычислительное решение для поиска и исправления ошибок в сложных системах хранения на основе ДНК.
Используя передовые алгоритмы и методы кодирования, исследователи продемонстрировали, что их решение сокращает время поиска и чтения данных с нескольких дней до всего лишь 10 минут.
Разработанный Технионом метод DNAformer основан на модели трансформатора, обученной на смоделированных данных (сгенерированных с помощью симулятора, который также был разработан в Технионе) для реконструкции точных последовательностей ДНК из ошибочных копий.
Метод также включает в себя специальный код исправления ошибок, адаптированный для ДНК, что обеспечивает надежную целостность данных.
Кроме того, механизм дополнительного запаса безопасности обнаруживает особенно шумные последовательности ДНК (нежелательные сигналы или ошибки, возникающие в процессе секвенирования, которые могут помешать точной интерпретации данных) и применяет мощные алгоритмические инструменты для эффективной обработки.
В конце процесса данные преобразуются обратно в цифровую информацию.
Новый метод позволяет считывать 100 мегабайт данных со скоростью в 3200 раз быстрее, чем самый точный существующий метод — без потери точности.
По сравнению с ранее известными быстрыми методами DNAformer также повышает точность до 40%, при этом значительно сокращая время обработки. Это было продемонстрировано на наборе данных объемом 3,1 мегабайта, который включал: Цветное неподвижное изображение 24-секундный аудиоклип со словами астронавта Нила Армстронга на Луне Письменный текст, в котором обсуждаются преимущества ДНК как перспективного метода хранения данных.
Случайные данные для иллюстрации применимости к зашифрованным или сжатым данным Исследователи планируют разработать индивидуальные версии DNAformer, адаптированные под различные потребности.
Они подчеркивают, что их технология масштабируема и адаптируема, то есть ее можно оптимизировать для крупномасштабных приложений хранения данных, удовлетворяя потребности рынка и будущие достижения в области синтеза и секвенирования ДНК.
Рубрика: Наука. Читать весь текст на android-robot.com.