DNA als medium om enorme computergegevens op te slaan: binnenkort realiteit? -

Een baanbrekende studie zet een belangrijke stap voorwaarts in de zoektocht naar de ontwikkeling van een op DNA gebaseerd opslagsysteem voor digitale gegevens.

Digitaal gegevens groeit tegenwoordig exponentieel vanwege onze afhankelijkheid van gadgets en vereist robuuste langetermijnopslag. Gegevensopslag wordt langzaamaan een uitdaging omdat de huidige digitale technologie geen oplossing kan bieden. Een voorbeeld hiervan is dat er in de afgelopen twee jaar meer digitale gegevens zijn gecreëerd dan in de hele geschiedenis van computers, in feite wordt 2.5 quintiljoen byte {1 quintiljoen byte = 2,500,000 Terabytes (TB) = 2,500,000,000 Gigabytes (GB)} aan gegevens gecreëerd elke dag in de wereld. Dit omvat gegevens op sociale netwerksites, online banktransacties, gegevens van bedrijven en organisaties, gegevens van satellieten, toezicht, onderzoek, ontwikkeling enz. Deze gegevens zijn enorm en ongestructureerd. Daarom is het nu een grote uitdaging om de enorme opslagvereisten voor gegevens en de exponentiële groei ervan aan te pakken, vooral voor organisaties en bedrijven die robuuste langetermijnopslag nodig hebben.

De opties die momenteel beschikbaar zijn, zijn harde schijven, optische schijven (cd's), geheugensticks, flashdrives en de meer geavanceerde tapedrives of optische BluRay-schijven die ongeveer 10 Terabytes (TB) aan gegevens kunnen opslaan. Dergelijke opslaginrichtingen hebben, hoewel ze gewoonlijk worden gebruikt, veel nadelen. Ten eerste hebben ze een lage tot gemiddelde houdbaarheid en moeten ze onder ideale temperatuur- en vochtigheidsomstandigheden worden bewaard om tientallen jaren mee te kunnen gaan en hebben ze daarom speciaal ontworpen fysieke opslagruimtes nodig. Deze verbruiken bijna allemaal veel stroom, zijn omvangrijk en onpraktisch en kunnen bij een simpele val worden beschadigd. Sommige zijn erg duur, worden vaak geplaagd door datafouten en zijn dus niet robuust genoeg. Een optie die universeel door organisaties is geaccepteerd, wordt cloud computing genoemd - een regeling waarbij een bedrijf in feite een "externe" server inhuurt voor het afhandelen van al zijn IT- en gegevensopslagvereisten, ook wel de "cloud" genoemd. Een van de belangrijkste nadelen van cloudcomputing zijn beveiligings- en privacyproblemen en kwetsbaarheid voor aanvallen door hackers. Er zijn ook andere zaken zoals hoge kosten, beperkte controle door de moederorganisatie en platformafhankelijkheid. Cloud computing wordt nog steeds gezien als een goed alternatief voor langdurige opslag. Het lijkt er echter op dat de digitale informatie die wereldwijd wordt gegenereerd ons vermogen om deze op te slaan zeker inhaalt, en er zijn nog robuustere oplossingen nodig om tegemoet te komen aan deze stortvloed aan gegevens en tegelijkertijd schaalbaarheid te bieden om ook rekening te houden met toekomstige opslagbehoeften.

Kan DNA helpen bij computeropslag?

Onze DNA (Deoxyribonucleïnezuur) wordt beschouwd als een opwindend alternatief medium voor digitale gegevensopslag. DNA is het zelfreplicerende materiaal dat aanwezig is in bijna alle levende organismen en vormt onze genetische informatie. Een kunstmatige of synthetische DNA is een duurzaam materiaal dat kan worden gemaakt met in de handel verkrijgbare machines voor de synthese van oligonucleotiden. Het belangrijkste voordeel van DNA is de lange levensduur, aangezien een DNA 1000 keer langer meegaat dan silicium (siliciumchip – het materiaal dat wordt gebruikt voor het bouwen van computers). Verbazingwekkend, slechts een enkele kubieke millimeter van DNA kan een triljoen bytes aan gegevens bevatten! DNA is ook een ultracompact materiaal dat nooit afbreekt en honderden eeuwen op een koele, droge plaats kan worden bewaard. Het idee om DNA te gebruiken voor opslag bestaat al heel lang, ver terug tot 1994. De belangrijkste reden is de vergelijkbare manier waarop informatie wordt opgeslagen in een computer en in ons DNA - aangezien beide de blauwdrukken van informatie opslaan. Een computer slaat alle gegevens op als nullen en enen en DNA slaat alle gegevens van een levend organisme op met behulp van de vier basen: thymine (T), guanine (G), adenine (A) en cytosine (C). Daarom zou DNA een standaard opslagapparaat kunnen worden genoemd, net als een computer, als deze basen kunnen worden weergegeven als nullen (basen A en C) en enen (basen T en G). DNA is taai en gaat lang mee, waarbij de eenvoudigste weerspiegeling is dat onze genetische code – de blauwdruk van al onze informatie die in het DNA is opgeslagen – efficiënt en herhaaldelijk wordt overgedragen van de ene generatie naar de volgende. Alle software- en hardwaregiganten zijn enthousiast over het gebruik van synthetisch DNA voor het opslaan van grote hoeveelheden om hun doel te bereiken, namelijk het oplossen van langetermijnarchivering van gegevens. Het idee is om eerst de computercode 0s en 1s om te zetten in de DNA-code (A, C, T, G), de geconverteerde DNA-code wordt vervolgens gebruikt om synthetische DNA-strengen te produceren die vervolgens in de koeling kunnen worden bewaard. Indien nodig kunnen DNA-strengen uit de koude opslag worden verwijderd en hun informatie wordt gedecodeerd met behulp van een DNA-sequencingmachine en de DNA-sequentie wordt uiteindelijk terugvertaald naar het binaire computerformaat van 0s en 1s om op de computer te worden gelezen.

Het is getoond¹ dat slechts een paar gram DNA triljoenen bytes aan gegevens kan opslaan en deze tot 2000 jaar intact kan houden. Dit eenvoudige begrip heeft echter voor enkele uitdagingen gestaan. Ten eerste is het vrij duur en ook pijnlijk traag om gegevens naar DNA te schrijven, dwz de daadwerkelijke omzetting van nullen en enen naar de DNA-basen (A, T, C, G). Ten tweede, als de gegevens eenmaal op het DNA zijn "geschreven", is het een uitdaging om bestanden te vinden en op te halen en vereist een techniek die DNA-sequencing wordt genoemd - een proces waarbij de precieze volgorde van basen in een DNA-molecuul wordt bepaald - waarna de gegevens worden gedecodeerd naar 0s en 1s.

Een recente studie² door wetenschappers van Microsoft Research en de Universiteit van Washington hebben een "willekeurige toegang" tot DNA-opslag bereikt. Het aspect "willekeurige toegang" is erg belangrijk omdat het betekent dat informatie kan worden overgedragen naar of van een plaats (meestal een geheugen) waarin elke locatie, ongeacht waar in de reeks en direct toegankelijk is. Met behulp van deze techniek van willekeurige toegang kunnen bestanden op een selectieve manier worden opgehaald uit DNA-opslag in vergelijking met vroeger, toen een dergelijke opvraging de noodzaak vereiste om een volledige DNA-dataset te sequencen en te decoderen om de weinige bestanden te vinden en te extraheren die men wilde. Het belang van "willekeurige toegang" wordt verder vergroot wanneer de hoeveelheid gegevens toeneemt en enorm wordt omdat het de hoeveelheid sequencing die moet worden uitgevoerd, vermindert. Het is voor het eerst dat de willekeurige toegang op zo'n grote schaal is getoond. Onderzoekers hebben ook een algoritme ontwikkeld voor het efficiënter decoderen en herstellen van gegevens met meer tolerantie voor gegevensfouten, waardoor de sequencing-procedure ook sneller gaat. In dit onderzoek werden meer dan 13 miljoen synthetische DNA-oligonucleotiden gecodeerd, bestaande uit gegevens van 200 MB, bestaande uit 35 bestanden (met video, audio, afbeeldingen en tekst) variërend in grootte van 29 KB tot 44 MB. Deze bestanden zijn afzonderlijk zonder fouten opgehaald. Ook hebben auteurs nieuwe algoritmen bedacht die robuuster en fouttoleranter zijn bij het schrijven en lezen van de DNA-sequenties. Deze studie gepubliceerd in Nature Biotechnology in een belangrijke vooruitgang die een levensvatbaar, grootschalig systeem voor DNA-opslag en -ontvangst toont.

Het DNA-opslagsysteem ziet er erg aantrekkelijk uit omdat het een hoge gegevensdichtheid, hoge stabiliteit heeft en gemakkelijk op te slaan is, maar er zijn natuurlijk veel uitdagingen voordat het universeel kan worden toegepast. Weinig factoren zijn tijd- en arbeidsintensieve decodering van het DNA (de sequencing) en ook de synthese van DNA. De techniek vereist meer nauwkeurigheid en een bredere dekking. Hoewel er op dit gebied vooruitgang is geboekt, is het exacte formaat waarin gegevens op de lange termijn zullen worden opgeslagen, aangezien DNA nog steeds in ontwikkeling is. Microsoft heeft gezworen de productie van synthetisch DNA te verbeteren en de uitdagingen aan te gaan om een volledig operationeel DNA opslagsysteem in 2020.

***

{U kunt de originele onderzoekspaper lezen door op de DOI-link hieronder in de lijst met geciteerde bron(nen) te klikken}

Bron (nen)

1. Erlich Y en Zielinski D 2017. DNA Fountain maakt een robuuste en efficiënte opslagarchitectuur mogelijk. Wetenschap. 355(6328). https://doi.org/10.1126/science.aaj2038

2. Organick L et al. 2018. Willekeurige toegang in grootschalige DNA-gegevensopslag. Natuur Biotechnologie. 36. https://doi.org/10.1038/nbt.4079

DNA als medium om enorme computergegevens op te slaan: binnenkort realiteit?

Abonneer u op onze nieuwsbrief

Meest populaire artikelen

EDITOR PICKS

POPULAIRE POSTS

POPULAIRE CATEGORIE