DNA als medium om enorme computergegevens op te slaan: binnenkort realiteit? -

Een baanbrekende studie zet een belangrijke stap voorwaarts in de zoektocht naar een DNA-gebaseerd opslagsysteem voor digitale gegevens.

Digital gegevens groeit tegenwoordig exponentieel vanwege onze afhankelijkheid van gadgets en vereist robuuste langetermijnopslag. Gegevensopslag wordt langzaamaan een uitdaging omdat de huidige digitale technologie geen oplossing kan bieden. Een voorbeeld hiervan is dat er in de afgelopen twee jaar meer digitale gegevens zijn gecreëerd dan in de hele geschiedenis van computers, in feite wordt 2.5 quintiljoen byte {1 quintiljoen byte = 2,500,000 Terabytes (TB) = 2,500,000,000 Gigabytes (GB)} aan gegevens gecreëerd elke dag in de wereld. Dit omvat gegevens op sociale netwerksites, online banktransacties, gegevens van bedrijven en organisaties, gegevens van satellieten, toezicht, onderzoek, ontwikkeling enz. Deze gegevens zijn enorm en ongestructureerd. Daarom is het nu een grote uitdaging om de enorme opslagvereisten voor gegevens en de exponentiële groei ervan aan te pakken, vooral voor organisaties en bedrijven die robuuste langetermijnopslag nodig hebben.

De opties die momenteel beschikbaar zijn, zijn harde schijven, optische schijven (cd's), geheugensticks, flashdrives en de meer geavanceerde tapedrives of optische BluRay-schijven die ongeveer 10 Terabytes (TB) aan gegevens kunnen opslaan. Dergelijke opslaginrichtingen hebben, hoewel ze gewoonlijk worden gebruikt, veel nadelen. Ten eerste hebben ze een lage tot gemiddelde houdbaarheid en moeten ze onder ideale temperatuur- en vochtigheidsomstandigheden worden bewaard om tientallen jaren mee te kunnen gaan en hebben ze daarom speciaal ontworpen fysieke opslagruimtes nodig. Deze verbruiken bijna allemaal veel stroom, zijn omvangrijk en onpraktisch en kunnen bij een simpele val worden beschadigd. Sommige zijn erg duur, worden vaak geplaagd door datafouten en zijn dus niet robuust genoeg. Een optie die universeel door organisaties is geaccepteerd, wordt cloud computing genoemd - een regeling waarbij een bedrijf in feite een "externe" server inhuurt voor het afhandelen van al zijn IT- en gegevensopslagvereisten, ook wel de "cloud" genoemd. Een van de belangrijkste nadelen van cloudcomputing zijn beveiligings- en privacyproblemen en kwetsbaarheid voor aanvallen door hackers. Er zijn ook andere zaken zoals hoge kosten, beperkte controle door de moederorganisatie en platformafhankelijkheid. Cloud computing wordt nog steeds gezien als een goed alternatief voor langdurige opslag. Het lijkt er echter op dat de digitale informatie die wereldwijd wordt gegenereerd ons vermogen om deze op te slaan zeker inhaalt, en er zijn nog robuustere oplossingen nodig om tegemoet te komen aan deze stortvloed aan gegevens en tegelijkertijd schaalbaarheid te bieden om ook rekening te houden met toekomstige opslagbehoeften.

Kan DNA helpen bij computeropslag?

Onze DNA (Deoxyribonucleïnezuur) wordt beschouwd als een opwindend alternatief medium voor digitale gegevensopslag. DNA is het zelfreplicerende materiaal dat aanwezig is in bijna alle levende organismen en dat onze genetische informatie vormt. Een kunstmatige of synthetische DNA is een duurzaam materiaal dat kan worden gemaakt met behulp van in de handel verkrijgbare machines voor de synthese van oligonucleotiden. Het belangrijkste voordeel van DNA is de lange levensduur ervan DNA gaat 1000 keer langer mee dan silicium (siliciumchip – het materiaal dat wordt gebruikt voor het bouwen computers). Verbazingwekkend, slechts een enkele kubieke millimeter van DNA kan een triljoen bytes aan gegevens bevatten! DNA is ook een ultracompact materiaal dat nooit afbreekt en honderden eeuwen op een koele, droge plaats kan worden bewaard. Het idee om DNA te gebruiken voor opslag bestaat al heel lang, terug naar 1994. De belangrijkste reden is de vergelijkbare manier waarop informatie wordt opgeslagen in een computer en in onze computers. DNA – omdat beide de blauwdrukken van informatie opslaan. Een computer slaat alle gegevens op als 0-en en 1-en en DNA slaat alle gegevens van een levend organisme op met behulp van de vier basen: thymine (T), guanine (G), adenine (A) en cytosine (C). Daarom zou DNA een standaard opslagapparaat kunnen worden genoemd, net als een computer, als deze basen kunnen worden weergegeven als 0-en (basen A en C) en 1-en (basen T en G). DNA is sterk en gaat lang mee. De eenvoudigste weerspiegeling is dat onze genetische code – de blauwdruk van al onze informatie opgeslagen in DNA – efficiënt en op herhaalde wijze van de ene generatie op de volgende wordt overgedragen. Alle software- en hardwaregiganten willen graag synthetisch DNA gebruiken voor het opslaan van enorme hoeveelheden om hun doel te bereiken: het oplossen van langetermijnarchivering van gegevens. Het idee is om eerst de computercode 0s en 1s om te zetten in de DNA-code (A, C, T, G). De omgezette DNA-code wordt vervolgens gebruikt om synthetische DNA-strengen te produceren die vervolgens in de koelkast kunnen worden bewaard. Wanneer nodig kunnen DNA-strengen uit de koude opslag worden gehaald en hun informatie wordt gedecodeerd met behulp van een DNA-sequencing-machine. De DNA-sequentie wordt uiteindelijk terugvertaald naar het binaire computerformaat van 1s en 0s om op de computer te worden gelezen.

Het is getoond¹ dat slechts een paar gram DNA een biljoen bytes aan gegevens kan opslaan en deze tot wel 2000 jaar intact kan houden. Dit eenvoudige begrip heeft echter met enkele uitdagingen te maken gehad. Ten eerste is het vrij duur en ook pijnlijk traag om gegevens naar DNA te schrijven, dat wil zeggen de daadwerkelijke conversie van nullen en enen naar de DNA-basen (A, T, C, G). Ten tweede is het, zodra de gegevens op het DNA zijn ‘geschreven’, een uitdaging om bestanden te vinden en terug te halen. Hiervoor is een zogenaamde techniek vereist DNA sequencing - proces waarbij de precieze volgorde van basen binnen a wordt bepaald DNA molecuul - waarna de gegevens terug worden gedecodeerd naar 0s en 1s.

Een recente studie² door wetenschappers van Microsoft Research en de Universiteit van Washington hebben een "willekeurige toegang" tot DNA-opslag bereikt. Het aspect "willekeurige toegang" is erg belangrijk omdat het betekent dat informatie kan worden overgedragen naar of van een plaats (meestal een geheugen) waarin elke locatie, ongeacht waar in de reeks en direct toegankelijk is. Met behulp van deze techniek van willekeurige toegang kunnen bestanden op een selectieve manier worden opgehaald uit DNA-opslag in vergelijking met vroeger, toen een dergelijke opvraging de noodzaak vereiste om een volledige DNA-dataset te sequencen en te decoderen om de weinige bestanden te vinden en te extraheren die men wilde. Het belang van "willekeurige toegang" wordt verder vergroot wanneer de hoeveelheid gegevens toeneemt en enorm wordt omdat het de hoeveelheid sequencing die moet worden uitgevoerd, vermindert. Het is voor het eerst dat de willekeurige toegang op zo'n grote schaal is getoond. Onderzoekers hebben ook een algoritme ontwikkeld voor het efficiënter decoderen en herstellen van gegevens met meer tolerantie voor gegevensfouten, waardoor de sequencing-procedure ook sneller gaat. In dit onderzoek werden meer dan 13 miljoen synthetische DNA-oligonucleotiden gecodeerd, bestaande uit gegevens van 200 MB, bestaande uit 35 bestanden (met video, audio, afbeeldingen en tekst) variërend in grootte van 29 KB tot 44 MB. Deze bestanden zijn afzonderlijk zonder fouten opgehaald. Ook hebben auteurs nieuwe algoritmen bedacht die robuuster en fouttoleranter zijn bij het schrijven en lezen van de DNA-sequenties. Deze studie gepubliceerd in Nature Biotechnology in een belangrijke vooruitgang die een levensvatbaar, grootschalig systeem voor DNA-opslag en -ontvangst toont.

Het DNA-opslagsysteem ziet er erg aantrekkelijk uit omdat het een hoge gegevensdichtheid, hoge stabiliteit heeft en gemakkelijk op te slaan is, maar het kent uiteraard veel uitdagingen voordat het universeel kan worden toegepast. Weinig factoren zijn de tijd- en arbeidsintensieve decodering van het DNA (de sequencing) en ook de synthese ervan DNA. De techniek vereist meer nauwkeurigheid en een bredere dekking. Ook al is er op dit gebied vooruitgang geboekt, het exacte formaat waarin gegevens op de lange termijn zullen worden opgeslagen, is nog steeds niet bekend DNA evolueert nog steeds. Microsoft heeft beloofd de productie van synthetisch DNA te verbeteren en de uitdagingen aan te gaan om een volledig operationeel ontwerp te ontwerpen DNA opslagsysteem in 2020.

***

{U kunt de originele onderzoekspaper lezen door op de DOI-link hieronder in de lijst met geciteerde bron(nen) te klikken}

Bron (nen)

1. Erlich Y en Zielinski D 2017. DNA Fountain maakt een robuuste en efficiënte opslagarchitectuur mogelijk. Wetenschap. 355(6328). https://doi.org/10.1126/science.aaj2038

2. Organick L et al. 2018. Willekeurige toegang in grootschalige DNA-gegevensopslag. Natuur Biotechnologie. 36. https://doi.org/10.1038/nbt.4079

DNA als medium om enorme computergegevens op te slaan: binnenkort realiteit?

Abonneer u op onze nieuwsbrief

Meest populaire artikelen

EDITOR PICKS

POPULAIRE POSTS

POPULAIRE CATEGORIE