Dataförlust vid filkopiering?

Diskussioner kring teknikens utveckling genom tiderna och dess inverkan på vår historia.
Användarvisningsbild
Widsith
Medlem
Inlägg: 1376
Blev medlem: 18 jul 2003 13:26
Ort: Uddevalla

Inlägg av Widsith » 04 mar 2006 13:56

Då jag inte hört några invändningar mot detta så utvecklar jag ämnet.
ZIP-filer beskrivs i facklitteratur som en "förlustfri komprimering", men faktum är att program som WinZip m.fl. använder en väldigt enkel form av CRC, vilket gör att resultatet är långt ifrån förlustfritt. Faktum är att en helt förlustfri kopiering bara kan uppnås i teorin, och det enda man kan göra är att sträva efter att göra förlusten av data så liten som möjligt. Herman D. Knoble vid Pennsylvania State University Center for Academic Computing har beskrivit några möjliga metoder för detta i sin artikel "Maintaining Data Integrity" som kan läsas här:
http://ftp.aset.psu.edu/pub/ger/documen ... egrity.htm
Artikeln är skriven den 28 februari förra året, och beskriver således ej förhållanden i datorernas barndom, trots hänvisningarna till Windows Command Prompt...

S.Jonsson
Medlem
Inlägg: 489
Blev medlem: 24 aug 2005 08:08
Ort: Stockholm

Inlägg av S.Jonsson » 04 mar 2006 16:03

CRC är inte tillräckligt bra för att kontrollera att kopian är identisk. Till det används andra metoder.
Från Wikilänken ovan:
While useful for error detection, CRCs cannot be safely relied upon to verify data integrity (that no changes whatsoever have occurred), since, because of the linear structure of CRC polynomials, it is extremely easy to intentionally change data without modifying its CRC. Cryptographic hash functions can be used to verify data integrity.

Användarvisningsbild
Widsith
Medlem
Inlägg: 1376
Blev medlem: 18 jul 2003 13:26
Ort: Uddevalla

Inlägg av Widsith » 04 mar 2006 16:58

S.Jonsson skrev:CRC är inte tillräckligt bra för att kontrollera att kopian är identisk. Till det används andra metoder.
Från Wikilänken ovan:
While useful for error detection, CRCs cannot be safely relied upon to verify data integrity (that no changes whatsoever have occurred), since, because of the linear structure of CRC polynomials, it is extremely easy to intentionally change data without modifying its CRC. Cryptographic hash functions can be used to verify data integrity.
Tyvärr, inte heller hash-funktioner garanterar korruption av data vid kopiering. Acceptansen av detta faktum har gjort att man måste tillämpa den s k "Random Oracle"-metoden vid beräkning av hash-funktioners påverkan på datatrafik. Random Oracle är en matematisk abstraktion som beskriver en ideal hash-funktion. Från Wikipedia:
No real function can implement a true random oracle. In fact, certain very artificial protocols have been constructed which are proven secure in the random oracle model, but which are trivially insecure when any real hash function is substituted for the random oracle. Nonetheless, for any more natural protocol a proof of security in the random oracle model gives very strong evidence that an attack which does not break the other assumptions of the proof, if any (such as the hardness of integer factorization) must discover some unknown and undesirable property of the hash function used in the protocol to work. Many schemes have been proven secure in the random oracle model, for example OAEP and PSS.
http://en.wikipedia.org/wiki/Random_oracle_model
Datatrafik, eller kopiering, är alltså trots CRC eller kryptografiska hash-funktioner ett överförande av "begrepp" vilka mister sin betydelse när toleransnivån för addition och subtraktion av data till begreppet har överskridits. Simpel dialektisk materialism, alltså. För vår vanliga datoranvändning är detta av mindre betydelse, då en mycket lång tid måste förflyta innan det får någon praktisk konsekvens för den information vi lagrat. Se det sista som en hänvisning till tråden "Vår plats i historien":
viewtopic.php?t=23350

S.Jonsson
Medlem
Inlägg: 489
Blev medlem: 24 aug 2005 08:08
Ort: Stockholm

Inlägg av S.Jonsson » 04 mar 2006 21:37

Får nog erkänna att detta nog går lite över huvudet på mig. :lol: Men försöker ändå.
Tyvärr, inte heller hash-funktioner garanterar korruption av data vid kopiering
Förstår egentligen inte varför "identiska kopior" på bit nivå inte skulle kunna möjligt. Det är ju ettor och nollor om än väldigt många.

When using FTP to obtain install files and research data, consider downloading two copies of each file; store them in different fixed disk folders; and then compare the two copies. If they are not identical, FTP a third copy and repeat the comparison.
(Från din länk: http://ftp.aset.psu.edu/pub/ger/documen ... egrity.htm)

Menas inte här mer svårigheten att garantera "data integrity" på grund av överföringsfel m.m.; inte att kopiorna inte skulle vara identiska?

...toleransnivån för addition och subtraktion av data till begreppet har överskridits.
En fin beskrivning av att CD-skivan är trasig? (om jag fattat rätt) :)

Användarvisningsbild
Widsith
Medlem
Inlägg: 1376
Blev medlem: 18 jul 2003 13:26
Ort: Uddevalla

Inlägg av Widsith » 05 mar 2006 08:10

S.Jonsson skrev:Får nog erkänna att detta nog går lite över huvudet på mig. :lol: Men försöker ändå.
Tyvärr, inte heller hash-funktioner garanterar korruption av data vid kopiering
Förstår egentligen inte varför "identiska kopior" på bit nivå inte skulle kunna möjligt. Det är ju ettor och nollor om än väldigt många.

Menas inte här mer svårigheten att garantera "data integrity" på grund av överföringsfel m.m.; inte att kopiorna inte skulle vara identiska?
Källor till korruption av fil är läsande, överföring och skrivande av filen. Det är ju inte en mängd ettor och nollor som far genom ledningarna utan en ström av elektroner. Det kan vara lätt att sluta sig till att dessa ettor och nollor gör processen icke-organisk och därför perfekt, men i själva verket är den organisk och liksom i andra organiska system kan det bli skit i ledningarna. Kopiering inom en hårddisk innebär kortast ledning, och därför minst korruption av filen. Men korruption blir det alltid, och efter ett tillräckligt stort antal kopieringar har förändringarna i filen gjort den omöjlig att använda. Märk väl att CRC och hash-funktioner endast kontrollerar att filen är någorlunda identisk med den fil den kopierats från.
S.Jonsson skrev:
...toleransnivån för addition och subtraktion av data till begreppet har överskridits.
En fin beskrivning av att CD-skivan är trasig? (om jag fattat rätt) :)
Nej. Enkelt sagt är det att filen inte längre går att läsa, oavsett om den befinner sig på hårddisk eller CD-skiva.

Användarvisningsbild
Hexmaster
Medlem
Inlägg: 10194
Blev medlem: 12 jun 2004 17:41
Ort: Tjörn

Inlägg av Hexmaster » 05 mar 2006 14:15

Widsith skrev:efter ett tillräckligt stort antal kopieringar har förändringarna i filen gjort den omöjlig att använda
Har du något exempel från verkligheten?

Jag har fortfarande ett starkt intryck av att du förläst dig på någon artikel som du bara delvis förstått vad den handlar om. Antalet generationer spelar roll i analoga sammanhang (ljudband, fotostatkopior...) eftersom man vid varje kopiering fjärmar sig från originalet; ju bättre prylar desto mindre, men man kan aldrig någonsin komma närmare originalet.
Vid en digital kopiering så är det ett icke-problem. Kopierar man en fil så får man inte en kopia med någonsorts 99 %-iga ettor och nollor; man får en kopia som är identisk. Ackumulerade fel finns inte. Ska man få ett bitfel så måste en etta läsas som en nolla eller tvärtom vid ett givet tillfälle.

Användarvisningsbild
Widsith
Medlem
Inlägg: 1376
Blev medlem: 18 jul 2003 13:26
Ort: Uddevalla

Inlägg av Widsith » 05 mar 2006 16:33

Hexmaster skrev:
Widsith skrev:efter ett tillräckligt stort antal kopieringar har förändringarna i filen gjort den omöjlig att använda
Har du något exempel från verkligheten?

Jag har fortfarande ett starkt intryck av att du förläst dig på någon artikel som du bara delvis förstått vad den handlar om. Antalet generationer spelar roll i analoga sammanhang (ljudband, fotostatkopior...) eftersom man vid varje kopiering fjärmar sig från originalet; ju bättre prylar desto mindre, men man kan aldrig någonsin komma närmare originalet.
Vid en digital kopiering så är det ett icke-problem. Kopierar man en fil så får man inte en kopia med någonsorts 99 %-iga ettor och nollor; man får en kopia som är identisk. Ackumulerade fel finns inte. Ska man få ett bitfel så måste en etta läsas som en nolla eller tvärtom vid ett givet tillfälle.
Vad det gäller här är korruption som ackumuleras över mycket lång tid, vilket jag tog upp då denna diskussion från början befann sig i en tråd som diskuterade överförande av information 150 år in i framtiden. Felet du gör är att sätta likhetstecken mellan "så gott som felfri" med "absolut felfri". Problem med generationsförluster märks normalt inte för den genomsnittlige datoranvändaren, men kan leda till uppenbara filfel redan efter en kopiering om utrustningen och signalöverföringen utsätts för stark påfrestning. Att ettor och nollor kommer ut som något annat emellanåt är något som gjort att man skapat just kontrollrutiner som CRC och hash-funktioner. Även utan dessa är det tveksamt om den genomsnittlige datoranvändaren någonsin skulle få problem med filkopiering, men även med dem är kontrollen inte 100%-ig utan kopian är alltid något förändrad jämfört med originalet. Nästa kopia blir även den något förändrad jämfört med den första kopian, och så vidare tills filen en gång inte uppfyller originalfilens krav utan blir oläslig. Antalet generationer spelar roll om man tänker sig att lagra data som skall vara tillgängliga för framtidens historiker.
Jag har fortfarande ett starkt intryck av att du förläst dig på någon artikel som du bara delvis förstått vad den handlar om.
Jag har erforderlig utbildning och har arbetat som datalärare, så jag vet vad jag pratar om. Jag skulle också uppskatta om du frångår spekulationer om min person i denna diskussion, och istället inriktar dig på ämnet.

Användarvisningsbild
J.K Nilsson
Medlem
Inlägg: 2406
Blev medlem: 21 feb 2004 23:18
Ort: Frösön

Inlägg av J.K Nilsson » 05 mar 2006 18:05

Det är ingen slump att man uppfunnit kontrollbitar och "självrättande" kod.

J.K Nilsson

masase
Stödjande medlem 2022
Inlägg: 1867
Blev medlem: 31 jul 2005 20:48
Ort: Amsterdam

Inlägg av masase » 05 mar 2006 18:57

Widsith skrev:Felet du gör är att sätta likhetstecken mellan "så gott som felfri" med "absolut felfri". Problem med generationsförluster märks normalt inte för den genomsnittlige datoranvändaren, men kan leda till uppenbara filfel redan efter en kopiering om utrustningen och signalöverföringen utsätts för stark påfrestning. Att ettor och nollor kommer ut som något annat emellanåt är något som gjort att man skapat just kontrollrutiner som CRC och hash-funktioner.
Om systemet där du gör digitala kopior av data inte skulle ge en absolut felfri kopia så skulle det vara väldigt svårt att använda von Neuman maskiner.

Om du vill veta hur pass bra ett visst kopierings/överföringssystem är på att skapa exakta kopior kan du genomföra ett enkelt experiment. Använd t.ex. http://www.fastsum.com/ för att ta en kryptografiskt säker hash på filen du vill test. Kopiera filen. Ta en ny hash. Jämför hasharna. Är de identitska så är också filen identisk. Gör om experimentet godtyckligt antal gånger och återkom när hasharna skiljer sig åt.

Om du inte fuskar, t.ex. genom att placera datorn i en mikrovågsugn, skjuta upp den i omloppsbana eller skriver till en floppy som du sedan bearbetar med en slägga, så skulle jag bli väldigt förvånad om du får skrivfel inom de första 100 000 försöken.

Möjligheten att ta kryptografiskt starka hashar från filer gör det möjligt att testa om en kopia är absolut felfri eller inte. I ett analogt system kan du aldrig avgöra om en kopia är felfri eller inte. Om en digital kopia inte är felfri kan du kasta bort den och ta en ny kopia och detta gör att det är möjligt att bevara exakta kopior av orginaldata.

Användarvisningsbild
Widsith
Medlem
Inlägg: 1376
Blev medlem: 18 jul 2003 13:26
Ort: Uddevalla

Inlägg av Widsith » 05 mar 2006 20:23

masase skrev:Om du vill veta hur pass bra ett visst kopierings/överföringssystem är på att skapa exakta kopior kan du genomföra ett enkelt experiment. Använd t.ex. http://www.fastsum.com/ för att ta en kryptografiskt säker hash på filen du vill test. Kopiera filen. Ta en ny hash. Jämför hasharna. Är de identitska så är också filen identisk. Gör om experimentet godtyckligt antal gånger och återkom när hasharna skiljer sig åt.
Sorry, inte heller FastSum som bygger på hash-funktionen MD5 ger en exakt kopia. MD5 kom 1994 och redan samma år kom SHA-1, som räknas som något säkrare. Sedan har utvecklingen fortsatt med SHA-256, SHA-512 och senast WHIRLPOOL, som sågs som den slutliga lösningen. Sedan kom revisionen WHIRLPOOL-1, WHIRLPOOL-2 och så vidare... Nu för tiden säger man inte att man hittat en slutgiltig WHIRLPOOL utan bara att den är säkrare än föregångaren :roll:
Om du inte fuskar, t.ex. genom att placera datorn i en mikrovågsugn, skjuta upp den i omloppsbana eller skriver till en floppy som du sedan bearbetar med en slägga, så skulle jag bli väldigt förvånad om du får skrivfel inom de första 100 000 försöken.
Vad jag talar om här är s k multi-generation loss, i och med att denna tråd är en avläggare till en tidigare tråd där det gällde att diskutera kring möjligheten att bevara information 150 år in i framtiden.
Om en digital kopia inte är felfri kan du kasta bort den och ta en ny kopia och detta gör att det är möjligt att bevara exakta kopior av orginaldata.
I det perspektiv det gäller, 150 år, är detta inte möjligt då mediets livslängd är kortare än så, när det gäller CD-skivor kan det vara så lågt som 10-15 år. Om 100 år finns inget original att ta en ny kopia av.

Användarvisningsbild
Hexmaster
Medlem
Inlägg: 10194
Blev medlem: 12 jun 2004 17:41
Ort: Tjörn

Inlägg av Hexmaster » 06 mar 2006 09:07

Widsith skrev:
Hexmaster skrev:
Widsith skrev:efter ett tillräckligt stort antal kopieringar har förändringarna i filen gjort den omöjlig att använda
Har du något exempel från verkligheten?
Tolkar det som ett "nej"...

"Stark påfrestning" har det inte varit tal om, förrän nu. Jag pratar om vanlig kopiering under vanliga förhållanden, alternativt noggrann kopiering under lite mer kontrollerade förhållanden. I övrigt har masase sagt allt som behöver sägas. En digital kopia som konstaterats vara identisk med originalet är ett nytt original.

Henke
Medlem
Inlägg: 1226
Blev medlem: 25 sep 2003 17:27
Ort: Stockholm

Inlägg av Henke » 06 mar 2006 11:59

Widsith skrev:Men korruption blir det alltid, och efter ett tillräckligt stort antal kopieringar har förändringarna i filen gjort den omöjlig att använda.
Nej, korruption blir det inte alltid. Om förändringar alltid inträffar skulle detta ha ett ohyggligt genomslag för framför allt programkod, där en endaste liten ynklig bit kan avgöra om ett program överhuvudtaget går att starta eller ej.

Korruption kan inträffa till följd av olika varianter av grus i maskineriet. Därför görs CRC- och hash-kontroller, därför finns s k paritetsbitar, därför finns modulo 10-kontroll av personnummer och bankkontonummer m m. Dessa algoritmer tenderar att vara utformade just för att det ska vara svårt för små slumpmässiga ändringar att smyga sig igenom obemärkta. Ta modulo-10-kontrollen t ex - den är utformad för att garantera att ändringar i vilken enskild siffra som helst i numret och de flesta omkastningar av siffror som står bredvid varandra inte ska passera odetekterade.

Samtidigt är det givetvis teoretiskt omöjligt att i en imperfekt värld garantera att något ska fungera helt perfekt. En kontrollsiffra som genereras av t ex en hashfunktion kan omöjligen helt garantera att en fil är oförändrad utan att innehålla lika mycket information som filen självt - och egentligen inte heller då, eftersom även kontrollsiffran ju högst teoretiskt sett vid överföring och lagring kan drabbas av sådan slumpmässiga förändringar som exakt kompenserar för de slumpmässiga förändringar som drabbat dokumentet.

Är detta då ett problem i praktiken? Nej. Normalfallet vid en filkopiering är att exakt samma information skrivs i kopian som avläses i originalet och att kontrollen blir en ren formalitet. Fel uppkommer om mediet är dåligt, kommunikationen är störd etc.

Hur bra är då kontrollfunktionerna? Tja, för att ta exemplet MD5 - sannolikheten för att denna algoritm skulle generera samma kontrollsiffra för två inbördes olika dokument är ca 1 på 2^128 (ca 340 000 000 000 000 000 000 000 000 000 000 000 000, eller 3,4 x 10^38).

Avvaktar också med spänning ett exempel från verkligheten.
Widsith skrev:Sorry, inte heller FastSum som bygger på hash-funktionen MD5 ger en exakt kopia. MD5 kom 1994 och redan samma år kom SHA-1, som räknas som något säkrare. Sedan har utvecklingen fortsatt med SHA-256, SHA-512 och senast WHIRLPOOL, som sågs som den slutliga lösningen. Sedan kom revisionen WHIRLPOOL-1, WHIRLPOOL-2 och så vidare... Nu för tiden säger man inte att man hittat en slutgiltig WHIRLPOOL utan bara att den är säkrare än föregångaren :roll:
Det som motiverar vidareutvecklingen av hash-funktioner är i första hand den kryptologiska styrkan. God säkerhet handlar här om att det inte ska vara enkelt för en utomstående att utifrån ett befintligt dokument medvetet manipulera detta så att det förändrade dokumentet får samma hash-värde som det ursprungliga dokumentet. Här sker en helt naturlig vidareutveckling varefter algoritmer visas ha kryptologiska svagheter och datorernas prestanda ökar. Samma sak gäller krypteringsalgoritmer och jag kan inte se att det är något att himla med ögonen åt.

Henrik


EDIT: Kollade även upp WHIRLPOOL. Denna algoritm ger ett hashvärde av 512 bitars längd. Detta innebär att sannolikheten för att algoritmen skulle generera samma hashvärde för två dokument som skiljer sig åt är av storleksordningen 1 på 2^512 (ca 1,34 x 10^154). Som jämförelse kan nämnas att antalet atomer i universum brukar uppskattas till understigande 10^80.

EDIT 2: "random oracle"-funktionen som Widsith pratar om har för övrigt ganska lite med ämnet att göra. Det är en abstrakt modell av en ideal hashalgoritm som används inom kryptografisk bevisföring. Även om vi hade tillgång till en perfekt "random oracle"-funktion i verkligheten skulle inte denna lösa problemet med kollisioner, dvs att olika dokument kan ge samma hashvärde, vilket är det relevanta i denna tråd.

Användarvisningsbild
Widsith
Medlem
Inlägg: 1376
Blev medlem: 18 jul 2003 13:26
Ort: Uddevalla

Inlägg av Widsith » 08 mar 2006 21:04

Henke skrev:Avvaktar också med spänning ett exempel från verkligheten.
Jag återkommer om 150 år med ett sådant.

Nej, allvarligt talat, normalanvändarens kopiering av filer leder aldrig till några problem med filens funktionalitet. Men faktum är ju att jag fått medhåll till sist om mitt inledande påstående att en digital kopia aldrig är garanterat lika med originalet, det Hexmaster inte kunde hålla med om och vilket ledde till skapandet av denna tråd.
Henke skrev:Nej, korruption blir det inte alltid.
......
Korruption kan inträffa till följd av olika varianter av grus i maskineriet.
......
Normalfallet vid en filkopiering är att exakt samma information skrivs i kopian som avläses i originalet och att kontrollen blir en ren formalitet.
Alltså:
1. Korruption kan inträffa vid filkopiering. Det är vi alla överens om.
2. Förebyggande av korruption vid filkopiering sker meddelst CRC, hash-funktioner, ECC m.m., vilka finns i olika varianter på grund av att ingen av dem är absolut säker.
3. Även med kontrollfunktioner kan korruption inträffa.

Angående "normalfallet" vid kopiering är ju det enda vi kan konstatera att ingen korruption inträffat, vilken vi kunnat mäta med hjälp av tillgängliga kontrollfunktioner. Och i och med att vi använt oss av kontrollfunktioner vilka uppfyller vissa fastställda standards, så kan vi göra en jämförelse med en enkel glödlampa vilken vi anslutit till nätet. Lampan lyser och fortsätter att lysa även om vi får spänningsfall eller strömtoppar på nätet, så länge dessa variationer håller sig inom vissa gränser. Det viktigaste är ju att lampan lyser. Men när gränserna överskrids och lampan slocknar alternativt glödtråden brinner av, då och först då får vi en felindikation enligt de standards vi satt upp. Likadant fungerar våra kontrollfunktioner vid filkopiering. Om dessa indikerar "inget fel" betyder ju detta inte att korruption saknas. Det betyder bara att korruption av den grad som våra kontrollfunktioner reagerar på, saknas. Korruption som sådan blir det alltså alltid. Korruption av en grad som våra kontrollfunktioner reagerar på blir det inte alltid, men det händer.
Allt detta förutsatt att kontrollfunktioner verkligen används. Så är ju inte alltid fallet. Vilket gör att program som FastSum finns.
Henke skrev:EDIT 2: "random oracle"-funktionen som Widsith pratar om har för övrigt ganska lite med ämnet att göra. Det är en abstrakt modell av en ideal hashalgoritm som används inom kryptografisk bevisföring. Även om vi hade tillgång till en perfekt "random oracle"-funktion i verkligheten skulle inte denna lösa problemet med kollisioner, dvs att olika dokument kan ge samma hashvärde, vilket är det relevanta i denna tråd.
Det är en abstrakt modell av en ideal algoritm vilken finns för att man skall kunna räkna fram verkan av en hash-funktion över huvud taget. Och sedan var det väl korruption av filer vid kopiering vi diskuterade, med bakgrund mot att beräkna möjligheten att bevara information till framtidens historiker. Därav denna tråd på Skalman. Annars hade vi kunnat flytta det hela till ett annat forum...
Hexmaster skrev:"Stark påfrestning" har det inte varit tal om, förrän nu. Jag pratar om vanlig kopiering under vanliga förhållanden, alternativt noggrann kopiering under lite mer kontrollerade förhållanden. I övrigt har masase sagt allt som behöver sägas. En digital kopia som konstaterats vara identisk med originalet är ett nytt original.
Jag antar att du här menar en digital kopia som med tillgängliga kontrollfunktioner konstaterats vara identisk med originalet. Men detta förutsätter att våra kontrollfunktioner är perfekta. Det är dom inte. Ingen kan garantera att en kopia är ett nytt original. Och förklara närmare vad du menar med "vanlig" kopiering under "vanliga" förhållanden, och "noggrann" sådan under dito förhållanden?

Det är väl dags att föra diskussionen något närmare ursprunget, genom att fundera på om filer kan bli obrukbara genom korruption på 150 år. Om vi räknar med en livslängd på CD-skivor på sisådär 15 år så ger det 1 original med efterföljande 9 kopior tills CD-skivan skall läsas av den framtida Dick Harrison. Förmodligen är den ackumulerade verkliga korruptionen inte större än att Dick kan läsa informationen. Gäller det komprimerad data, och det gäller inte bara JPEG eller MP3, så är risken något högre. Kopieringen från CD till CD kan också bidra till korruption. Har informationen överflyttats på nätverk eller Internet finns också där risk för korruption. Risken finns att våra nedsparade filmer på flygplan som krashar in i World Trade Center har fått störningar medsparade. Efter ytterligare 150 år kan det vara svårt att se vad filmerna föreställer. Detta oräknat vad mediets kondition i sig självt kan bidra med.
Henke skrev:Fel uppkommer om mediet är dåligt, kommunikationen är störd etc.
Just det, och det är vad jag sagt hela tiden. Skillnaden är bara den att jag accepterar att det inte finns något perfekt medium eller någon perfekt kommunikation.

Henke
Medlem
Inlägg: 1226
Blev medlem: 25 sep 2003 17:27
Ort: Stockholm

Inlägg av Henke » 09 mar 2006 12:38

Men när gränserna överskrids och lampan slocknar alternativt glödtråden brinner av, då och först då får vi en felindikation enligt de standards vi satt upp. Likadant fungerar våra kontrollfunktioner vid filkopiering. Om dessa indikerar "inget fel" betyder ju detta inte att korruption saknas. Det betyder bara att korruption av den grad som våra kontrollfunktioner reagerar på, saknas. Korruption som sådan blir det alltså alltid. Korruption av en grad som våra kontrollfunktioner reagerar på blir det inte alltid, men det händer.
Det handlar inte om toleransnivåer. Om en vettig kontrollfunktion indikerar "inget fel" kan vi med gott samvete utgå ifrån att den sekvens av nollor och ettor som utgör kopian är identisk med den som utgör originalet. Det handlar inte om grader av fel som släpps förbi - om någon eller några av alla ynkliga små ettor och nollor i originalet har ändrats till sin motsats i kopian så kommer detta att indikeras av kontrollfunktionen i cirka 99 999 999 999 999 999 999 999 999 999 999 999 999 fall av 100 000 000 000 000 000 000 000 000 000 000 000 000 (med MD5, Whirlpool är ofantligt mycket säkrare än så). Kopians ettor och nollor är inte heller på något sätt svagare eller suddigare än originalets.

För att ta ditt exempel med 15 kopieringar så är sannolikheten för att ett av MD5 icke detekterat fel skulle smugit sig in vid någon av kopieringarna av storleksordningen 4,4 x 10^-38, vilket innebär att sannolikheten är ca 1 600 gånger mindre än sannolikheten för att vinna högsta vinsten på Lotto fem gånger i rad. Denna felkälla kan vi således helt bortse ifrån jämfört med de ohyggligt mycket större riskerna förknippade med lagring på något mer eller mindre pålitligt medium.
Widsith skrev:Det är en abstrakt modell av en ideal algoritm vilken finns för att man skall kunna räkna fram verkan av en hash-funktion över huvud taget.
Detta får du gärna utveckla - "random oracle"-modellen används mig veterligen enbart inom kryptologin vid analys av olika protokoll (se t ex denna artikel) vilket är en bra bit utanför ämnet för denna tråd. Hur menar du att analys av hashfunktioner som kontrollfunktioner - vilket är det relevanta för tråden - skulle ske med "random oracle"-modellen?

Henrik

Användarvisningsbild
Hexmaster
Medlem
Inlägg: 10194
Blev medlem: 12 jun 2004 17:41
Ort: Tjörn

Inlägg av Hexmaster » 09 mar 2006 13:11

Widsith skrev:
Hexmaster skrev:"Stark påfrestning" har det inte varit tal om, förrän nu. Jag pratar om vanlig kopiering under vanliga förhållanden, alternativt noggrann kopiering under lite mer kontrollerade förhållanden. I övrigt har masase sagt allt som behöver sägas. En digital kopia som konstaterats vara identisk med originalet är ett nytt original.
Jag antar att du här menar en digital kopia som med tillgängliga kontrollfunktioner konstaterats vara identisk med originalet. Men detta förutsätter att våra kontrollfunktioner är perfekta. Det är dom inte. Ingen kan garantera att en kopia är ett nytt original.
Det är klart man kan. Kontrollfunktioner á la MD5 används för att slippa granska hela kopian bit för bit, men vill man vara helt säker så är det just det man gör. Din länk gav sådan info.
(Som Henkes siffror antyder är man på det torra även med sådana kvalificerade förenklingar, men om det är den felmarginalen du hakar upp dig på så kan vi ju skippa den biten.)
Widsith skrev:Och förklara närmare vad du menar med "vanlig" kopiering under "vanliga" förhållanden, och "noggrann" sådan under dito förhållanden?
"Vanlig kopiering" är kopiering för vardagligt bruk. Sådant som vi kanske inte gör varje dag, men som våra datorer utför dagarna i ända, utan att stöta på några märkbara problem. Om det du beskriver varit ett faktiskt problem så hade vi inte behövt vänta i 150 år på ett belägg - varför vänta över huvud taget förresten - det är ju hur enkelt som helst att kopiera en fil, ta en kopia på kopian osv. så länge man orkar.
"Noggrann kopiering" är just det - kopiering av bokföring eller andra viktiga dokument, måhända till säkrare media än CD-R. Då kan det vara aktuellt att granska bit för bit, om man vill vara helt säker.
Widsith skrev:Faktum är att en helt förlustfri kopiering bara kan uppnås i teorin
Med rimliga åtgärder är det tvärtom förluster vid kopiering som är teoretisk.