Anwendungs-Software und Apps 14.214 Themen, 70.330 Beiträge

Tool zum Finden von doppelten Bilddateien

RogerWorkman / 35 Antworten / Baumansicht Nickles

Hi, benötige eine Software , die

1. gleiche Dateinamen in unterschiedlichen Ordnern aufspürt und anzeigt

2. gleiche/ähnliche Bilder (jpg,raw, tif) in unterschiedlichen Ordnern aufspürt und als Thumbnail anzeigt.

3. duplizierte Ordner/Unterordner aufspürt und anzeigt

Das ganze dient dem Zweck, überflüssig duplizierte Aufnahmen aufzufinden um zu löschen. Es geht hierbei um ca. 33TB Bilddaten eines Archivs.

Nach Jahren muss Ordnung mal sein... gibt es solche Software?

Gruß Roger

bei Antwort benachrichtigen
Michael Nickles RogerWorkman

„Tool zum Finden von doppelten Bilddateien“

Optionen

Bin grad auch am Entrümpeln,

verwende seit geraumer Zeit dieses Tool hier, schon älter aber erledigt exakt diesen Job prima:

http://www.anti-twin.de/

Grüße,
Mike

bei Antwort benachrichtigen
RogerWorkman Michael Nickles

„Bin grad auch am Entrümpeln, verwende seit geraumer Zeit dieses Tool hier, schon älter aber erledigt exakt diesen Job ...“

Optionen

Danke Mike, scheint ein gutes altes Programm zu sein.

Aber, habe versuchsweise nur die kleine Platte mit ca. 35000 Dateien zum "Vergleich" 100 genommen. Wielange braucht das Programm? Der Fortschrittsbalken  ist seit ca. 2 Stunden noch nicht zu sehen, keine Datei ist unter 1MB bis max 250MB, es sind halt Bilddaten.

Den Reiter Ergebnis kann ich nicht anklicken. Programm läuft aber und es rattern im Hauptfenster die Dateien durch.

Sollte ich erstmal nur vermutete Ordner nehmen? Bei 33TB, wie soll das gehen?

Danke für weiter Tips. Gruß Roger

bei Antwort benachrichtigen
Michael Nickles RogerWorkman

„Danke Mike, scheint ein gutes altes Programm zu sein. Aber, habe versuchsweise nur die kleine Platte mit ca. 35000 Dateien ...“

Optionen

Wenn Deine Bilddateien bis zu 250 MByte groß sind und 33 Terabyte verglichen werden sollen, dann dauert das natürlich. Da kenne ich leider keinen Trick. 

bei Antwort benachrichtigen
Borlander RogerWorkman

„Danke Mike, scheint ein gutes altes Programm zu sein. Aber, habe versuchsweise nur die kleine Platte mit ca. 35000 Dateien ...“

Optionen

Also ich würde Schritt 1 und 3 als erstes durchführen. Das wird potenziell wesentlich schneller gehen als die unscharfe Suche nach ähnlichen Bildern.

Sind das eigentlich nur Bilder oder auch noch andere Dateien?

Bei Photos könnte man ansonsten auch einen EXIF-Daten zum Vergleich heranziehen. Selbst das extrahieren der Daten wird aber schon dauern (sollte aber von der Bildgröße im Wesentlichen unabhängig sein). Im Idealfall haben alle Bilder EXIF-Daten incl. Zeitstemepel, Kameramodell und Kameraseriennummer.

bei Antwort benachrichtigen
RogerWorkman Borlander

„Also ich würde Schritt 1 und 3 als erstes durchführen. Das wird potenziell wesentlich schneller gehen als die unscharfe ...“

Optionen
Also ich würde Schritt 1 und 3 als erstes durchführen.

Danke, das hilft. Selbst 1000 Dateien vergleichen dauert...  was solls, denn wie soll man sonst gleiche Dateien in verschiedenen Ordnern finden?  Da die Dateigröße und Ort angezeigt wird, ist es leicht auszuwählen. Löschen geht sehr schnell.

Interessant wird es bei einer reinen Bildvergleichssuche. Denn manche Dateien wurden ja auch umbenannt.

Exif-Dateien sind nicht verbindlich und werden absichtlich entfernt. Sobald man z.B. in PSP mal einen anderen Himmel eingezogen, oder was wegretuschiert hat. stimmt vielleicht der Dateiname überein, niemals die Größe. Löschen verboten!

Ich übe. Das Programm ist wirklich gut.

bei Antwort benachrichtigen
Borlander RogerWorkman

„Danke, das hilft. Selbst 1000 Dateien vergleichen dauert... was solls, denn wie soll man sonst gleiche Dateien in ...“

Optionen
wie soll man sonst gleiche Dateien in verschiedenen Ordnern finden?

Man kann durch Datei-Hashes eine Vorauswahl treffen und muss dann nur noch Dateien Vergleichen die die selbe Hashsumme haben. Das wird z.B. auch bei Deduplikation in Dateisystemen (wie ZFS) oder größeren Speichersystemen so gemacht.

Denn manche Dateien wurden ja auch umbenannt.

Reines Umbenennen ohne binäres Ändern lässt sich auch noch leicht ermitteln.

Exif-Dateien sind nicht verbindlich und werden absichtlich entfernt. Sobald man z.B. in PSP mal einen anderen Himmel eingezogen, oder was wegretuschiert hat. stimmt vielleicht der Dateiname überein, niemals die Größe. Löschen verboten!

Dann stellt sich mir die Frage ob Du überhaupt eine Ähnlichkeitssuche brauchst, wenn Du alle Varianten des selben Bildes behalten willst. Falls das exakt selbe Bild einmal mit und einmal mit EXIF-Dateien vorliegt sollen dann beide Dateien erhalten bleiben?

bei Antwort benachrichtigen
RogerWorkman Borlander

„Man kann durch Datei-Hashes eine Vorauswahl treffen und muss dann nur noch Dateien Vergleichen die die selbe Hashsumme ...“

Optionen
Dann stellt sich mir die Frage ob Du überhaupt eine Ähnlichkeitssuche brauchst, wenn Du alle Varianten des selben Bildes behalten willst.

Dasselbe Bild in verschiedenen Varianten ist nicht dasselbe Bild!

Falls das exakt selbe Bild einmal mit und einmal mit EXIF-Dateien vorliegt sollen dann beide Dateien erhalten bleiben?

Ja, denn auch das ist nicht dasselbe. Einmal mit Information über Kamera, Objektiv und vieles mehr, ohne Exif eben ohne diese Informationen.

Hab schon mit dem Programm rumprobiert. Bildvergleichssuche geht nicht, da einfach zuviele Dateien. In einem Ordner sind selten gleiche Dateien, Suche sinnlos. Aber in verschiedenen Ordnern und Unterordnern befinden sich gleiche Dateien, zum Teil bis an 5 verschiedenen Orten/Ordnern.

Habe auf einem Raid-Speicher (ArchivA)   1280803 Bilddateien in 40594 Ordnern. Auf einem anderen Speicher(ArchivB) ähnlich viel. Archiv A und Archiv B sollen untereinander ebenso abgeglichen werden.  Das Problem, das Dateien umbenannt worden sind, gehe ich nicht an. Da würde nur ein Bildpixelvergleich sinnvoll sein, aber bei der Masse?

Das Programm funktioniert gut, aber es ist ja allein ein Problem der Zugriffszeiten vom Programm. Schneller als die Datenübertragung über eSata oder USB3 geht ja nicht.

Hatte mich zuvor nicht mit Vergleichssoftware beschäftigt. Kann ja nicht Wochenlang vor der Kiste sitzen und händisch Duplikate rauslöschen.

Leider ist das System der Dateinamenbenennung und auch die Ordnerstruktur  über Jahrzente nicht gleich erfolgt. Eine Verschlagwortung hat auch aufgrund der Masse nicht stattgefunden. Im Dateiordner steht Ort,Datum,Suffix., aber auch das nicht immer konsequent. 

Ganz schön schwieriges Projekt für mich. Gruß Roger

bei Antwort benachrichtigen
RogerWorkman Borlander

„Man kann durch Datei-Hashes eine Vorauswahl treffen und muss dann nur noch Dateien Vergleichen die die selbe Hashsumme ...“

Optionen
Dann stellt sich mir die Frage ob Du überhaupt eine Ähnlichkeitssuche brauchst, wenn Du alle Varianten des selben Bildes behalten willst.

Dasselbe Bild in verschiedenen Varianten ist nicht dasselbe Bild! Egal ob Inhalt oder Dateiname.

Falls das exakt selbe Bild einmal mit und einmal mit EXIF-Dateien vorliegt sollen dann beide Dateien erhalten bleiben?

Ja, denn auch das ist nicht dasselbe. Einmal mit Information über Kamera, Objektiv und vieles mehr, ohne Exif eben ohne diese Informationen.

Hab schon mit dem Programm rumprobiert. Bildvergleichssuche geht nicht, da einfach zuviele Dateien. In einem Ordner sind selten gleiche Dateien, Suche sinnlos. Aber in verschiedenen Ordnern und Unterordnern befinden sich gleiche Dateien, zum Teil bis an 5 verschiedenen Orten/Ordnern.

Habe auf einem Raid-Speicher (ArchivA)   1280803 Bilddateien in 40594 Ordnern. Auf einem anderen Speicher(ArchivB) ähnlich viel. Archiv A und Archiv B sollen untereinander ebenso abgeglichen werden.  Das Problem, das Dateien umbenannt worden sind, gehe ich nicht an. Da würde nur ein Bildpixelvergleich sinnvoll sein, aber bei der Masse?

Das Programm funktioniert gut, aber es ist ja allein ein Problem der Zugriffszeiten vom Programm. Schneller als die Datenübertragung über eSata oder USB3 geht ja nicht.

Hatte mich zuvor nicht mit Vergleichssoftware beschäftigt. Kann ja nicht Wochenlang vor der Kiste sitzen und händisch Duplikate rauslöschen.

Leider ist das System der Dateinamenbenennung und auch die Ordnerstruktur  über Jahrzente nicht gleich erfolgt. Eine Verschlagwortung hat auch aufgrund der Masse nicht stattgefunden. Im Dateiordner steht Ort,Datum,Suffix., aber auch das nicht immer konsequent. 

Ganz schön schwieriges Projekt für mich. Gruß Roger

bei Antwort benachrichtigen
Borlander RogerWorkman

„Dasselbe Bild in verschiedenen Varianten ist nicht dasselbe Bild! Egal ob Inhalt oder Dateiname. Ja, denn auch das ist ...“

Optionen
Bildvergleichssuche geht nicht, da einfach zuviele Dateien.

Nach dem was Du schreibst brauchst Du nur eine Lösung die binär identische Dateien identifiziert. Ob Bilddatei oder irgendwas anderes scheint egal zu sein auf Basis deiner Definition von identisch.

Das Problem, das Dateien umbenannt worden sind, gehe ich nicht an. Da würde nur ein Bildpixelvergleich sinnvoll sein, aber bei der Masse?

Umbenennen ändert die Dateiinhalt nicht. D.h.: Binärvergleich reicht da aus.

bei Antwort benachrichtigen
mawe2 Borlander

„Nach dem was Du schreibst brauchst Du nur eine Lösung die binär identische Dateien identifiziert. Ob Bilddatei oder ...“

Optionen

Ich möchte zu diesem Zweck WinMerge vorschlagen.

http://winmerge.org/?lang=de

Bei dem doch recht großen Datenvolumen lohnt sich evtl. ein Geschwindigkeitsvergleich (mit Anti-Twin) mit einer kleineren Teilmenge der Dateien um abschätzen zu können, welches Tool effizienter arbeitet, bevor man dann die Gesamtmenge der Dateien in Angriff nimmt.

"When bankers get together for dinner, they discuss Art. When artists get together for dinner, they discuss Money" (Oscar Wilde)
bei Antwort benachrichtigen
Borlander mawe2

„Ich möchte zu diesem Zweck WinMerge vorschlagen. http://winmerge.org/?lang de Bei dem doch recht großen Datenvolumen ...“

Optionen

WinMerge ist aber (soweit ich das bislang feststellen konnte) nur zum Vergleich von Verzeichnisbäumen mit identischer Struktur geeignet. Selbst wenn in beiden Versionen auf oberster Ebene in Verzeichnis mit identischen Inhalten aber verschiedenen Verzeichnisnamen existiert würde man dies mit WinMerge nicht sehen.

bei Antwort benachrichtigen
mawe2 Borlander

„WinMerge ist aber soweit ich das bislang feststellen konnte nur zum Vergleich von Verzeichnisbäumen mit identischer ...“

Optionen
WinMerge ist aber (soweit ich das bislang feststellen konnte) nur zum Vergleich von Verzeichnisbäumen mit identischer Struktur geeignet.

Nein.

(Hatten wir nicht erst vor Kurzem über WinMerge diskutiert?)

Ich persönlich nutze es hauptsächlich zum Vergleichen von Verzeichnisbäumen, es kann aber noch viel mehr:

  • 3-Wege-Dateivergleich
  • visuelles Vergleichen und Zusammenführen von Textdateien
  • Ordnervergleich
  • auf regulären Ausdrücken basierte Dateifilter ermöglichen das Ein- und Ausschließlichen von Objekten
  • schnelles Vergleichen mithilfe von Dateigrößen und Änderungsdaten
  • vergleicht ein Ordner oder auch alle Unterordner
  • Ordnervergleichs-Ergebnisse können in einer Baumansicht angezeigt werden
  • Bildvergleich
  • unterstützt viele Arten von Bildern
  • kann die Unterschiede mit Blöcken hervorheben
  • ein Überlagern der Bilder ist möglich
  • Versionskontrolle
  • Patch-Datei erzeugen

Das ist insgesamt schon ein sehr mächtiges Werkzeug und als Open-Source-Anwendung für diese Zwecke unschlagbar.

Ob es mit dieser riesigen Datenmenge zurechtkommt, weiß ich nicht.

Gruß, mawe2

"When bankers get together for dinner, they discuss Art. When artists get together for dinner, they discuss Money" (Oscar Wilde)
bei Antwort benachrichtigen
Borlander mawe2

„Nein. Hatten wir nicht erst vor Kurzem über WinMerge diskutiert? Ich persönlich nutze es hauptsächlich zum Vergleichen ...“

Optionen

Die aufgeführten Funktionen helfen im Vorliegenden Fall aber nicht weiter.

(Hatten wir nicht erst vor Kurzem über WinMerge diskutiert?)

Hatten wir.

bei Antwort benachrichtigen
RogerWorkman Borlander

„Nach dem was Du schreibst brauchst Du nur eine Lösung die binär identische Dateien identifiziert. Ob Bilddatei oder ...“

Optionen
Ob Bilddatei oder irgendwas anderes scheint egal zu sein auf Basis deiner Definition von identisch.

Es ist sehr aufwendig, Das besagte Programm schafft es sehr präzise innerhalb eines Ordners und Unterordnern Duplikate zu finden. Das hilft schonmal weiter. Z.B. Ordner München, darin sind weitere Unterodner mit ...Sehenwürdigkeiten, Sport, Architektur usw.  Es kommt oft vor das ein Bild in mehreren Ordner abgelegt wurde. Das sollte nicht sein. Das Programm spürt das auf.  Ist aber fälschlicherweise ein Müncher Bild in Ordenr Hamburg abgelegt, das schafft das Programm nicht zu finden, außer ich gebe 2 Überodner an. Der Vergleich dauert aber viele, viele Stunden.

bei Antwort benachrichtigen
mawe2 RogerWorkman

„Es ist sehr aufwendig, Das besagte Programm schafft es sehr präzise innerhalb eines Ordners und Unterordnern Duplikate zu ...“

Optionen

Man muss aber auch sagen, dass das Problem, in das Du Dich da manövriert hast, ein sehr spezielles ist.

Im Web hast Du ja sicher schon nach Lösungen dafür gesucht, oder? Da wird es wohl nur wenig Lösungsansätze geben. (Bzw. die beiden genannten Programme sind solche Ansätze aber eben auch nur schwer handhabbar.)

Vielleicht lohnt es sich bei der derart großen Datenmenge sogar, ein Programm extra dafür zu schreiben?

Gruß, mawe2

"When bankers get together for dinner, they discuss Art. When artists get together for dinner, they discuss Money" (Oscar Wilde)
bei Antwort benachrichtigen
RogerWorkman mawe2

„Man muss aber auch sagen, dass das Problem, in das Du Dich da manövriert hast, ein sehr spezielles ist. Im Web hast Du ja ...“

Optionen
Im Web hast Du ja sicher schon nach Lösungen dafür gesucht,

Ohh ja, und finde haufenweise Programme, die zu einer zeit geschrieben wurden, wo Bilder noch in kB-Größe waren, die Rechner sehr viel langsamer. Digitalkameras und Dateiverwaltung, "sichere" Speicher gibt es noch nicht so lange. Die technische Entwickung ging rasant. Habe mit einer Kodak DCS 500 1998 angefangen, danach Kodak SLRn usw. Solche kameras kosteten schonmal 2 Mittelklassewagen. Alle haben bis heute technisch nicht überlebt, außer die Bilddateien. Man bedenke, was es 1998 für Monitore und Computer gab. Heute sieht alles ganz anders aus.

Die Datenflut überennt uns, die Bilddatenbanken müssen neu struckturiert werden. Überflüssige Duplikate müssen weg, ansonsten potenziert sich die Datenmenge. Wie beschrieben, eine Verschlagwortung ist schlicht zu aufwendig, also teuer.

Mit dem Programm kommt mann schon einwenig schneller voran, aber dennoch braucht es elendig viel Prüfzeit.

Ein Programm zu schreiben lohnt nicht, da die Erlöse aus Bildaten gegenläufig sind. Oft ist es sogar effizienter neue Fotos zu erstellen.  Historisches kann man natürlich nicht ersetzen. Gigantomanisch viele historisch wertvolle Fotos stehen uns ja nicht zur Verfügung, da diese nicht digitalisiert worden sind. Kann auch keiner, wer soll es bezahlen? Es ist ja schon schwierig Etats für die Verwaltung von Bildern zu bekommen.

Extrem Innovative Datenbankführung hat z.B. im Bereich Bilbliothek ZBW und Forschung  https://www.zbw.eu/de/forschung/zbw-labs/   Das Ganze steckt noch im Babyzeitalter.

Bei nickles.de ist dies ein ganz anderer Ansatz und verhilft (mir) mit Diskussionen manchmal technisch einfache Lösungsansätze zu finden und ggfs. zu entwickeln.

Gruß Roger

bei Antwort benachrichtigen
mawe2 RogerWorkman

„Ohh ja, und finde haufenweise Programme, die zu einer zeit geschrieben wurden, wo Bilder noch in kB-Größe waren, die ...“

Optionen
Ein Programm zu schreiben lohnt nicht, da die Erlöse aus Bildaten gegenläufig sind.

Ich weiß ja nicht, in welchem Kontext Du vor dem beschrieben Problem stehst.

Wenn man sich vorstellt, dass jemand monatelang manuell diese Aufräumarbeiten machen müsste, dann muss der ja auch bezahlt werden. Dann könnte sich eine kleine Software, die man explizit für diesen Zweck anfertigt, schon lohnen. (Immer unter dem Aspekt, dass bereits verfügbare Software den Zweck nicht oder nicht schnell genug erfüllt.)

Letztlich bleibt nur die Erkenntnis, dass man seine Fotos möglichst von Anfang an verschlagworten und mit einer möglichst transparenten und kompatiblen Verwaltungssoftware verwalten sollte. Sonst wächst einem das Thema sehr schnell über den Kopf.

Gruß, mawe2

"When bankers get together for dinner, they discuss Art. When artists get together for dinner, they discuss Money" (Oscar Wilde)
bei Antwort benachrichtigen
RogerWorkman mawe2

„Ich weiß ja nicht, in welchem Kontext Du vor dem beschrieben Problem stehst. Wenn man sich vorstellt, dass jemand ...“

Optionen
Letztlich bleibt nur die Erkenntnis, dass man seine Fotos möglichst von Anfang an verschlagworten und mit einer möglichst transparenten und kompatiblen Verwaltungssoftware verwalten sollte.

Richtig, aber wer konnte es ab etwa 1995 wissen, wann und mit wieviel Dateien man überrollt wird. Mein Archiv mit derzeit 1280803 Bilddateien ist noch ziemlich klein.

Große Archive wie Fotolia/AdobeStock haben senstionell viel sehr gute Bilder, man muss sie nur finden. Das Ganze ab 0,16 €/Bild, der Fotograf muss Fotografie, Bildbearbeitung und Verschlagwortung als Zeit einrechnen. Für Verwaltung ist kein cent übrig.

Ist denn Software schreiben so günstig? Ich kenne nur Programmierer, die fürstliche Jahresgehälter beziehen und ganz viel im Urlaub sind. Glaube es ist nicht so einfach, wie es hier steht: https://de.wikihow.com/Software-programmieren

Ich wurschtel mich gerade von einem zum anderen Ordner durch. ca. 10% kann ich aufgrund doppelter Dateien löschen. Das ist viel. Weihnachten bin ich wohl fertig.

bei Antwort benachrichtigen
mawe2 RogerWorkman

„Richtig, aber wer konnte es ab etwa 1995 wissen, wann und mit wieviel Dateien man überrollt wird. Mein Archiv mit derzeit ...“

Optionen
Große Archive wie Fotolia/AdobeStock haben senstionell viel sehr gute Bilder, man muss sie nur finden. Das Ganze ab 0,16 €/Bild, der Fotograf muss Fotografie, Bildbearbeitung und Verschlagwortung als Zeit einrechnen. Für Verwaltung ist kein cent übrig.

Es wundert mich ernsthaft, dass Fotografen, die wirklich gute Fotos machen, sich derart ausbeuten lassen. Für solche Preise würde ich grundsätzlich kein einziges Foto verkaufen. Das macht doch überhaupt keinen Sinn. (Oder kennst Du einen plausiblen Grund, warum jemand sowwas macht?)

Ist denn Software schreiben so günstig?

Das kommt ganz drauf an. Besser als ein Fotograf scheint ein Programmierer schon zu verdienen. Aber hier ist ja auch keine komplett ausgereifte und für alle Eventualitäten ausentwickelte Super-Software nötig sondern nur ein kleines Tool, das genau das macht, was Du willst.

Weihnachten bin ich wohl fertig.

Und wieviel Geld verdienst Du in der Zeit als Fotograf nicht, weil Du diese Aufräumarbeiten machen musst? So viel Geld könntest Du auch in eine Software investieren.

"When bankers get together for dinner, they discuss Art. When artists get together for dinner, they discuss Money" (Oscar Wilde)
bei Antwort benachrichtigen
Borlander mawe2

„Es wundert mich ernsthaft, dass Fotografen, die wirklich gute Fotos machen, sich derart ausbeuten lassen. Für solche ...“

Optionen
Und wieviel Geld verdienst Du in der Zeit als Fotograf nicht, weil Du diese Aufräumarbeiten machen musst? So viel Geld könntest Du auch in eine Software investieren.

Er hat doch schon geschrieben, dass es billiger ist neue Photos zu machen als zu sortieren…

bei Antwort benachrichtigen
RogerWorkman mawe2

„Es wundert mich ernsthaft, dass Fotografen, die wirklich gute Fotos machen, sich derart ausbeuten lassen. Für solche ...“

Optionen

Weihnachten... sorry war ironisch gemeint.

bei Antwort benachrichtigen
RogerWorkman mawe2

„Es wundert mich ernsthaft, dass Fotografen, die wirklich gute Fotos machen, sich derart ausbeuten lassen. Für solche ...“

Optionen
Es wundert mich ernsthaft, dass Fotografen, die wirklich gute Fotos machen, sich derart ausbeuten lassen. Für solche Preise würde ich grundsätzlich kein einziges Foto verkaufen. Das macht doch überhaupt keinen Sinn. (Oder kennst Du einen plausiblen Grund, warum jemand sowwas macht?)

Hier ein Spitzenverdiener: https://omr.com/de/so-verdient-man-10-000-euro-monatlich-mit-stockfotos/

Nur was für Fotos macht derjenige? Ohne eigene Handschrift und auschließlich auf Bedarf getrimmt. Immer unter ständigen Druck Stückzahlen zu gernerieren. Wer viel Fotos einstellt, hat rein statistisch auch  mehr Erlös.

Bei ortsansässiger Presse, Auflage 360000, bekommt man dagegen für ein veröffentlichtes Foto etwa 20,-€.  Aufwand, Steuern usw. wird nicht bezahlt, geht davon noch ab.

bei Antwort benachrichtigen
Borlander RogerWorkman

„Richtig, aber wer konnte es ab etwa 1995 wissen, wann und mit wieviel Dateien man überrollt wird. Mein Archiv mit derzeit ...“

Optionen
Ist denn Software schreiben so günstig?

Individualentwicklung ist tendenziell sehr teuer.

bei Antwort benachrichtigen
Borlander RogerWorkman

„Richtig, aber wer konnte es ab etwa 1995 wissen, wann und mit wieviel Dateien man überrollt wird. Mein Archiv mit derzeit ...“

Optionen
Mein Archiv mit derzeit 1280803 Bilddateien

Hast Du mal eine Liste sämlicher Bilddateien erstellt?

Ich würde wohl zunächst alle Dateinamen zzgl. kompletten Pfad und Dateigröße und ergänzend dazu einen Hash für jede Datei berechnen. Mit einer DB könnte man auf dieser Basis dann einfach vermutete Duplikate ermitteln, sowie den Anteil von Dateien mit vermuteten Duplikaten je Verzeichnis…

bei Antwort benachrichtigen
RogerWorkman Borlander

„Hast Du mal eine Liste sämlicher Bilddateien erstellt? Ich würde wohl zunächst alle Dateinamen zzgl. kompletten Pfad ...“

Optionen
Hast Du mal eine Liste sämlicher Bilddateien erstellt?

Nein, bis dato nicht benötigt. Suche Bilddateien nach eigenen, definierten Ordnernamen. Im letzten Ordner geh ich in die Bildansicht und finde das gesuchte Bild sehr schnell.

Denkbar wäre auch ein Bilddatenprogramm, welches kleine Bildvorschauen generiert, und nur diese vergleichen. Zumindest ging das sehr schnell.

bei Antwort benachrichtigen
Borlander mawe2

„Man muss aber auch sagen, dass das Problem, in das Du Dich da manövriert hast, ein sehr spezielles ist. Im Web hast Du ja ...“

Optionen
Man muss aber auch sagen, dass das Problem, in das Du Dich da manövriert hast, ein sehr spezielles ist.

Ich denke, dass das Problem von verteilten Duplikaten gar nicht so selten ist. Das Finden von doppelten Dateien ist technisch auch gar nicht mal so kompliziert, aber es gibt da keine wirklich einfachen oder allgemeingültigen Regeln zu Bereinigung.

Alles was manuelle Eingriffe erfordert ist jedoch i.d.R. wirtschaftlich nicht sinnvoll. Speicherplatz ist billig und wenn das Volumen so groß wird, dass es preislich relevant wird dann verwendet man halt ein Dateisystem (wie ZFS) oder auch ein Speichersystem (wie von NetApp) mit Deduplikationsfunktion

bei Antwort benachrichtigen
Borlander RogerWorkman

„Es ist sehr aufwendig, Das besagte Programm schafft es sehr präzise innerhalb eines Ordners und Unterordnern Duplikate zu ...“

Optionen
Es kommt oft vor das ein Bild in mehreren Ordner abgelegt wurde. Das sollte nicht sein.

Was würdest Du dir denn in Fällen wünschen in denen das Bild in beiden Verzeichnissen sinnvoll aufgehoben ist?

bei Antwort benachrichtigen
Hellspawn Borlander

„Was würdest Du dir denn in Fällen wünschen in denen das Bild in beiden Verzeichnissen sinnvoll aufgehoben ist?“

Optionen

Gleiche Bilder finden sollte machbar sein, für alle Dateien den Hash berechnen, und schauen ob hashes mehrmals auftauchen. Soweit sogut.

Aber eine überlegung zum Algorithmus "Ähnliche Bilder finden":

div. libs bieten bereits eine vergleichsmöglichkeit, z.B. das ImageMagick projekt, die Frage ist: wie implementiert man das Effizient? Denn eigentlich müsste man jedes Bild mit jedem vergleichen, da dürfte die Rechenzeit ganz schön nach oben gehen (auch bei einer 16 Kern CPU) + was ist ähnlich? Man müsste sich auf ein Threshold einigen, dieser ist aber immer ein Kompromiss zwischen Erkennungsrate VS FalsePositives

bei Antwort benachrichtigen
Martina61 Hellspawn

„Gleiche Bilder finden sollte machbar sein, für alle Dateien den Hash berechnen, und schauen ob hashes mehrmals auftauchen. ...“

Optionen

Hallo,

sorry, wenn ich vielleicht eine ("blöde"?!) Frage stelle...

Kann ich hier ALLES blau markierte ohne grav. Folgen löschen?

Die Legende bzw. die einz. farbl. erklärten Punkte erscheinen hier doch gar nicht, es sind alle Punkte grünlich (Datei bleibt erhalten). Auch die blau hinterlegten. Keine einzige ist mit dem roten Kästchen (incl. weißem Kreuz) gekennzeichnet.

Danke

bei Antwort benachrichtigen
Anne0709 Martina61

„Hallo, sorry, wenn ich vielleicht eine blöde ?! Frage stelle... Kann ich hier ALLES blau markierte ohne grav. Folgen ...“

Optionen
Keine einzige ist mit dem roten Kästchen (incl. weißem Kreuz) gekennzeichnet.

Welche Dateien gelöscht werden sollen, legt der Anwender selber fest - auf das Kästchen klicken ergibt das weiße Kreuz zum Löschen/Verschieben.

Alle Dateien zwischen den waagerechten Strichen wurden nach den vor der Suche eingestellten Kriterien als "gleich" oder "ähnlich" erkannt.

Klick auf eine Datei in einer Ergebnis-Gruppe zeigte mir zu allen Dateien der Gruppe Informationen an - bei Bildern mit Vorschau.

Im Zweifelsfall hilft ein Vergleich der Ordner, in denen die Datei angezeigt wurde.
Bei einer Sicherung sind eventuell beim Vergleich die Dateien dann doppelt vorhanden, in der Sicherung und im originalen Verzeichnis.

Ich selbst arbeite mich jetzt auch erst mal bei Bildern durch. Bin bisher ganz zufrieden - und es gibt noch viele Einstellungen mehr.

Gruß,
Anne

Jeder Fehler erscheint unglaublich dumm, wenn andere ihn begehen. Georg Christoph Lichtenberg
bei Antwort benachrichtigen
RogerWorkman Anne0709

„Welche Dateien gelöscht werden sollen, legt der Anwender selber fest - auf das Kästchen klicken ergibt das weiße Kreuz ...“

Optionen
Ich selbst arbeite mich jetzt auch erst mal bei Bildern durch. Bin bisher ganz zufrieden

So mach ich das auch, zumeist ist die Dateigröße bei Duplikaten gleich. Layoutdateien werden auch als identisch gefunden, obwohl viel kleiner, lösche ich aber nicht.

bei Antwort benachrichtigen
Borlander Hellspawn

„Gleiche Bilder finden sollte machbar sein, für alle Dateien den Hash berechnen, und schauen ob hashes mehrmals auftauchen. ...“

Optionen
"Ähnliche Bilder finden" […] wie implementiert man das Effizient? Denn eigentlich müsste man jedes Bild mit jedem vergleichen, da dürfte die Rechenzeit ganz schön nach oben gehen (auch bei einer 16 Kern CPU) + was ist ähnlich? Man müsste sich auf ein Threshold einigen, dieser ist aber immer ein Kompromiss zwischen Erkennungsrate VS FalsePositives

Ähnlich ist tatsächlich gar nicht so einfach. Zwei Identische Bilder sind sicher ähnlich und einer großer Ausschnitt eines Bildes ist sicher auch ähnlich zum Gesamtbild. Im einfachsten Fall nimmst Du halt die gemittelte Farbe des Bildes als Vergleichsbasis und führst nur noch einen Detailvergleich durch wenn die Distanz hinreichend klein ist. Da sorgt dann allerdings ein unterschiedlicher Weißabgleich für einen großen Abstand. Kannst auf Basis des Histogramms nach ähnlichen Bildern suchen. Wenn das Verfahren skalieren soll, dann brauchst Du auch wieder eine Aggregation der Bilder auf ein kompakte Repräsentation die grobe Ähnlichkeitsaussagen erlaubt. Also ein bisschen ähnlich wie die Hashes für die exakte Suche.

bei Antwort benachrichtigen
RogerWorkman Borlander

„Ähnlich ist tatsächlich gar nicht so einfach. Zwei Identische Bilder sind sicher ähnlich und einer großer Ausschnitt ...“

Optionen

ich find es spannend, wie meine Frage technisch "durchleuchtet" wird. Ein Sichtvergleich von einem Mensch, der Thumbnails zweier Ordner nebeneinander optisch vergleicht,  ist unglaublich schnell und effizient. Selbst farbabweichungeb und Retuschen sind ziemlich gut erkennbar. Wie schwierg sowas für eine Software ist, hätte ich nicht gedacht.

google kann das verdammt gut, ansonsten hätte ich in China auf einer Messe geklaute Fotos, wiedergefunden in einem Bildarchiv USA nicht entdeckt. Rechtslage zur Klage über den Ozeanen nicht einfach.  https://support.google.com/websearch/answer/1325808?co=GENIE.Platform%3DAndroid&hl=de

Bildvergleich bei mir? Ich bin nicht google.

Gruß Roger.

bei Antwort benachrichtigen
Borlander RogerWorkman

„ich find es spannend, wie meine Frage technisch durchleuchtet wird. Ein Sichtvergleich von einem Mensch, der Thumbnails ...“

Optionen

Es gibt da durchaus einige Lösungen die sehr gut darin sind Bilder oder Bildteile zu finden. Siehe https://www.nickles.de/forum/nickles-blog/2014/alarm-bei-produktfotos-von-lg-droht-rechnung-von-getty-images-539076491.html

bei Antwort benachrichtigen
RogerWorkman Borlander

„Es gibt da durchaus einige Lösungen die sehr gut darin sind Bilder oder Bildteile zu finden. Siehe ...“

Optionen

Danke Borlander, seinerzeit hab ich bei dem verlinkten Thread auch meinen Beitrag geleistet. Dort geht es aber nur um Rachte, Copyrights, Urheberrecht, Abmahnabzocke usw., GettyImanges hat auch Google oder eigene Vergleichssoftware genutzt.

Mir passiert das tagtäglich, das irgendein Prof. ein "geklautes" Bild unter dem Deckmantel "Wissenschaft" über einen Verlag gedruckt und online veröffentlicht, mit korrekter Copyright meines Namen, aber eben ohne die Nutzungsrechte zu besitzen.

Meiner Meinung sollte es Software geben, die im Bild (oder auch Text) unentfernbar die herkunft implementieren. Damit wäre jede Rechtsfrage im Vorfeld schon geklärt.

Metadaten, die z.B. für Bildvergleich herangezogen werden können, sind veränderbar. In meinem Fall geht es ja nur darum, intern im Archiv überflüssige Duplikate zu entfernen, denn bei einer Dateinamensuche hätte man ansonsten mehrere Treffer unterschiedlicher Herkunft. Ungut.

Gruß Roger

bei Antwort benachrichtigen