Papierkram - Zettelwirtschaft zu PDF-Management

Ein Arbeitszimmer in ein Kinderzimmer zu verwandeln ist ein durchaus ambitioniertes Projekt, das aus diversen, nicht weniger ambitionierten, Unterprojekten besteht. Wie bereits im Eingangspost dieser kleinen Serie gesagt wude, geht es im Großen und Ganzen darum, Kram anderswo zu verstauen, respektive das Zeug los zu werden.

In diesem Post geht es heute um beide Aspekte. Die nützlichen Informationen, die auf dem Papier gespeichert sind, werden digitalisiert und platzsparend¹ auf einer Festplatte gespeichert. Sobald das geschehen ist² kann das ursprüngliche Medium, nämlich genau das Blatt Papier, entsorgt werden. Bei einem Blatt Papier ist der Raumgewinn im physikalischen Storage nicht sonderlich hoch, wenn es aber um die gesammelten Papiere zweier erwachsener Menschen in Akten-Ordnern, Schnellheftern und Kartons geht, so ist durchaus eine erkleckliche Platzeinsparung möglich³.

Und darum geht es ja letzlich.

An dieser Stelle möchte ich diesen Post kurz unterbrechen, um die einzelnen Arbeiten vorzustellen, die weiter unten in einiger Länge aufgeführt werden:

Jedes Papierdokument aus dem alten Papierarchiv und jedes künftig eintrudelnde Stück Papier wird durch einen Fujitsu ScanSnap S1500M gezogen und in ein PDF umgewandelt.
Diese PDFs landen automatisch in einem Eingangsordner von DevonThink Pro Office und werden dort OCRt sowie anschliessend volltextindiziert.
Danach werden die Dokumente manuell betitelt und bedatet⁴.
Zum Schluss werden die Dokumente halbautomatisch sortiert.
Die Dokumenten-Datenbank wird automatisch und fortlaufend lokal⁵ und offsite⁶ gesichert.
Sobald ein Papier-Dokument mindestens zwei mal in digitaler Form existiert⁷ kann es entsorgt werden.

Als Ergebnis der ganzen Geschichte liegen sämtliche Dokumente als volltextindizierte PDFs ordentlich sortiert in einer redundant gesicherten Datenbank. Das gesamte neue Papierarchiv besteht nun aus einem einzigen Ordner der nur noch die Dokumente enthält, die wirklich unbedingt im Original benötigt werden.

Der ganze Weg hin zu dieser Lösung findet sich nach dem Klick…

Auswahl der Komponenten

Alle Papierdokumente die digital gespeichert werden sollen, müssen natürlich auch erst einmal digital erfasst werden. Zu diesem Zweck wird im Prinzip nur ein Scanner nebst passender Software benötigt. Ich habe trotzdem eine lange Zeit⁸, nach einer für mich passenden Lösung gesucht.

Die Kriterien dabei waren:

Ich will meinen Kram gut wieder finden können. Manchmal durch browsen in einer Verzeichnisstruktur, manchmal durch eine Volltextsuche. Unterstützung für Spotlight ist ein Muss, Unterstützung für Tags und SmartFolders ist ein dickes Plus.
Ich will die Papierdokumente im Alltag auch tatsächlich digitalisieren und den ganzen Vorgang nicht aufschieben bis die Papierberge wieder auf ungesunde Höhen wachsen. Der gesamte Workflow soll daher so einfach wie möglich funktionieren und zügig abzuschließen sein.
Ich will meinen Mac verwenden, die Lösung muss also unter OS X funktionieren. Cross-Platform würde ich auch nehmen, ist aber kein Muss.
Die Lösung soll nicht ausschließlich als Datengrab mit Wiederfind-Funktion dienen. Es sollten auch Dinge wie Notizfunktionen und Status-Änderungen⁹ möglich sein. Bonuspunkte für die Möglichkeit der Wiedervorlage und Erinnerungsfunktion.
Ich möchte Dokumente digital teilen können. Eine Mailfunktion ist ein Muss. Dicke, dicke Bonuspunkte für den schmerzfreien Sync zwischen verschiedenen Computern¹⁰ und iDevices. Pluspunkte für rsyncibalität.
Die Struktur des Archivs und das verwendete Dateiformat muss zukunftsfähig¹¹ sein. Soll heissen: Die Software sollte aktiv entwickelt werden und eine Export-Funktion besitzen. Als Dateiformat will ich PDF und TXT haben. Unterstützung für andere Formate ist ein Plus.
Die Dokumente samt der Datenbank und aller eventuell vorhandener Meta-Informationen muss gut zu sichern sein. Ich will sowohl lokal, als auch offsite ein Backup haben. Da hier auch sehr persönliche Informationen zu sichern sind, will ich das ganze verschlüsselt haben.
Ich bin bereit für die gute Erfüllung dieser Punkte Geld in die Hand zu nehmen. Es ist mir lieber, einmal Geld für ordentliches Material auszugegeben, als mich nacher zu ärgern, erneut für eine andere Lösung zu bezahlen und mir den Kopf über eine Migration zu zerbrechen.

So trivial sich die Aufgabe anfangs anhört, die gestellten Anforderungen sind durchaus anspruchsvoll zu nennen. Dabei ist zu erwähnen, dass ich mir während des Auswahlprozesses zwar einiges an Softwarelösungen angesehen habe, mich aber sehr schnell für einen Scanner entscheiden konnte.

Genauer gesagt hatte ich mich zunächst im Jahr 2007 aufgrund eines Posts von Merlin Mann für den Fujitsu ScanSnap S500M entschieden. Letztlich erstanden habe ich aber den Nachfolger namens ScanSnap S1500M.

Dieses Gerät ist die Wucht in Tüten. Wirklich. Der Scanner ist formschön und nimmt zusammengeklappt etwa die Stellfläche eines DIN A4 Blatts ein. Er verfügt über genau eine Taste die blau leuchtet. Er kann duplex scannen und sogar erkennen, wann das nötig ist. Er geht unglaublich fix zu Werke. Er kann schief eingelegte Blätter automatisch korrigieren und erkennt einzelne Seiten per Ultraschall. In einem Scanvorgang kann man unterschiedlich große Seiten erfassen. Wenn man den Scan-Knopf etwas länger drückt, wechselt der Scanner in einen EndlosScan-Modus um überlange Dokumente¹² am Stück zu erfassen. Farbe und Schwarz-Weiß wird ebenfalls automatisch unterschieden. Er unterstützt einen ganzen Haufen an Software-Zielen, von verschiedenen Bildverarbeitungsprogrammen bis hin zum schlichten Verzeichnis im Dateisystem. Ausserdem kann man sich neben den sinnvollen Default-Einstellungen auch noch eigene Scan-Profile erstellen.

Der Scanner ist dagegen nicht geeignet Fotos oder ähnliches zu scannen. Man kann durchaus mal eine Seite aus einem Magazin durchjagen¹³, aber für ernsthafte und hochauflösende Scans von Bildern greift man besser zu einem adäquaten Flachbettscanner. Der S1500M ist ein Arbeitspferd für die Dokumentenerfassung und macht diesen Job wirklich, wirklich großartig.

Es gibt die von mir verwendete Version S1500M in schmuckem weiß und die schwarze Windows-Version namens S1500. Diese unterscheiden sich aber, IIRC, nur in der beigelegten Software. Apropos, ich habe meinen Scanner bei einem eBay-Händler gekauft. Dort gab es den Scanner im Angebot ohne den Adobe Acrobat. Da ich diesen für meine Lösung eh nicht benötigte ist so schnell ein Hunderter in der Anschaffung eingespart. Der Preis lag dann immer noch bei knappen 300 €, aber Qualität hat nun mal ihren Preis und ich war ja auch durchaus gewillt, Geld auszugeben wenn der Gegenwert entsprechend attraktiv ist.

Für weitere Meinungen schaut euch zum Beispiel das Review unter lawyerist.com an. Bestaunt die Bewertungen für die Mac-Version und die Windows-Version bei den Testfreaks. Googlet das Gerät. Und dann, wenn ihr Dokumente scannen wollt kauft euch das Teil. Es geht kaum besser.

Bei der Software habe ich mir einige Lösungen angesehen, bin aber letztlich doch bei DevonThink Pro Office gelandet.

Nur ganz kurz zu der Software die nicht das Rennen machte:

Finder. Ja, das war meine erste Idee. Ist ja eh da, und kostet daher auch nichts extra. Einfach alles direkt im Dateisystem ablegen. Eine einfache Ordnerstruktur die an die bestehende Ordnung in den Papier-Akten angeleht wird und alles wird gut. Mit Spotlight-Kommentaren könnte man sich sogar eine Tag-basierende Ordnung neben der Verzeichnisstruktur basteln. Aber das alles wäre mir dann doch zu aufwendig in der Pflege gewesen…
Ebenfalls sehr symphatisch war mir Yep. Yep hat gegenüber DevonThink den Vorteil, dass es, wie der Finder, direkt auf Dateisystemebene arbeitet und somit den meisten Usern die Einarbeitung erspart. Durch diese Funktionsweise kann das Backup per TimeMachine auch schlicht nebenbei laufen. Die restlichen Features liessen gegenüber DevonThink aber doch zu wünschen übrig. Wer ein leichtgewichtiges Programm sucht, ist hier aber, im Vergleich zum Finder, schon sehr glücklich zu machen.
Bei Evernote war mir nicht so richtig wohl dabei, dass alle Dokumente über Server des Herstellers gesynct werden. Das ist zwar total cool und macht es sehr einfach die Dokumente auch auf dem iPhone oder einem anderen Computer verfügbar zu haben, aber es ist mir deutlich lieber, wenn meine vertraulichen Dokumente nicht in irgendeiner Cloud rumgondeln ohne dass ich Einfluss auf ihre Verschlüsselung nehmen kann.
Yojimbo hat zwar alles, was man für ein anständiges “Hier-wird-alles-abgelegt” System benötigt und strotzt nur so vor Features, aber es ist mir doch zu wenig auf Papier-Dokumente zentriert.

DevonThink Pro Office bietet mir dagegen wirklich alles, was man sich so für eine Dokumentenablage wünschen kann. Es benutzt zwar ein proprietäres Format für seine Datenbank, aber die Sicherung per TimeMachine ist trotzdem kein Problem. Das Programm wird schon viele Jahre weiter entwickelt und verfügt über eine gute Export-Funktion. Die Sortierung funktioniert primär über eine Ordnerstruktur, bietet aber auch Tags an. Als Extra wird jedem Dokument, das in einem Ordner liegt, der Ordnername als Tag verpasst. Das, so sollte sich noch zeigen, ist sehr praktisch.

Die eine große Hürde die man beim Einsatz von DevonThink hat, ist die Einarbeitung. Gerade weil es voller mächtiger Features steckt, ist die Bedienung nicht ab Start intuitiv. Es ähnelt vielmehr einer Leinwand, auf die jeder Benutzer sein Bild von seinem Datenbestand projizieren kann und muss. Wenn die Daten einmal in DevonThink gelandet sind und die Struktur durch den Benutzer steht, ist es sehr einfach zu benutzen und äusserst effizient. Das fängt bei so Dingen wie der schnellen Vergabe von Tags an, geht weiter über die automatische Erkennung von ähnlichen Dokumenten und endet bei der Möglichkeit Dokumente gleichzeitig in mehreren Ordner vorzuhalten noch lange nicht.

Weiterhin bietet DevonThink einen eigenen Webserver an, der den Datenbestand auf jedem OS das einen Browser beherbergt erschließbar macht. Seit kurzem bietet der Hersteller auch eine iOS-App an mit der man seine Dokumente auf iPhone oder iPad mitnehmen kann. Dazu ist es auch möglich, unterwegs PDFs und andere Dokumente zu der Datenbank hinzuzufügen¹⁴ und diese dann auf den Mac zu syncen.

Kurz: Der Preis von 180 US-Dollar ist zwar kein Pappenstil, aber dafür bekommt man auch ein wirklich professionelles Produkt. Der Hersteller bietet auch noch die günstigeren Versionen Professional und Personal an, diese bieten aber weniger Features. Insbesondere fehlen die OCR-Engine und der Webserver…

Workflow

Nachdem die Komponenten also beschafft sind, geht es nun an den eigentlichen Workflow. Dieser besteht im wesentlichen aus Scannen, Bearbeiten und Backup.

Scannen

Wenn Papierdokumente bei uns daheim ankommen und nicht nach einer sofortigen Bearbeitung verlangen¹⁵, landen sie erst einmal in einer formschönen IKEA-Ablage. Wenn sich dort ein erklecklicher Stapel gebildet hat, mache ich mich an die Ablage. Das hat schon zu Zeiten des Papier-Archivs gut funktioniert und der Vorgang ist auch für das digitale Archiv gut geeignet. Es ist nur wichtig darauf zu achten, dass sich kein Berg bildet der einen vor der Erledigung zurückschrecken lässt. GTD und so… Der Stapel wird vor dem Scannen kurz in mehrseitige und einseitige Dokumente vorsortiert, das erspart mehrfaches wechseln der Scan-Presets und macht die Sache, wie ich in ein zwei Absätzen weiter ausführen werde, noch ein bisschen leichter.

Das Scannen selbst ist dank dem ScanSnap wirklich eine Freude. Standardmäßig stecke ich einfach ein Dokument, das dann auch ruhig aus mehreren Seiten bestehen darf die eventuell beidseitig bedruckt sind, oben in den Scanner, drücke den blauen Knopf und warte ein paar Sekunden bis die Blätter durchgezogen wurden. Im Anschluss läuft automatisch die Ablage samt OCR-Erkennung in DevonThink an und die Seiten landen als ein PDF im Eingangsordner. Als Namen trägt das PDF einen Datumsstempel mit sekundengenauer Auflösung im Format 2011_03_11_20_42_52.pdf, die Inhalte sind aber bereits volltextindiziert und durchsuchbar. Hier ist ein Video von einem Scan von 12 alten Gehaltsabrechnungen zum begucken:

Während die OCR-Erkennung läuft, können weitere Dokumente gescannt werden, DevonThink baut dann eine Queue auf, die nach und nach abgearbeitet wird.

Für bestimmte Dokumentarten habe ich eigene Presets erstellt. So sind etwa meine Kontoauszüge von beiden Seiten bedruckt, aber nur die Vorderseite ist interessant. Hierfür gibt es ein Preset, das nur die Vorderseiten aller eingelegten Papiere berücksichtigt. Dieses Preset, und das relativ kleine Papierformat natürlich, beschleunigt das Scannen noch einmal deutlich.

Ausserdem kommt es häufig vor, dass ich eine ganze Anzahl an verschiedenen Dokumenten habe, die jeweils nur aus einer Seite Papier bestehen. Dazu gibt es ein Preset, das jede gescannte Seite als einzelnes PDF ablegt. In diesem Falle kann ich, dank der oben erwähnten Vorsortierrerei, alle einseitigen Dokumente in einem Rutsch scannen lassen.

Bearbeiten

Irgendwann ist dann die OCR-Queue komplett abgearbeitet und die Dokumente liegen mit Datumsstempelnamen und volltextindiziert im Eingangs-Ordner von DevonThink.

Meine Aufgabe ist es nun, den Eingangs-Ordner durchzugehen, jedes Dokument mit einem sprechenden Namen zu versehen und das Erfassungsdatum zu korrigieren. Hier ist dann tatsächlich menschliche Arbeit gefordert, das Potential zur Automatisierung ist eher gering.

Für den Namen habe ich mir angewöhnt, eine Datei zu markieren, in der erscheinenden Vorschau die, meist vorhandene, Betreffzeile zu markieren¹⁶ und als Name der Datei zu Copy & Pasten. Das Erstellungsdatum ist am schnellsten mit diesem kleinen AppleScript¹⁷ und einem Shortcut zu ändern.

Das Script wird unter ~/Library/Application Support/DEVONthink Pro 2/Scripts/Dates/ abgelegt und in den Systemeinstellungen wird ein Extra-Shortcut für DevonThink erstellt. Da das Script bei mir schlicht set_date heißt und das Standardshortcut zum Speichern in DevonThink nicht belegt ist, habe ich mir den Aufruf auf Cmd+S gelegt.

Wenn dann ein oder mehrere Dokumente in DevonThink markiert sind, bringt diese Tastenkombination ein Popup-Fenster auf den Schirm welches die Eingabe eines Datums erwartet. Eingeben, Enter, fertig.

Das macht zwar alles keinen soo großen Spaß, aber die entstehende Ordnung ist die Arbeit definitiv wert.

Full Disclosure: Ich habe immer noch ein Backlog von ca. 400 Dokumenten aus dem alten Archiv auf diese Art und Weise zu verarzten. Die neu hereinkommenden Dokumente werden aber sofort nach dem Scan mit Datum und Titel versehen und sortiert. Um das auch wirklich, wirklich durchzuhalten ist es total wichtig, den Stapel nicht zu hoch wachsen zu lassen…

Jetzt liegen die Dokumente also mit passenden Namen und korrektem Datum im Eingangsordner. Von dort müssen sie aber noch in die für sie vorgesehenen Order einsortiert werden. Für diese Ordner habe ich mich im groben an die themenbezogene Struktur aus dem Papierarchiv (Wohnung, Auto, Telefon, …) gehalten. Einige Ordnder werden allerdings von ihrem Ursprungsort aus in andere repliziert, gewissermassen eingeblendet. Hier muss man einfach selbst schauen was für eine Ordnung man bevorzugt.

Das geniale ist, wenn man einmal ein paar¹⁸ Dokumente in einem Ordner abgelegt hat, lernt DevonThink, dass dieser Ordner für eine bestimmte Art von Dokumenten vorgesehen ist. Über das Zauberhut-Icon erreicht man für die nachfolgenden Dokumente dann eine Liste von Vorschlägen, wohin dieses neue Dokument am ehesten passen könnte.

Das funktioniert sehr gut und um so besser, je feinstreifiger die Ordnerstruktur aufgebaut ist. Als wir etwa den Festnetzanbieter wechselten, war bereits bei der zweiten Rechnung klar, wohin sie gehört. Aber auch bei eher allgemeinen Sammelbecken ist die Magie des Programms erstaunlich. Im Ordner “Wohnung/Möbel” landen zuverlässig Ikea-Kassenzettel und BabyMarkt-Lieferscheine. Wie genau das funktioniert ist mir nicht völlig klar, aber es macht die Sortierung verblüffend einfach.

Über die gleiche Kombination aus OCR und Statistik kann DevonThink auch ähnliche Dokumente finden und so interessante neue Zusammenhänge herstellen. Dem heimischen DataMining steht so nichts mehr im Wege und bietet sich auch für andere Sammlungen an. Wer etwa sein Quellmaterial für eine wissenschaftliche Arbeit erforschen möchte oder Variationen in einer Rezepte-Sammlung sucht, findet in der DevonThink AI ein mächtiges Werkzeug.

Backup

Jetzt, wo diese ganzen wunderbaren Informationen gesammelt, aufbereitet, bearbeitet, sortiert und abgelegt wurden, wäre es doch ein Jammer sie wieder zu verlieren. Um diesen Verlust zu vermeiden erstelle ich zwei Sicherheitskopien.

Die eine Kopie wird dabei von dem standardmäßig laufenden TimeMachine Backup erstellt. Das passiert einmal pro Stunde und die Daten landen auf einer formschönen TimeCapsule. Damit bin ich für den Fall eines Ausfalls der Festplatte in meinem MacBook oder sonstigen Unbillen erst mal ganz gut abgesichert.

Die andere Kopie wird von Arq erstellt, lokal verschlüsselt und anschliessend über das Internet in der Amazon S3 Cloud, EU-Region, abgelegt. Diese Daten liegen also in einem Rechenzentrum in Dublin und sind dort sicher vor Wohnungsbränden oder Diebstahl der kompletten Einrichtung.

Das ganze ist nicht sonderlich teuer¹⁹, man kann in Arq ein maximales Budget konfigurieren und nachdem der erste Schwung Daten up ist, sind die folgenden Backupläufe alle inkrementell und sichern nur noch die Daten, die sich seit dem letzten Lauf geändert haben. Das Intervall ist hier ebenfalls stündlich.

Von jedem Dokument existieren also drei Kopien: Das Original auf dem MacBook Pro, die lokale Sicherung auf der TimeCapsule und die Offsite Sicherung in Amazon S3. Somit sind die Dokumente nun sicherer aufgehoben, als ihre papiernen Vorgänger.

Sollte eine Katastrophe eintreten die sowohl die Daten in Essen, als auch die in Dublin gefährden, so werde ich vermutlich andere Sorgen als meine Dokumente haben…

Schlussbetrachtung

Die Digitalisierung von analogen Datenbeständen ist definitiv mit einem erheblichen Arbeitsaufwand verbunden. Der Auswahlprozess der Werkzeuge ist aufwendig und der Preis der Werkzeuge nicht sonderlich billig. Aber die erzielte Zeitersparnis bei Suchen in Dokumenten ist fantastisch.

Wann habe ich noch mal dieses MacBook gekauft? Was zahle ich doch gleich für meine Autoversicherung? Wann läuft der Mobilfunkvertrag aus? Wie lautet meine SteuerID noch gleich? Zeige mir alle Dokumente mit dem Tag Steuern aus dem Jahr 2010. Bumm, Zack, Return. Da ist die Antwort.

Und so soll das auch sein.

Platzsparend im Sinne von physikalischem Platz in Schränken und auf Regalen.↩
Und ein erstes Backup existiert…↩
Das gilt geradezu doppelt, wenn einer der beiden Menschen ich zum Aufheben von quasi jedem Zettel neigt und sich den Kram seit 1994 nicht mehr angesehen hat…↩
Ein gutes Stück Arbeit…↩
TimeMachine↩
Amazon S3↩
Also ein Backup erstellt wurde↩
Buchstäblich Jahre↩
etwa, zu bezahlen, bezahlt am, …↩
think: Shared Dropbox folder für Kathi und mich↩
Eher im Sinne von Jahrzehnten als von Jahren↩
Ikea-Kassenzettel anyone?↩
Und diese dann im Volltext durchsuchen oder direkt aus dem PDF Copy & Pasten, aber ich greife vorraus…↩
Auf Wunsch auch mit GPS-Koordinaten…↩
In diesem seltenen Fall wird eine handschriftliche erledigt-Notiz auf dem Papier vermerkt↩
Ja, mit der Maus, in dem gescannten PDF. Bumm, Zack, Return.↩
Die Seite auf der das Script ursprünglich lag ist nicht mehr online und nur noch über archive.org verfügbar. Daher spiegele ich das Script seit Oktober 2016 auch hier…↩
für gewöhnlich reichen bereits zwei oder drei↩
Meine letzte Monatsrechnung betrug 63 US-Cent↩

instant-thinking.de

just enough to get you started and leave you confused

Papierkram - Zettelwirtschaft zu PDF-Management

Comments