Mai 20269 minHealthcare InteroperabilityIn ArbeitENDE

ohne api keine intelligenz

das ki-zeitalter ist ein zeitalter der apis. eine künstliche intelligenz ist nur so klug wie die daten, die sie lesen kann, und die zahntechnik läuft auf software aus einer zeit, die diese frage nie gestellt hat. wie man ihre daten lesbar macht, ohne den namen des patienten preiszugeben.

das api-zeitalter

jede epoche hat eine sprache, in der sie mit sich selbst spricht. das industriezeitalter sprach in maschinen und arbeitsstunden, das frühe internet in seiten und klicks. die zeit, in der wir heute stehen, spricht in daten, und sie verlangt, dass diese daten maschinenlesbar sind. eine künstliche intelligenz ist nie klüger als das, was sie an strukturierten schnittstellen vorfindet. gibt man ihr saubere, normalisierte daten über eine api, wird sie zum verstärker für fast alles, was ein betrieb tut; lässt man sie gegen ein gewachsenes, verschlossenes system laufen, bleibt sie ein teures spielzeug. die api ist darum kein technisches detail dieser zeit, sondern ihre grundvoraussetzung.

und genau dort sitzt die spannung. wir nehmen data mining, prozessoptimierung und automatisierung längst für selbstverständlich, eine welt, in der alles schnell gehen soll, sauber, am liebsten, ohne dass ein mensch noch etwas abtippt. ausgerechnet die zahntechnik, eine branche, die diese werkzeuge dringend gebrauchen könnte, läuft auf systemen, die für das genaue gegenteil gebaut wurden: für den menschen an der tastatur, der eine zahl vom einen bildschirm abliest und in den nächsten tippt.

software aus einer anderen zeit

dass die systeme so sind, ist kein vorwurf, sondern geschichte. ihre software stammt aus einer welt, in der niemand sie anders brauchte. als die großen labor- und praxisprogramme entstanden, hieß digitalisierung, dass eine karteikarte in eine datenbank wanderte und am abend eine rechnung aus dem nadeldrucker lief. dafür waren diese systeme gemacht, und dafür funktionieren sie bis heute zuverlässig. dass eines tages eine maschine denselben datenbestand in echtzeit auslesen, mit tausend anderen vergleichen und daraus ganze prozesse optimieren wollen würde, lag so weit außerhalb des denkbaren, dass es in keiner einzigen architekturentscheidung vorkam.

bis heute beherrschen eine handvoll programme den markt, vielleicht fünf auf der laborseite und noch einmal fünf in den praxen, und jedes von ihnen ist eine eigene welt mit eigener datenbank und eigener logik. eines der verbreitetsten laborsysteme verwaltet seine daten in über dreihundert tabellen, zwischen denen es keine festen verknüpfungen gibt, und speichert ein datum als zehn zeichen lange zeichenkette. das war vor zwanzig jahren völlig in ordnung, weil ein mensch davorsaß, der wusste, was gemeint war. einer maschine sagt es nichts.

wie sehr das aus der zeit gefallen ist, erzählen einem die leute, die täglich damit leben. zwei geschäftsführer großer dentallabore haben mir unabhängig voneinander dieselbe geschichte berichtet, und keiner von beiden hielt sie für bemerkenswert: ihre mitarbeiter tippen jeden auftrag zweimal. die praxis ruft an oder schickt ein fax, jemand liest den auftrag vom blatt und überträgt ihn ins laborsystem, dreht sich zum nächsten bildschirm und gibt genau dasselbe ein zweites mal in die zweite software ein. jeden tag, von hand, in zwei datenbanken, die nur ein paar meter auseinanderstehen und trotzdem nichts voneinander wissen. wenn zwei menschen, die verschiedene betriebe führen, einem fast wortgleich dieselbe klage vortragen, ist das keine anekdote mehr, sondern ein muster. zwischen den systemen gibt es keine leitung, also übernimmt ein mensch die rolle der leitung.

was die maschine braucht

damit eine maschine mit diesen daten überhaupt etwas anfangen kann, müssen sie zuerst eine gemeinsame sprache sprechen. das ist die eigentliche, unglamouröse arbeit, und sie hat einen namen: normalisierung. jedes der alten systeme bekommt einen übersetzer, der seine eigenheiten in ein einziges, stabiles modell überführt. ein auftrag bedeutet dann überall dasselbe, ganz gleich, aus welchem programm er ursprünglich stammt, und wer die daten lesen will, sieht nur noch diese eine klare form statt der verschachtelten tabellen dahinter. genau diese schicht baue ich gerade; sie heißt denta.

der größte teil dieser arbeit klingt nach kleinkram und ist trotzdem entscheidend. datumsangaben müssen vereinheitlicht werden, beträge wandern von der kommazahl in ganze cent, damit beim rechnen nichts gerundet wird, und jede kennung bekommt eine eindeutige, kollisionsfreie form. es gibt zwar austauschformate für die branche, etwa eLABZ für den auftrag zwischen praxis und labor, doch sie enden meist bei der auftragsannahme und sagen nichts über das, was danach im labor geschieht. der eigentliche gewinn liegt ohnehin erst dahinter: erst wenn „Müller“, „MÜLLER“ und „müller“ zuverlässig als derselbe eintrag erkannt werden, lässt sich daraus etwas verknüpfen, auswerten oder einer ki vorlegen.

der patient, den die maschine nie sieht

hier kommt ein problem ins spiel, das in der medizin schwerer wiegt als anderswo. die daten eines dentallabors hängen an patienten, und patientendaten sind besonders geschützt. der bruch der ärztlichen schweigepflicht ist in deutschland strafbar, und die datenschutz-grundverordnung behandelt gesundheitsdaten als eigene, besonders sensible kategorie. eine künstliche intelligenz, die solche daten auswerten soll, darf den klarnamen eines patienten also gar nicht erst zu sehen bekommen.

die bequeme antwort, man werde eben vorsichtig sein und gut aufpassen, ist keine. ein system, das namen verarbeitet, kann sie auch verlieren, und ein versprechen hat noch niemanden geschützt. die einzige belastbare lösung ist, dass die schicht die namen erst gar nicht kennt. genau das leistet pseudonymisierung, wenn man sie ernst nimmt, und sie sollte in mehreren stufen arbeiten.

die erste stufe ist verzicht. der übersetzer, der ein altes system anzapft, bekommt eine feste liste verbotener felder, darunter name, adresse, geburtsdatum, versicherungsnummer und bankverbindung, und jede abfrage wird gegen diese liste geprüft, bevor sie überhaupt an die datenbank geht. was dort steht, wird nie gelesen. man kann nichts verraten, das man sich nie angesehen hat.

die zweite stufe verwandelt das, was man als identität wirklich braucht, in ein pseudonym. denn man muss erkennen können, dass drei aufträge zum selben patienten gehören, ohne seinen namen zu kennen. dafür wird aus dem namen ein stabiles kürzel berechnet, für denselben menschen immer dasselbe, aber ohne weg zurück.

die mechanik

technisch ist dieses kürzel ein hash mit schlüssel, keine verschlüsselung, und der unterschied entscheidet alles. eine verschlüsselung lässt sich mit dem passenden schlüssel wieder aufheben; ein hash nicht. man nimmt den normalisierten namen, hängt den feldtyp und einen geheimen, für jedes labor zufälligen wert an und schickt das ganze durch eine bewährte standardfunktion, die daraus eine feste zeichenfolge macht. aus „erika musterfrau“ wird dann etwas wie pat_a4f9b2c1, und aus demselben namen wird morgen und in einem jahr wieder genau diese zeichenfolge.

drei eigenschaften fallen dabei fast nebenbei ab. weil das verfahren immer dasselbe ergebnis liefert, kann man auf dem kürzel ganz normal verknüpfen, ohne je einen namen zu sehen. weil der feldtyp in die berechnung eingeht, ergibt derselbe text als name ein anderes kürzel als derselbe text als ort, sodass sich nichts heimlich über felder hinweg zusammenführen lässt. und weil der geheime wert für jedes labor ein anderer ist, sind die kürzel des einen betriebs im datenraum eines anderen schlicht bedeutungslos, selbst wenn eines davon nach außen dringen sollte.

darüber liegen weitere stufen, für die fälle, die schwerer zu fassen sind. ein name, den ein techniker irgendwo in eine notiz getippt hat, steht in keiner festen spalte und braucht eine erkennung, die ihn im fließtext aufspürt. besonders sensible inhalte lassen sich zusätzlich verschlüsseln, mit schlüsseln, die beim labor bleiben, sodass die plattform selbst nur noch unlesbares zeug sieht. das theoretische maximum wäre, dass die daten das gerät des labors nie verlassen und eine ki nur noch mit beweisen über sie arbeitet, ohne sie je zu berühren; über dieses verfahren habe ich an anderer stelle ausführlich geschrieben. nur trägt es heute eine last an aufwand und umständlichkeit, die eine leitung mit täglich tausenden aufträgen noch nicht stemmen kann. pseudonymisierung ist deshalb nicht das letzte wort, aber sie ist der stärkste schutz, den man heute in ein laufendes labor bekommt.

was dann möglich wird

sind die daten erst lesbar und der patient darin geschützt, verschiebt sich, was möglich ist. der doppelte eintrag verschwindet, weil ein auftrag nur noch einmal entsteht und von selbst dort ankommt, wo er gebraucht wird. die praxis muss nicht mehr anrufen, um den stand einer arbeit zu erfahren, sondern sieht in echtzeit, ob die krone noch im brennofen liegt oder schon auf dem versandweg ist. und auf der ebene darüber wird endlich das möglich, worum es in dieser ganzen epoche geht: ein labor kann seine durchlaufzeiten messen und gegen den markt halten, kann sehen, an welchem arbeitsschritt aufträge liegen bleiben, kann nacharbeit und materialverbrauch auswerten, ohne dass jemand abends zahlen von hand zusammensucht. die maschine übernimmt genau das, wofür menschen heute noch ihre abende hergeben.

die grenzen

so weit die richtung; ehrlich bleibt sie nur, wenn man auch sagt, wo sie aufhört. ein pseudonym ist kein zaubertrick, der daten anonym macht. solange irgendwo die zuordnung existiert, bleiben die daten im rechtlichen sinn personenbezogen und im prinzip wieder auflösbar, und studien zeigen, dass sich ein mensch schon aus einer handvoll merkmale zurückverfolgen lässt. das kürzel schützt den namen, es macht den datensatz nicht anonym, und wer das verwechselt, baut genau die trügerische sicherheit, an der schon andere branchen gescheitert sind.

ebenso ehrlich ist, dass die alten systeme darunter weiter klarnamen enthalten. die schicht liest sie nicht, aber sie löscht sie auch nicht, und die verantwortung dafür bleibt beim labor. und der freitext, dieses feld, in das menschen alles mögliche schreiben, bleibt die verwundbarste stelle, weil keine automatische erkennung je hundertprozentig trifft. das alles spricht nicht gegen den weg. es spricht nur dagegen, ihn schöner zu reden, als er ist.

worum es geht

am ende ist das keine geschichte über kryptografie und nicht einmal eine über zahntechnik im besonderen. es ist die geschichte einer branche, deren werkzeuge in einer anderen zeit stehengeblieben sind, während die welt um sie herum gelernt hat, in echtzeit und in maschinen zu denken. die künstliche intelligenz wartet nicht, bis alte software nachzieht. sie belohnt jeden, der seine daten lesbar macht, und geht an allen anderen vorbei.

der erste schritt ist immer derselbe. man gibt den daten eine gemeinsame sprache, man nimmt den namen des patienten heraus, bevor irgendetwas ihn zu sehen bekommt, und man baut diese garantie in die architektur ein, statt sie in eine datenschutzerklärung zu schreiben. dann, und erst dann, kann die maschine lesen.

quellen

VDDS / KZBV. (2023). eLABZ: Elektronischer Datenträgeraustausch Zahntechnik, V4.5.
European Parliament. (2016). Datenschutz-Grundverordnung (DSGVO), Art. 4(5) und Art. 9.
Strafgesetzbuch (StGB), § 203: Verletzung von Privatgeheimnissen.
Krawczyk, H., Bellare, M., Canetti, R. (1997). HMAC: Keyed-Hashing for Message Authentication. RFC 2104.
Chen, L. (2009). Recommendation for Key Derivation Using Pseudorandom Functions. NIST SP 800-108.
Rocher, L., Hendrickx, J.M., de Montjoye, Y.-A. (2019). Estimating the success of re-identifications in incomplete datasets using generative models. Nature Communications, 10, 3069.
Microsoft. (2024). Presidio: Data Protection and De-identification SDK.

zuletzt aktualisiert: Jun 2026