Fiktion oder
bald Realität?
 

Pathologe und KI: Die Idealbesetzung in der PCa-Diagnostik?

 

FÜR SIE GELESEN!

 

Ist ein KI-System in der Lage, mit klinisch akzeptabler Genauigkeit ein PCa zu erkennen, die Tumorlänge in Biopsie und den ISUP-Grad zu bestimmen? Dieser Frage ging eine Arbeitsgruppe um Peter Ström (Stockholm, Schweden) im Rahmen einer prospektiven populationsbasierten Diagnostikstudie nach, indem sie ein KI-System erstmalig auf diese Aufgaben trainierte.

 

Summary

 

Den Gleason-Score einer Prostata-Biopsie-Probe zu bestimmen, könnte schon bald zur Herausforderung werden. Der Grund: Der demografische Wandel fordert zunehmend mehr Biopsien. Hinzu kommt ein weltweiter Mangel an urologischen Pathologen. Außerdem kann die hohe Intra- und Inter-Observer-Variabilität beim Tumor-Grading zu einer Über- und Unterdiagnose des Prostatakarzinoms (PCa) führen.

 

Die Lösung könnte eine künstliche Intelligenz (KI) auf Basis eines tiefen neuronalen Netzwerkes sein – ein KI-System, das komplexe Lernvorgänge mit Trainingsdaten selbstständig bewältigen kann. Eine Arbeitsgruppe um Peter Ström (Stockholm, Schweden) verfolgte jetzt erstmalig das Ziel, ein solches KI-System zu entwickeln, das mit klinisch akzeptabler Genauigkeit ein PCa erkennt, die Tumorlänge misst sowie den Gleason-Grad gemäß Definition der International Society of Urological Pathology (ISUP) bestimmen kann.

 

Das Team digitalisierte 6.682 Objektträger mit Proben von Nadelkernbiopsien von 976 zufällig ausgewählten Teilnehmern im Alter von 50 bis 69 Jahren aus der schwedischen prospektiven und bevölkerungsbezogenen STHLM3-Diagnostikstudie, die zwischen dem 28. Mai 2012 und dem 30. Dezember 2014 (ISRCTN84445406) durchgeführt wurde, sowie weitere 271 Objektträger von 93 Männern außerhalb der Studie. Mit diesen digitalisierten Objektträgern (Trainingsdatensatz) wurden eine KI auf Basis eines tiefen neuronalen Netzwerkes darauf trainiert, die Prostata-Biopsien zu beurteilen.

 

Das KI-System wurde anhand seiner Fähigkeit bewertet, das Vorliegen eines PCa, die Tumorlänge und den ISUP-Grad vorherzusagen – der hierzu verwendete unabhängige Testdatensatz umfasste 1.631 digitalisierte Biopsie-Proben von 246 Männern aus der STHLM3-Studie. Hinzu kam ein aus 330 Proben von 73 Männern bestehenden externer Validierungsdatensatz. Zudem evaluierte das Team die Grading-Fähigkeiten der KI anhand eines zusätzlichen Testdatensatzes mit 87 Biopsie-Proben aus einer pathologischen Bilddatenbank (Imagebase-Datensatz), die unabhängig von 23 erfahrenen urologischen Pathologen der International Society of Urological Pathology hinsichtlich des ISUP-Grades klassifiziert wurden.

 

Die Ergebnisse zeigen: Das KI-System ist in der Lage die von ihm geforderten Aufgaben durchzuführen. Die Area under the curve (AUC, deutsch: Fläche unter der Kurve) bildet die Fähigkeit des KI-Systems ab, maligne von benignen Biopsie-Proben zu unterscheiden. Das KI-System erreichte eine AUC von 0,997 (95%-KI 0,994-0,999) zur Unterscheidung zwischen benignen (n=910) und malignen (n=721) Biopsie-Proben beim unabhängigen Testdatensatz und 0,986 (0,972-0,996) beim externen Validierungsdatensatz (benigne: n=108, maligne: n=222). Die Korrelation zwischen der von der KI vorhergesagten und vom berichtenden Pathologen bestimmten Tumorlänge betrug 0,96 (95%-KI 0,95-0,97) für den unabhängigen Testdatensatz und 0,87 (0,84-0-90) für den externen Validierungsdatensatz. Bezüglich der Interrater-Reliabilität (Beurteiler-Übereinstimmung) erreichte die KI bei der Klassifikation des ISUP-Grades einen mittleren paarweisen Kappa-Wert von 0,62, welcher innerhalb des Bereichs der entsprechenden Werte der Pathologen lag (0,60-0,73).

 

Die vorliegende Arbeit zeigt, dass ein KI-System darauf trainiert werden kann, das Vorliegen eines PCa anhand von Prostata-Nadelbiopsie-Proben zu erkennen, die Tumorlänge und den ISUP-Grad zu bestimmen. Die Fähigkeit des KI-Systems ist dabei vergleichbar mit der Klassifizierungs-Leistung internationaler Experten aus dem Bereich der Prostata-Pathologie. Würde die KI im klinischen Kontext eingesetzt, könnte sie die Arbeitsbelastung in der Pathologie verringern, indem sie dafür sorgt, dass weniger gutartige Biopsien vom menschlichen Pathologen beurteilt werden müssen. Außerdem könnte die KI die Bestimmung der Tumorlänge in positiven Biopsie-Proben automatisieren. Ein KI-System, das Biopsie-Proben auf einem mit Experten vergleichbaren Niveau klassifiziert, wäre in der Lage, eine Zweitmeinung anzubieten. Ferner könnte die KI dabei helfen, das Grading der Biopsie-Proben zu standardisieren sowie in Teilen der Welt, in denen ein Mangel an Pathologen herrscht, fachliche Expertise anbieten.

 

Details

Hintergrund

 

Im Zusammenhang mit der Standardbiopsie der Prostata, bei der 10-12 Gewebeproben pro Patienten anfallen, müssen in den USA mehr als 10 Millionen Gewebeproben von Pathologen untersucht werden. Da die Bevölkerung immer älter wird, ist davon auszugehen, dass die PCa-Inzidenz und damit die Anzahl der Biopsien weiter zunehmen wird. Eine weitere Herausforderung ist der weltweite Mangel an Pathogen: Während in den westlichen Ländern eine Pensionierungswelle zu erwarten ist, weisen andere Länder wie Afrika oder China viel zu wenig Pathologen auf.

 

Der Gleason-Score ist ein wesentlicher Baustein bei der Beurteilung eines PCa: ein starker prognostischer Faktor für das Überleben, der einen wesentlichen Beitrag zur Therapieentscheidung leistet. Allgemein anerkannt ist, dass die Beurteilung des auf einer morphologischen Untersuchung basierenden Gleason-Scores subjektiv ist – ein Aspekt, der sich in einer hohen Intra- und Inter-Observer-Variabilität beim Tumor-Grading und somit in einer Unter- und Überdiagnose von Prostatakarzinomen widerspiegeln kann.

 

Die Lösung könnte eine auf die Histopathologie des PCa spezialisierte KI auf Basis eines tiefen neuronalen Netzwerkes sein. So ein selbstlernendes KI-System, das in der Lage wäre, gutartige Biopsie-Proben mit hoher Genauigkeit erkennen, könnte die Arbeitsbelastung der Pathologen verringern. Gleichzeitig würde das KI-System den Pathologen dabei unterstützen, sich auf schwierige Fälle zu konzentrieren. Weitere Vorteile wären, dass eine KI den Pathologen bei der Identifizierung, Messung der Tumorlänge und der Bestimmung der Graduierung bei denjenigen Proben unterstützen würde, die im anfänglichen Screening-Prozess nicht ausgeschlossen wurden und auf diese Weise den Pathologen gegen eine falsche Klassifizierung von Gewebeproben absichern. Das ist noch nicht alles: KI-assistierte Pathologie könnte die Inter-Observer-Variabilität beim Grading verringern, was sowohl mit konsistenteren und zuverlässigeren Diagnosen als auch mit besseren Behandlungsentscheidungen einhergehen würde.

 

Mit Hilfe von hochauflösenden Scans können Gewebeproben zu Objektträgerbildern digitalisiert und als Input für das Training von tiefen neuronalen Netzwerken verwendet werden – eine KI-Technik, die bei vielen Klassifizierungsproblemen in verschiedenen Bereichen, einschließlich der medizinischen Bildgebung, eine state-of-art Genauigkeit erreicht hat. Zur diagnostischen Histopathologie der Prostata gibt es bisher wenig Forschung. Versuche, Prostatabiopsie-Proben mit tiefen neuronalen Netzwerken zu klassifizieren, wurden auf kleine Datensätze oder Untergruppen von Gleason-Mustern beschränkt. Zudem fehlt eine Untersuchung darüber, wie sich die Einführung einer KI-unterstützten Prostatapathologie medizinisch auswirken würde.

Das Ziel einer Arbeitsgruppe um Peter Ström (Stockholm, Schweden) war es, ein KI-System mit klinisch akzeptabler Genauigkeit zu entwickeln, das ein PCa identifizieren und die Tumorlänge messen sowie in der Lage ist, den ISUP-Grad zu bestimmen. Das KI-System wurde auf Grundlage eines populationsbasierten und im Rahmen einer klinischen Studie prospektiv erhobenen Datensatzes entwickelt und evaluiert.

 

Methodik

Trainingsdatensatz und unabhängiger Testdatensatz

 

Zwischen dem 28. Mai 2012 und dem 30. Dezember 2014 evaluierte die prospektive, bevölkerungsbezogene STHLM3-Studie (ISRCTN84445406) ein diagnostisches Modell für Prostatakrebs bei Männern im Alter von 50 bis 69 Jahren mit Wohnsitz in Stockholm, Schweden. Von den 59.159 Teilnehmern der STHLM3-Studie wurde bei 7.406 (12,5%) eine transrektale ultraschallgesteuerte systematische Prostatabiopsie mit jeweils 10-12 Proben durchgeführt, vorausgesetzt die Konzentration des prostataspezifischen Antigens (PSA) lag bei ≥3ng/ml bzw. der Test-Score nach dem Stockholm-3-Verfahren betrug ≥10%. Von den biopsierten Patienten schloss die Arbeitsgruppe 1.297 zufällig ausgewählte Patienten mit 8.571 Proben in die Studie ein, stratifiziert nach dem ISUP-Score. Die Objektträger der Proben wurden digitalisiert.

 

1043 Patienten (6940 Proben) wurden dem Trainingsdatensatz zugewiesen, das dem Training der KI diente. Nach Ausschluss der Fälle mit nicht übereinstimmenden Anmerkungen und derjenigen mit technischen Problemen verblieben 6.682 Objektträger von 976 Patienten aus der STHLM3-Studie zum Training des KI-Systems. Da Fälle mit einem hohen ISUP-Grad überrepräsentiert waren, kamen 271 Biopsie-Proben von 93 PCa-Patienten mit ISUP 4 und 5 außerhalb der STHLM3-Studie zum Trainingssatz hinzu, um die Fälle mit hohem ISUP-Grad anzureichern. Die Daten sind repräsentativ für ein Screening auf Einladung und umfassen verschiedene diagnostisch herausfordernde PCa-Varianten, mit denen Pathologen in der klinischen Praxis konfrontiert werden.

 

Um die Fähigkeit der KI zu bewerten, das Vorliegen eines PCa, die Tumorlänge und den ISUP-Grad von malignen Gewebeproben vorherzusagen, wurden 1.631 Biopsien von 246 Männern aus der STHLM3-Studie in den unabhängigen Testdatensatz eingeschlossen.

 

Externer Validierungsdatensatz

 

Da sich die Datenträger von unterschiedlichen Pathologie-Laboren hinsichtlich des Erscheinungsbildes und der Qualität aufgrund von Unterschieden in der Präparation der Objektträger unterscheiden (d.h. Bilder von Objektträgern aus verschiedenen Pathologie-Laboren und Scanner im Vergleich zu den Trainings-Bildern der KI), wurde zudem ein externer Validierungsdatensatz mit 330 Biopsien von 73 Männern des Karolinska University Hospitals erhoben.

 

Imagebase-Datensatz

 

Um die Grading-Leistung der KI zu bewerten, wurde dieser Datensatz von 87 Biopsien aus einer pathologischen Bilddatenbank (Imagebase), die von 23 erfahrenen urologischen Pathologen der International Society of Urological Pathology eine unabhängige ISUP-Klassifizierung erhielten, erhoben.

 

Ergebnisse

 

Die Ergebnisse zeigen, dass ein KI-System darauf trainiert werden kann, die geforderten Aufgaben in der Prostata-Pathologie zu erfüllen: Die AUC (area under the curve) bildet die Fähigkeit des KI-Systems ab, maligne von benignen Biopsie-Proben zu unterscheiden. So betrug die AUC 0,997 (95%-KI 0,994-0,999) für den unabhängigen Testdatensatz (gutartig = 910, bösartig = 721) und 0,986 (0,972-0,996) für den externen Validierungsdatensatz (gutartig = 108, bösartig = 222). Nachdem die Fälle mit ISUP-Grad 3-5 entfernt wurden, war die AUC 0,996 (0,992-0,999) für den unabhängigen Testdatensatz und 0,980 (0,959-0,995) für externen Validierungsdatensatz.

 

Die Korrelation zwischen der von der KI vorhergesagten und vom berichtenden Pathologen zugewiesenen Tumorlänge betrug 0,96 (95%-KI 0,95-0,97) für den unabhängigen Testdatensatz und 0,87 (0,84-0,90) für den externen Validierungsdatensatz.

 

Zur Schätzung der Beurteiler-Übereinstimmung zwischen dem Grading der KI und dem Grading der 23 urologischen Pathologen (Interrater-Reliabilität), wurde Cohens-Kappa (statistisches Maß für den Grad der Übereinstimmung zweier Beurteiler) bestimmt. Die KI erreichte bei der ISUP-Graduierung der 87 Imagebase-Proben (Imagebase-Datensatz) einen mittleren paarweisen Kappa-Wert von 0,62. Die entsprechenden Werte der Pathologen lagen zwischen 0,60 und 0,73. Der Studienpathologe (LE) wies einen Kappa-Wert von 0,73 auf. Wurden die ISUP-Grade enger gruppiert (ISUP 1, 2-3 und 4-5), was oft die Grundlage für die Auswahl der Primärbehandlung bildet, erzielte die KI höhere Werte im Vergleich zur Beurteilung aller ISUP-Grade ohne Gruppierung.

Darüber hinaus erreichte die KI im Vergleich zum Bericht des Pathologen im unabhängigen Testdatensatz mit 1.631 Proben ein Kappa von 0,83. Im externen Validierungsdatensatz lag das Kappa bei 0,70.

 

Bewertung der Ergebnisse

 

Zu den Stärken der Studie zählte laut Studienautoren die Verwendung von gut kontrollierten Daten, die im Rahmen der STHLM3-Studie erhoben wurden. Dazu gehören standardisierte Biopsieverfahren, zentralisierte Pathologieberichte und die Verblindung klinischer Merkmale, wie der PSA-Wert für Urologe und Pathologe. Die prospektiv erhobenen, bevölkerungsbezogenen Daten decken eine große Zufallsstichprobe von Männern ab. Prostatakarzinome, die in der STHLM3-Studie diagnostiziert wurden, sind repräsentativ für ein Screening auf Einladung. So umfassen die Daten nicht nur PCa-Varianten, die schwer zu diagnostizieren sind (pseudohyperplastisches und atrophisches Karzinom) sondern auch weitere herausfordernde Situationen wie beispielsweise Objektträger, die eine Immunhistochemie erforderten oder mangelhafte Färbung. Trotz dieser herausfordernden Fälle erreichte das KI-System eine hervorragende diagnostische Übereinstimmung mit dem Studienpathologen. Sie bestätigte zudem, dass die vielen Fälle mit einem hohen ISUP-Grad in den Datensätzen nicht dazu führten, die Leistung der KI optimistisch einzuschätzen. Die Studie unterlag einem strengen Protokoll, in dem die Aufteilung der Fälle in Trainings- und Testdatensätze auf Patientenebene durchgeführt und alle Analysen vor der Auswertung des unabhängigen Testdatensatzes vorgegeben wurden, einschließlich des Codes zur Erstellung von Tabellen, Abbildungen und Ergebnisstatistiken. Als weitere Stärke gaben die Autoren an, dass sie Imagebase verwendeten, einen speziellen medizinischen Datensatz, um die Leistung der KI im Vergleich zu sehr erfahrenen urologischen Pathologen zu testen.

 

Zu den Einschränkungen der Studie zählt die Schwierigkeit, ein so subjektives Maß wie den ISUP-Grad als Grundwahrheit (ground truth), d. h. die korrekte Zuordnung von Gewebeproben zum entsprechenden ISUP-Grad, für KI-Modelle zu verwenden. Diesem Problem näherte sich die Arbeitsgruppe an, indem sie den von der KI vergebenen ISUP-Grad im Vergleich zu einem Gremium erfahrener Pathologen evaluierte.

 

Laut Studienautoren kann der Einsatz eines KI-Systems, wie in der vorliegenden Studie vorgestellt, die Sensitivität erhöhen und die Patientensicherheit fördern. Der Grund dafür ist, dass die Aufmerksamkeit des Pathologen auf die „region of interest“ gelenkt, die Arbeitsbelastung durch automatisches Aussortieren gutartiger Biopsien verringert, und die hohe Intra-Observer-Variabilität bei der Berichterstattung über die Histopathologie der Prostata reduziert wird, indem reproduzierbare Entscheidungshilfen für das Grading erstellt werden. Dass sie in Regionen, in denen entsprechende Kapazitäten fehlen, diagnostisches Fachwissen anbieten können, ist ein weiterer Vorteil von KI-Systemen.

 

Fazit

 

In der vorliegenden Arbeit war ein auf neuronalen Netzwerken basierendes KI-System in der Lage, ausgesprochen zuverlässig zwischen gutartigen und malignen Biopsie-Proben zu unterscheiden und die zeitraubende Bestimmung der Tumorausdehnung mit hoher Präzision zu automatisieren. Wie ferner nachgewiesen wurde, klassifizierte das KI-System Prostata-Biopsien im Leistungsbereich von sehr erfahrenen urologischen Pathologen.

REFERENZEN