Monte-Carlo Simulationen und Data Mining II

In einer unserer letzten Blogs haben wir das Data Mining mittels Simulationen und den Vergleich mit einigen der in R implementierten Klassifizierungsalgorithmen kurz vorgestellt. Hier wollen wir den Sachverhalt anhand der in R verfügbaren Testdaten zur Brustkrebserkennung etwas vertiefen und dabei die benutzerdefinierte Verteilung von MC FLO näher vorstellen. 

 

Als erstes ist die Güte einer Prognose einer binären Klassifikation - hier die Brustkrebserkennung anhand eines Computerscans - zu definieren. Dafür gibt es verschiedene Termini, wobei wir uns aus Vereinfachungsgründen auf die englischen Begriffe beschränken.

Wir unterscheiden zwei Merkmale der Klassifikation: benign - "gutartig" und malignant - "bösartig". Eine Person mit einem gutartigen Gewebebild und dem Testresultat "benign" wird als "true negative" (TN) gezählt. Eine Person mit einem bösartigen Tumor aber mit dem Testresultat "benign" wird als false negative (FN) aufgefasst, und so weiter gemäss der obigen Tabelle*. 

 

Bei der Erkennung ist Zeit Gold wert, aber Tests kosten gegebenenfalls viel Geld. Aus gesundheitlicher und ökonomischer Sicht ist insbesondere der false negative Fall delikat**. Es ist ökonomisch kaum vertretbar Personen mit einem Testresultat "benign" einem erneuten Test zu unterziehen, auch wenn dieser bei den relevanten Personen eventuell die dann richtige Klassifikation "malignant" ausgeben würde. Insbesondere ist dieses Vorgehen dann nicht ratsam, wenn Tests invasive Massnahmen wie Gewebeproben vorhersehen und die meisten Gewebeproben sowieso gutartig sind. Auch aus medizinischer Sicht ist Vorsicht geboten, da Gewebeentnahmen - je nach Art - auch zu Komplikationen führen können. Andererseits ist es erstrebenswert kranke Personen frühzeitig zu identifizieren und gesunde Personen vor weiteren medizinischen Eingriffen zu schützen. Es ist daher immer eine Balanceakt, welcher zwischen der behandelten Person und dem zuständigen Arzt abzustimmen ist. 

 

Auch wenn die Resultat durch den behandelnden Arzt bestimmt werden muss, kann und sollte auf Testverfahren zurückgegriffen werden, welche eine zusätzliche Hilfestellung liefern, wie hier das Resultat aus einem Computerscan. Für Testverfahren sind unterschiedliche Kenngrössen bekannt, wobei insbesondere die Spezifität und die Sensitivität eine tragende Rolle spielen. Im Idealfall sind beide 100%, sprich alle gutartigen und bösartigen Gewebecharakteristiken werden durch einen Computerscan auch als solche erkannt. Die daraus oftmals abgeleitete Kenngrösse - Accuracy - (Genauigkeit, Übereinstimmung) werden wir im Vergleich verwenden.    

 

Ausgangslage ist die in R verfügbare Datenbank zu Brustkrebs (BreastCancer), welche Daten zu 699 Beobachtungen,  eingeteilt in 9 Variablen (wie Zellgrösse, Dicke etc.) enthält. Die Variablenausprägungen sind wiederum in Klassen von 0 bis 10 eingeteilt. Von den 699 Beobachtungen sind 16 Beobachtungen fehlerhaft, diese werden daher aus der Analyse ausgeschlossen. Von den verbleibenden 683 Datensätzen sind 239 Beobachtungen als "malignant" klassifiziert und 444 als "benign". Wir fahren analog hier fort und definieren einen Trainingsdatensatz, welcher 70% der Beobachtungen je Klasse ("benign", "malignant") umfasst. 

 

Für die Monte-Carlo Simulation (besser: Klassifikation) haben wir mit MC FLO jeder Variablen eine Verteilungsfunktion zugeordnet, wobei hier auf einer benutzerdefinierte Verteilung zurückgegriffen wird, welche aus den Daten des Trainingsdatensatzes zusammengesetzt ist. Für die daraus resultierenden Histogramme werden jeweils 11 Anzahl Säulen verwendet. Beispielhalft sind die Ausprägungen zu der Variablen "Cl.thickness" der Klassen "benign" und "malignant" nachfolgend ersichtlich. 

 

Benutzerdefinierte Verteilungen greifen - im Gegensatz zu den analytischen Verteilungen - allein auf vorhandene Daten zurück. Eine Prognose auf Basis der benutzerdefinierten Verteilung erfolgt damit immer unter vollständigem Einschluss der historischen Daten, und nur unter dieser. Sprich: Falls die vorhandenen Daten zwischen 1 und 10 schwanken, dann wird die Simulation dieser Daten nicht zu einem Ergebnis von 11 führen können. Je nach Betrachtungsweise kann die Simulation mit benutzerdefinierten Daten auch als historische Simulation aufgefasst werden. Für unsere Klassifikation ist die benutzerdefinierte Verteilung sachgerecht, da die Variablenausprägung sowieso zwischen 0 und 10 limitiert ist und zukünftige Befunde einen Wert ausserhalb dieser Grenzen ausschliessen.  

 

Der Klassifizierungsalgorithmus geht wie im bereits dargestellten Blog vor: Je näher eine Ausprägung am Median einer Verteilungsfunktion der jeweiligen Klasse liegt, desto eher wird die Variable auch der entsprechenden Klasse zugeordnet. Für "benign" wird eine 1, für "malignant" eine -1 als Zuordnungsmerkmal verwendet. Die finale Zuordnung erfolgt abschliessend über die Summenbildung aller 9 Variablen. 

Anhand der Summenfunktion ist ersichtlich, dass die Klasse "benign" für die jeweiligen 9 Variablen eher tiefe Werte aufweist, währenddem bei "malignant" diese insgesamt sehr hoch und daher der Überdeckungsbereich der Summe tief ist. Dies sollte darauf hindeuten, dass die gewählte Abstufung ein geeignetes Kriterium zu sein scheint. 

 

Bevor auf die Resultate eingegangen wird, sei das Vorgehen in "R" kurz rekapituliert: Wir lesen auch hier die Daten anlog oben ein und entfernen die fehlerhaften Beobachtungen. Da die Daten in R nur als "Factor" Variablen vorliegen, werden diese in numerische Variablen transformiert, um sie dann mit den bekannten Algorithmen "Naive Bayes", "Support Vector machines" (SVN) und "k nearest neighbour" (knn) durchlaufen zu lassen. 

Bezogen auf den Testdatensatz weist die Monte-Carlo Simulation die höchste Genauigkeit ("Accuracy") von 100% auf, sowohl die Sensitivität als auch die Spezifität beträgt ebenfalls 100%. Für den Testdatensatz war die Monte-Carlo Simulation in der Lage alle bösartigen und gutartigen Gewebebilder aus dem Computerscan korrekt einzuordnen, für die anderen Algorithmen - wohlgemerkt ohne weitergehende Optimierungen - liegt die Genauigkeit immerhin noch bei beachtlichen 95%. 

 

Fazit: Auch wenn die Monte-Carlo Simulation ein einfaches Verfahren darstellt, gilt es als "Schweizer Taschenmesser" der Datenanalyse. Es gibt kaum eine Fragestellung, welche durch eine Simulation nicht gelöst werden kann. 

 

*Die Bezeichnungen false-negative, etc. sind nicht immer einfach einzuordnen. Im Regelfall ist eine Person gesund und unterzieht sich nur dann einem Test, wenn eine Krankheit vermutet wird. Der Krankheitsfall wir daher als "positiv" bezeichnet; fällt der Test dann positiv aus ("Patient hat Krankheit"), wird von true-positiv gesprochen. Ist der Patient hingegen gesund und das Testresultat fällt positiv aus, dann ist das Resultat false-positiv ("-> es wird eine falsche positiv Aussage getroffen"). 

 

**Der Fall FP (false-positiv) - der Test schliesst auf einen bösartiger Tumor, die Gewebeveränderungen sind aber gutartig, lassen sich psychologisch einfacher darstellen, wenn der Patient vorher transparent über die "Spezifität" aufgeklärt wird. Zudem wird in solchen Fällen ein zusätzlicher Test - etwa eine Gewebeentnahme - vorgenommen. 

Kommentar schreiben

Kommentare: 0