Frage zu Übung 6 Aufgabe 3e (Steigung im ROC-Space)

Maschpat
Erstie
Erstie
Beiträge: 12
Registriert: 24. Mär 2016 13:52

Frage zu Übung 6 Aufgabe 3e (Steigung im ROC-Space)

Beitrag von Maschpat » 10. Feb 2017 11:06

Hallo zusammen

Bin ziemlich verwirrt und hoffe hier kann mit jmd. helfen. :)

In der Aufgabe 3e wird vorgegeben, dass ein False Positive (FP) 2 cent und ein False Negative (FN) 5 cent kostet. Um zu wissen wo im ROC-Space der Bereich für die günstigsten Kosten abgelesen werden soll, benötigt man die Steigung. Diese wird in der Lösung über FP/FN = 2/5 berechnet.

Und hier ist doch der Haken!? Die Steigung berechnet sich über den Tangens. Also Tangens(Winkel) = Gegenkathete/Ankathete. Der Raum wird von der Y-Achse = TP und der X-Achse = FP aufgespannt. Also müsste die Steigung doch über TP/FP berechnet werden.

Hoffentlich ihr könnt mir helfen Steh hier mächtig auf dem Schlauch. :)

VG

Tesla.
Neuling
Neuling
Beiträge: 4
Registriert: 10. Feb 2017 13:11

Re: Frage zu Übung 6 Aufgabe 3e (Steigung im ROC-Space)

Beitrag von Tesla. » 10. Feb 2017 13:43

Hi,

die Iso-Kostenlinien werden definiert als:

tpr = c_minus/c_plus * fpr + (c/c_plus -1)

Man erkennt, dass die Steigung per Definition c_minus/c_plus, also false positive/false negative, ist.

Mich hat das zunächst auch verwirrt, das kommt aber aus dem Ansatz für die Gesamtkosten, den man dann umformt um auf die oben genannte Gleichung zu kommen.

Hoffe das hilft weiter.

Maschpat
Erstie
Erstie
Beiträge: 12
Registriert: 24. Mär 2016 13:52

Re: Frage zu Übung 6 Aufgabe 3e (Steigung im ROC-Space)

Beitrag von Maschpat » 10. Feb 2017 15:17

Hi

danke für die hilfe :!:
Das was du geschrieben hast wird sicherlich stimmen. :o

Ich suche aber noch nach der Verbindung zwischen der Berechnung der Steigung wie die Lösung es in der Aufgabe 3c vorschlägt und der Berechnung über die Kosten. wie in e)

in c) lautet die Berechnung
= deltaTP/deltaFP

in e) wie bereits erwähnt
= FP/FN , oder genauer, = KostenFP/KostenFN

mathematisch erschließt sich mir nur die Lösungsmethode des Aufgabenteils c)
Aber vllt sollte ich einfach die Formel die du gepostet hast auswendig lernen anstatt zu tiefgehende Fragen zu stellen. Für Tiefe bleibt im Studium ja kaum Zeit. :mrgreen:

MERCI

Linh
Erstie
Erstie
Beiträge: 17
Registriert: 13. Dez 2010 16:12

Re: Frage zu Übung 6 Aufgabe 3e (Steigung im ROC-Space)

Beitrag von Linh » 11. Feb 2017 14:29

Also wie man auf die Gleichung kommt:

Man beginnt mit der Kostengleichung von Folie 20 vom Foliensatz "Evaluation and Cost-Sensitive Learning". Diese ist:

\(L = tpr \cdot C (+|+) + fpr \cdot C (+|-) + fnr \cdot C (-|+) + tnr \cdot C (-|-)\)

wobei C(+|-) die Kosten beschreibt, dass man eine Instanz positiv klassifiziert, obwohl sie in Wirklichkeit negativ ist usw. und L die Kosten beschreibt.

Hat man nun keine Kosten für richtiges Klassifizieren ergibt sich:

\(L = fpr \cdot C (+|-) + fnr \cdot C (-|+)\)

Es gilt nun \(fnr = (1-tpr)\). Ergo:

\(L = fpr \cdot C (+|-) + (1-tpr) \cdot C (-|+)\)

Nun kann man diese Gleichung umformen so dass wir auf die Steigung kommen, siehe Folie 29. Dabei ist c=L und \(c_{-} = C(+|-), c_{+} = C(-|+)\)

\(L = fpr \cdot C (+|-) + (1-tpr) \cdot C (-|+)\)
\(L - (1-tpr) \cdot C (-|+) = fpr \cdot C (+|-)\)
\(- (1-tpr) = \frac{fpr \cdot C (+|-)}{C (-|+)} - \frac{L}{C (-|+)}\)
\(tpr = \frac{fpr \cdot C (+|-)}{C (-|+)} - \frac{L}{C (-|+)} + 1\)
\(tpr = \frac{fpr \cdot C (+|-)}{C (-|+)} + \left( \frac{L}{C (-|+)} - 1 \right)\)
\(tpr = \frac{fpr \cdot c_{-}}{c_{+}} + \left( \frac{c}{c_{+}} - 1 \right)\)

mrepic
Neuling
Neuling
Beiträge: 3
Registriert: 2. Jun 2014 19:54

Re: Frage zu Übung 6 Aufgabe 3e (Steigung im ROC-Space)

Beitrag von mrepic » 11. Feb 2017 21:10

Hallo zusammen,

ich habe auch eine Frage bzgl. der Thematik von Übung 6. Die Lösung der Übung 6 habe ich prinzipiell verstanden.

Allerdings frage ich mich nun nach Betrachtung der musterlösung von Übung 6, ob im Foliensatz "Evaluation and Cost sensitive learning" Folien#27 korrekt ist. Dort ist die Steigung von accuracy im ROC Raum als 2 angegeben. Müssste diese nicht 1 betragen, da P=N gilt (1* N/P = 1)?

In der Lösung von Übung 6 ist ja auch angegeben, dass sich die Steigung von accuracy von 1 im coverage Space zu 1/2 im ROC Space ändert, mit P=200, N=100 (1 * N/P = 1/2).

Der Foliensatz verwirrt mich daher etwas. Kann mich jemand aufklären? :)

Linh
Erstie
Erstie
Beiträge: 17
Registriert: 13. Dez 2010 16:12

Re: Frage zu Übung 6 Aufgabe 3e (Steigung im ROC-Space)

Beitrag von Linh » 12. Feb 2017 15:10

Hi,

die Folie 27 ist in Kombination mit Folie 25 und 26 zu verstehen.

In Folie 25 sieht man einen Coverage Space in dem man gleich viele positive wie auch negative Beispiele hat. In diesem Raum hat die Accuracy eine Steigung von 1, da P=N. Nun möchte man aber die Kosten verändern, so dass ein false positive doppelt so schlecht wie ein false negative ist. D.h. \(C(+|-) = 2 \cdot C(-|+)\) Eine Möglichkeit diese Kosten zu modelieren ist in dem man die Klassenverteilung verändert (siehe Folie 24). In dem Fall werden diese Kosten erreicht in dem man doppelt so viele negative Beispiele hat wie positive und es ergibt sich der Coverage Space von Folie 26. In dem hat die Accuracy immer noch eine Steigung von 1.
In Folie 27 wird Folie 26 wieder zurück gemappt auf den ROC Space. D.h. in dem Fall hat man immer doppelte so viele negative Beispiele wie positive. D.h. 2P = N. Ergo hat man damit eine Steigung von 2 im ROC Space.

Alternativ kann man natürlich auch die Kostengleichung nehmen mit tpr und fpr. Dort ergibt sich \(\frac{C(+|-)}{C(-|+)}=\frac{c_{-}}{c_{+}}=2\). Setzt man dies in die Gleichung ein ergibt sich auch eine Steigung von 2 im ROC Space.

Klljen
Neuling
Neuling
Beiträge: 4
Registriert: 9. Apr 2016 18:58

Re: Frage zu Übung 6 Aufgabe 3e (Steigung im ROC-Space)

Beitrag von Klljen » 12. Feb 2017 16:50

Hi zusammen,

ich bin bei der Aufgabe auch etwas verwirrt, vor allem bei der b). In Folie 29 steht, dass die Cost Isos im ROC-Space die Steigung \(r= \frac{c_-}{c_+}\) haben. Das vorgehen bei der b) wäre dann, die Steigungen zwischen den einzelnen Threshold-Punkten auf der konvexen Hülle zu bestimmen, da diese Steigungen dann die jeweiligen Kosten darstellen, für die der Classifier optimal ist.
Mein Problem ist, dass in der MuLö das ganze im Coverage Space gerechnet wird. Wenn ich das im ROC-Space rechne, erhalte ich die optimalen Kosten der Lösung halbiert. In der MuLö wird das auch erwähnt, aber ich verstehe die Erklärung nicht. Wir wollen doch die Kosten optimieren, und die Steigung der Isos im ROC-Space sind doch die Kosten und nicht die im Coverage Space, oder verstehe ich das falsch?

Würde mich freuen wenn mir jemand weiterhelfen könnte!

Maschpat
Erstie
Erstie
Beiträge: 12
Registriert: 24. Mär 2016 13:52

Re: Frage zu Übung 6 Aufgabe 3e (Steigung im ROC-Space)

Beitrag von Maschpat » 12. Feb 2017 18:31

Klljen hat geschrieben:Wenn ich das im ROC-Space rechne, erhalte ich die optimalen Kosten der Lösung halbiert
Ich les hier eigentlich nur raus, dass du dass mit der Normalisierung noch nicht ganz durchdrungen hast. Der ROC-Space ist nicht anderes als die Normalisierung des Coverage Space. Damit die x-Achse und die y-Achse dieselbe Länge haben, werden sie durch ihre Maximallängen geteilt. Also Y / durch P und X durch N. Dadurch werden auch die Steigungen gestaucht bzw. halbiert. Und wenn du die Steigung halbierst, halbierst du auch das Kostenverhältnis.
Klljen hat geschrieben:und die Steigung der Isos im ROC-Space sind doch die Kosten und nicht die im Coverage Space, oder verstehe ich das falsch?
Die ISOS im Coverage-Space sind die accuracys und die entsprechen den kosten-ISOS im ROC-Space. nur das der ROC-Space dem normalisierten Coverage-Space entspricht.

Hoffe das hilft etwas! Aber mit Abstand das unangenehmste Thema in diesem Modul"! :evil:

@ Linh Danke für die ausführliche Erklärung! :)

Klljen
Neuling
Neuling
Beiträge: 4
Registriert: 9. Apr 2016 18:58

Re: Frage zu Übung 6 Aufgabe 3e (Steigung im ROC-Space)

Beitrag von Klljen » 12. Feb 2017 19:43

Danke für deine Antwort Maschpat! Klar macht es Sinn, dass ich bei der Berechnung im normalisierten ROC-Space dann nur die halbierten Werte der Berechnung im Coverage-Space bekomme.
Und wenn du die Steigung halbierst, halbierst du auch das Kostenverhältnis.
Ah okay, das hatte ich nicht bedacht. Aber:
Die ISOS im Coverage-Space sind die accuracys und die entsprechen den kosten-ISOS im ROC-Space. nur das der ROC-Space dem normalisierten Coverage-Space entspricht.
Dann interessieren wir uns doch nur für den ROC-Space weil wir uns ja für die Kosten interessieren, die nach meinem Verständnis nicht die Isos im Coverage Space sind? Ich verstehe deshalb immer noch nicht, wieso wir dann die Steigungen im Coverage Space ausrechnen. Müssten wir diese nicht im (normalisierten) ROC-Space ausrechnen?

Edit: Ich meinte natürlich Aufgabe c) nicht b)

Maschpat
Erstie
Erstie
Beiträge: 12
Registriert: 24. Mär 2016 13:52

Re: Frage zu Übung 6 Aufgabe 3e (Steigung im ROC-Space)

Beitrag von Maschpat » 13. Feb 2017 21:01

Klljen hat geschrieben:Dann interessieren wir uns doch nur für den ROC-Space weil wir uns ja für die Kosten interessieren, die nach meinem Verständnis nicht die Isos im Coverage Space sind?
Warum denkst du das das nicht so ist? Das ultimative Gegenargument steht auf der Folie 28 Evalution and Cost Sensitive Learning:
cost isometrics in the ROC space are accuracy isometrics in the corresponding coverage space
Natürlich ist das nicht die ganze Wahrheit. Denn wenn ich an dem Threshold t=0.3 die Steigung berechne, erhalte ich für den Coverage Space:
(200-190)/(100-80) = 1/2
und für den ROC-Space
(1-0,95)/(1-0,8) = 1/4

Die Steigungen sind also offensichtlich unterschiedlich. Dies liegt aber an der bereits angesprochenen Streckung.

Die eigentliche Frage lautet doch nun (und hier kommen wir zurück zu Aufgabenteil e): In welchem Raum rechne ich, wenn ich was gegeben habe? Im Aufgabenteil c) sind beide Lösungswege legitim. Im Aufgabenteil e) wird mit 2/5 anscheinend die Steigung im Coverage-Space berechnet. Also müssen wir - sofern das richtig ist - das Ergebnis auch mit der Steigung im Coverage-Space vergleichen.

Die Frage bleibt offen warum die Formel KostenFP/KostenFN der Steigung im Coverage-Space entsprechen soll.
(... ) kann man direkt ablesen, dass der Threshold 0.0 optimal ist, da 2/5 < 1/2 ist.
Ich hätte den Threshold bei t = 0.3 abgelesen, da 2/5>1/4
Also ich denke da sind wir einer Meinung!?


(Edit: Musste letzten Satz streichen, da ich mich verrechnet habe.)

Antworten

Zurück zu „Archiv“