add functionality

2025-08-18 13:22:25 +02:00 · 2025-08-18 13:22:25 +02:00 · 1455466044
commit 1455466044
parent 804d11d3cc
4 changed files with 874 additions and 23 deletions
--- a/analysis.ipynb
+++ b/analysis.ipynb
--- a/durationEstimate.ipynb
+++ b/durationEstimate.ipynb
--- a/main.py
+++ b/main.py
@ -0,0 +1,145 @@
 import pandas as pd
 from client import askGPT
 systempromptWindow = """Du bist ein Assistent zur Kostenschätzung von Reinigungsaufträgen. 
              Antworte nur im gewünschten JSON-Schema.
              Preisliste (EUR):
                - normale_fenster: 15
                - balkon_terrassentuer: 15
                - altbau_doppelfenster: 25 (teurer, da üblicherweise unterteilt in 4 Scheiben)
                - aussenjalousien: 15
                - schaufenster_pro_m2: 3.6
                Aufgaben:
                1. Prüfe genau, ob die Beschreibung vollständig und klar ist:
                   - Sind alle Leistungen eindeutig und verständlich beschrieben?
                   - Sind Mengen klar spezifiziert? Falls nur Scheiben angegeben sind: Berechne daraus unbedingt, wie viele komplette Fenster gemeint sind.
                   - Kläre, ob Zahlen sich auf Scheiben, Fenster oder Quadratmeter beziehen.
                2. Identifiziere explizit mögliche Missverständnisse in der Beschreibung und erläutere sie kurz.
                3. Führe eine schrittweise Kalkulation durch:
                   - Wandle Scheibenanzahl ggf. zuerst in Fenster um.
                   - Fasse alle eindeutigen Leistungen zusammen (mit genauen Mengenangaben).
                4. Kalkuliere den Gesamtpreis und erkläre den Rechenweg klar.
                5. Gib den minimalen Gesamtpreis (nur vollständig angegebene Leistungen).
                6. Gib den maximalen Gesamtpreis (unter Berücksichtigung angedeuteter/unvollständiger Angaben).
                7. Schätze konservativ die Klarheit und Vollständigkeit der Beschreibung (zwischen 0 und 1).
                 8. Gibt es zuzätzliche Informationen die du vom Kunden anfordern möchtest? Lass das feld leer, wenn nicht.
                Response Schema:
        	    {"totalPrice": "integer", "totalPriceLow": "integer", "totalPriceHigh": "integer","ZusatzInfo": "string", "complete": "boolean", "confidence": "float","missverständliche Aspekte": "string","Zu erbringende Leistungen:": "string", "Rechenweg": "string", "Kommentare": "string"}
                Berechne anhand der Auftragsbeschreibung, welche Leistungen wie oft vorhanden sind. Summiere diese zu einem Gesamtpreis!
                """
 systempromptUmzug = """Du bist ein Assistent zur Kostenschätzung von Reinigungsaufträgen zur Endreinigung nachdem der Bewohner ausgezogen ist. 
              Antworte nur im gewünschten JSON-Schema.
              Beispiele (Minuten):
                - normale_fenster: 20
                - balkon_terrassentuer: 20
                - altbau_doppelfenster: 30 (aufwendiger, da üblicherweise unterteilt in 4 Scheiben)
                - aussenjalousien: 20
                - schaufenster_pro_m2: 5
                Aufgaben:
                1. Prüfe genau, ob die Beschreibung vollständig und klar ist:
                   - Sind alle Leistungen eindeutig und verständlich beschrieben?
                   - Sind Mengen klar spezifiziert? Falls nur Scheiben angegeben sind: Berechne daraus unbedingt, wie viele komplette Fenster gemeint sind.
                   - Kläre, ob Zahlen sich auf Scheiben, Fenster oder Quadratmeter Fensterfläche oder Quadratmeter Bodenfläche beziehen.
                2. Identifiziere explizit mögliche Missverständnisse in der Beschreibung und erläutere sie kurz.
                3. Führe eine schrittweise Kalkulation durch:
                   - Wandle Scheibenanzahl ggf. zuerst in Fenster um.
                   - Fasse alle eindeutigen Leistungen zusammen (mit genauen Mengenangaben).
                4. Kalkuliere den Gesamtaufwand und erkläre den Rechenweg klar.
                5. Schätze konservativ die Klarheit und Vollständigkeit der Beschreibung (zwischen 0 und 1).
                6. Gibt es zuzätzliche Informationen die du vom Kunden anfordern möchtest? Lass das feld leer, wenn nicht.
                Response Schema:
        	    {"duration": "quoted integer","ZusatzInfo": "quoted string", "complete": "quoted number 1 or 0", "confidence": "quoted float between 0 and 1","missverständliche Aspekte": "quoted string","Zu erbringende Leistungen:": "quoted string", "Rechenweg": "quoted string", "Kommentare": "quoted string"}
                Berechne anhand der Auftragsbeschreibung, welche Leistungen wie oft vorhanden sind. Summiere diese zu einem Gesamtaufwand!
                """
 systempromptIntensiv = """Du bist ein Assistent zur Kostenschätzung von Reinigungsaufträgen zur besonders gründlichen Reinigung. 
              Antworte nur im gewünschten JSON-Schema.
              Beispiele (Minuten):
                - normale_fenster: 30
                - balkon_terrassentuer: 30
                - altbau_doppelfenster: 45 (aufwendiger, da üblicherweise unterteilt in 4 Scheiben)
                - aussenjalousien: 30
                - schaufenster_pro_m2: 7.5
                Aufgaben:
                1. Prüfe genau, ob die Beschreibung vollständig und klar ist:
                   - Sind alle Leistungen eindeutig und verständlich beschrieben?
                   - Sind Mengen klar spezifiziert? Falls nur Scheiben angegeben sind: Berechne daraus unbedingt, wie viele komplette Fenster gemeint sind.
                   - Kläre, ob Zahlen sich auf Scheiben, Fenster oder Quadratmeter Fensterfläche oder Quadratmeter Bodenfläche beziehen.
                2. Identifiziere explizit mögliche Missverständnisse in der Beschreibung und erläutere sie kurz.
                3. Führe eine schrittweise Kalkulation durch:
                   - Wandle Scheibenanzahl ggf. zuerst in Fenster um.
                   - Fasse alle eindeutigen Leistungen zusammen (mit genauen Mengenangaben).
                4. Kalkuliere den Gesamtaufwand und erkläre den Rechenweg klar.
                5. Schätze konservativ die Klarheit und Vollständigkeit der Beschreibung (zwischen 0 und 1).
                6. Gibt es zuzätzliche Informationen die du vom Kunden anfordern möchtest? Lass das feld leer, wenn nicht.
                Response Schema:
        	    {"duration": "quoted integer","ZusatzInfo": "quoted string", "complete": "quoted number 1 or 0", "confidence": "quoted float between 0 and 1","missverständliche Aspekte": "quoted string","Zu erbringende Leistungen:": "quoted string", "Rechenweg": "quoted string", "Kommentare": "quoted string"}
                Berechne anhand der Auftragsbeschreibung, welche Leistungen wie oft vorhanden sind. Summiere diese zu einem Gesamtaufwand!
                """
 data = pd.read_csv("./intensivQuotationsSample.csv", on_bad_lines='skip',sep=";")
 data["response"]=""
 index = data.index
 for i in index:
    print(f"\n\n\n\n\n\niteration {i} in {index}\n")
    quotation = data.iloc[i,]
    print(quotation["requirements_textual"])
    response = askGPT(systempromptIntensiv,quotation["requirements_textual"])
    data.at[i,"response"] = response
    print(quotation["duration"])
    data.to_csv("./intensivQuotationsSampleWithResponse.csv", index=False,sep=";")
 data = pd.read_csv("./umzugQuotationsSample.csv", on_bad_lines='skip',sep=";")
 data["response"]=""
 index = data.index
 for i in index:
    print(f"\n\n\n\n\n\niteration {i} in {index}\n")
    quotation = data.iloc[i,]
    print(quotation["requirements_textual"])
    response = askGPT(systempromptUmzug,quotation["requirements_textual"])
    data.at[i,"response"] = response
    print(quotation["duration"])
    data.to_csv("./umzugQuotationsSampleWithResponse.csv", index=False,sep=";")
 #print(data)
 #print(systemprompt)
--- a/plot.py
+++ b/plot.py
@ -0,0 +1,97 @@
 import pandas as pd
 import matplotlib.pyplot as plt
 import numpy as np
 def plotVariables(x,y):
    # scatter plot (matplotlib, single plot, no explicit colors)
    #plt.ylim(0, 1)
    plt.figure()
    plt.scatter(x, y)
    plt.axhline(0, linestyle="--")  # reference line
    plt.xlabel(x.name)
    plt.ylabel(y.name)
    plt.title("diff_price vs. confidence")
    plt.grid(True)
    plt.show()
 def plotPriceConfidence(condensed):
    # pick the right confidence column
    conf_col = "confidence" if "confidence" in condensed.columns else (
        "resp_confidence" if "resp_confidence" in condensed.columns else None
    )
    if conf_col is None:
        raise KeyError("No 'confidence' or 'resp_confidence' column found in condensed.")
    # keep only the needed columns and coerce to numeric
    dfp = condensed[[conf_col, "diff_price"]].copy()
    dfp[conf_col] = pd.to_numeric(dfp[conf_col], errors="coerce")
    dfp["diff_price"] = pd.to_numeric(dfp["diff_price"], errors="coerce")
    dfp = dfp.dropna(subset=[conf_col, "diff_price"])
    # scatter plot (matplotlib, single plot, no explicit colors)
    #plt.ylim(0, 1)
    plt.figure()
    plt.scatter(dfp[conf_col], dfp["diff_price"])
    plt.axhline(0, linestyle="--")  # reference line
    plt.xlabel(conf_col)
    plt.ylabel("diff_price")
    plt.title("diff_price vs. confidence")
    plt.grid(True)
    plt.show()
 def histPriceDiff(condensed):
    conf_col = (
        "confidence" if "confidence" in condensed.columns
        else "resp_confidence" if "resp_confidence" in condensed.columns
        else None
    )
    if conf_col is None:
        raise KeyError("No 'confidence' or 'resp_confidence' column in condensed.")
    # --- prepare data ---
    df = condensed[[conf_col, "diff_price"]].copy()
    df[conf_col] = pd.to_numeric(df[conf_col], errors="coerce")
    df["diff_price"] = pd.to_numeric(df["diff_price"], errors="coerce")
    df = df.dropna(subset=[conf_col, "diff_price"])
    # scale confidence to 0–100 if it looks like 0–1
    if df[conf_col].max() <= 1.01:
        df[conf_col] = df[conf_col] * 100
    # --- define bands ---
    bands = [
        ("confidence == 100",        df[ df[conf_col] == 100 ]),
        ("100 > confidence ≥ 90",    df[(df[conf_col] < 100) & (df[conf_col] >= 90)]),
        ("90 > confidence ≥ 80",     df[(df[conf_col] <  90) & (df[conf_col] >= 80)]),
        ("80 > confidence ≥ 50",     df[(df[conf_col] <  80) & (df[conf_col] >= 50)]),
        ("50 > confidence",          df[ df[conf_col] <  50 ]),
    ]
    # --- common bins across all groups for fair comparison ---
    all_vals = df["diff_price"].values
    if all_vals.size == 0:
        raise ValueError("No numeric diff_price values to plot.")
    xmin, xmax = np.nanmin(all_vals), np.nanmax(all_vals)
    if xmin == xmax:
        # degenerate case: make a tiny range around the single value
        xmin, xmax = xmin - 0.5, xmax + 0.5
    bins = np.linspace(xmin, xmax, 31)  # 30 bins
    # --- plot each histogram in its own figure (no subplots, no explicit colors) ---
    for title, d in bands:
        if d.empty:
            print(f"[skip] {title}: no rows")
            continue
        plt.figure()
        plt.hist(d["diff_price"].values, bins=bins)
        plt.title(f"diff_price for {title}")
        plt.xlabel("diff_price")
        plt.ylabel("count")
        plt.grid(True)
        plt.show()
    # (optional) quick counts per band
    for title, d in bands:
        print(f"{title}: {len(d)} rows")