---
## Jupyter Notebook Tutorial zur 
# Fehlerrechnung im Anfängerpraktikum

 Günter Quast, März 2020, 
 aktualisiert Jan. 2022
---

## Jupyter Notebooks

Diese Datei vom Typ `.ipynb` enthält ein Tutorial als `jupyter notebook`.
`jupyter` bietet eine Browser-Schnittstelle mit einer (einfachen) Entwicklungsumgebung
für `python`-Code und erklärende Texte im intuitiven *markdown*-Format. Die Eingabe von Formeln im `LaTeX`-Format wird ebenfalls unterstützt. 

Eine Zusammenstellung der wichtigsten Befehle zur Verwendung von *jupyter* als
Arbeitsumgebung findet sich im Notebook
[*JupyterCheatsheet.ipynb*](JupyterCheatsheet.ipynb). 
Die kurzen Abschnitte geben einen Überblick über das Notwendigste, um mit dem 
Tutorial arbeiten zu können. 

In *jupyter* werden Code und Text in jeweils einzelne Zellen eingegeben. 
Aktive Zellen werden durch einen blauen Balken am Rand angezeigt. Sie können sich in zwei Zuständen befinden: im Edit-Mode ist das Eingabefeld weiß, im Command-Mode ist es
ausgegraut. Durch Klicken in den Randbereich wird der Command-Modus gewählt, ein Klick 
in das Textfeld einer Code-Zelle schaltet in den Edit-Mode. Die Taste `esc` kann
ebenfalls verwendet werden, um den Edit-Modus zu verlassen. 

Eingabe von `a` im Command-Mode erzeugt eine neue leere Zelle oberhalb der aktiven Zelle,
`b` eine unterhalb. Eingabe von `dd` löscht die betreffende Zelle.

Zellen können entweder den Typ `Markdown` oder `Code` haben. Die Eingabe von `m` im Command-Modus setzt den Typ Markdown, Eingabe von `y` wählt den Typ Code.

Prozessiert - also Text gesetzt oder Cocde ausgeführt - wird der Zelleninhalt durch 
Eingabe von `shift+return`, oder auch `alt+return` wenn zusätzliche eine neue, leere Zelle erzeugt werden soll. 

Die hier genannten Einstellungen sowie das Einfügen, Löschen oder Ausführen von Zellen können auch über das PullDown-Menü am oberen Rand ausgeführt werden. 

---


> Bei diesem Tutorial handelt es sich um einen Ansatz nach dem Prinzip
"_learning by doing_".
Es werden einfache Beispiele in der Sprache _Python_ verwendet, um konkrete Anwendungen
zu verdeutlichen, die auch später in eigenen Arbeiten verwendet werden können. 
Dieses Tutorial baut auf anderen auf, die _Python_-Grundkenntnisse vermitteln 
(*PythonIntro.ipynb* oder *PythonCheatsheet.ipynb*), den Umgang mit den Paketen 
_numpy_ und _matplotlib_ zur Visualisierung von Daten (*matplotlibTuotrial.ipynb) 
und Grundlagen der Statistik (*IntroStatistik.ipynb*) vertiefen.

## Allgemeine Einstellungen und nützliche Pakete

In [None]:
import sys, os

#
import numpy as np, matplotlib.pyplot as plt

# Zeilen mit % oder %% am Anfang sind sogenannte "magische Kommandos",
# die den Zellentyp oder die Art der Anzeige von Grafiken angeben
%matplotlib inline

---

---

# (Moderne) Fehlerrechnung im Praktikum 
---

# Inhalt 

## 1. [Einleitung](#Sec-Einleitung)

### 1.1 [Bedeutung der Messunsicherheit](#SubSec-Messunsicherheit)

### 1.2 [Aufnahme einer Messreihe zur Bestimmung der Messunsicherheit](#SubSec-Messreihe)

### 1.3 [Häufigkeiten und Histogrammdarstellung](#SubSec-Häufigkeit)

### 1.4 [Nomenklatur und Rechenregeln](#SubSec-Rechenregeln)


## 2. [Fehlerfortpflanzung](#Sec-Fehlerfortplanzung)

### 2.1 [Vorüberlegungen](#Sec-Vorüberlegungen)

### 2.2 [Das Fehlerfortpflanzungsgesetz bei unabhängigen Unsicherheiten](#SubSec-Unabhängig)

### 2.3 [Fehlerfortpflanzung mit Computer-Unterstützung](#SubSec-Computer)

### 2.4 [Das Fehlerfortpflanzungsgesetz bei korrelierten Unsicherheiten](#SubSec-korreliert)


## 3. [Anpassung von Modellen an Messdaten und Parameterschätzung](#Sec-Parameterschätzung)

### 3.2 [Bestimmung der Parameterunsicherheiten](#Sec-Parameterunsicherheiten)

### 3.3 [Beurteilung der Qualität einer Anpassung](#Sec-Fitqualität)

### 3.4 [Verfahren und Programmpakete zur Parameteranpassung](#Sec-Programmpakete)

### 3.5 [Details zum Anpassungspaket *kafe2*](#Sec-kafe)

### 3.6 [Details zur Modellanpassung mit PhyPraKit/phyFit](#Sec-phyFit)


## 4.0 [Spezielle Anwendungsfälle](#Sec-Sepical)

### 4.1 [Transformation von Parametern und Konfidenzintervallen mittels Anpassung](#Sec-ParTrafo)



---

---
# 1. Einleitung [^](#Inhalt)
---

Grundlage der Physik sind quantitative Beobachtungen von Naturphänomenen, ausgedrückt als
Messgrößen mit einem Zahlenwert und einer Maßeinheit. Beobachtungen sind immer zufälligen
Einflüssen unterworfen, die sich nicht vermeiden lassen und die das Messergebnis verändern.
Dadurch bedingte Abweichungen vom angenommenen "wahren Wert" werden als Messunsicherheiten
bezeichnet. Früher hat man dafür den unzutreffenden Begriff "Messfehler" verwendet, weil
man der Ansicht war, durch genügend Sorgfalt und Aufwand beim Messprozess und den Einsatz
bestmöglicher Technik die Messunsicherheit auf Null drücken zu können. Seit der Entwicklung
der Quantenphysik als Grundlage aller Gebiete der Physik wissen wir aber, dass zufällige 
Einflüsse auf Beobachtungsgrößen prinzipiell unvermeidlich sind: in der Quantenpysik werden Erwartungswerte für Beobachtungsgrößen vorhergesagt, denen Verteilungsdichten mit nicht verschwindender Varianz zu Grunde liegen. 
Beispiele sind die mittlere Lebensdauer eines atomaren Zustands, eines radioaktiv
zerfallenden Kerns oder Elementarteilchens, oder auch die prinzipielle Unbestimmtheit
von Ort und Impuls eines Quantenteilchens. Schon in klassischen Systemen, die durch die
gegenseitigen Wechselwirkungen vieler Teilchen bestimmt sind, ist es praktisch unmöglich,
statistische Fluktuationen von Messergebnissen durch unkontrollierbare Einflüsse zu
vermeiden. Bei immer weiter verbesserten Beobachtungsmethoden stößt man dann letztlich
an die quantenmechanischen Grenzen. 

Die typische Problemstellung beim Messen besteht also darin, den Werte einer interressierenden Größe $y$ aus einer oder mehreren Messgrößen $x_i$ zu bestimmen, 
also $y(x_1, \ldots, x_n)$.
Beispiele sind etwa die Bestimmung eines ohmschen Widerstands aus Messungen von Strom und
Spannung, einer Federkonstanten aus der Auslenkung und einer wirkenden Kraft, die Messung der Erdbeschleunigung durch die Auslenkung einer Feder mit bekannter Federkonstante
durch ein angehängtes Gewicht mit bekannter Masse, oder die Messung der Elementarladung
aus dem Radius einer Kreisbahn, auf der sich ein Elektronenstrahl in einem Magnetfeld bekannter Stärke bewegt, und viele mehr. 

Die Eingangsgrößen $x_i$ sind als Messgrößen mit unvermeidbaren, zufälligen Messunsicherheiten behaftet. Damit ist auch die abgeleitete Größe $y$ eine Größe
mit einer zufälligen Unsicherheit, deren Wert es zu bestimmen gilt. 

Messgrößen sind ein Beispiel für *Zufallsgrößen*, also Größen, die abhängig vom Zufall verschiedene Werte annehmen können. Diese Werte sind nach einer bestimmten *Verteilungsdichte* (für kontinuierliche Zufallsgrößen) bzw. einer bestimmten *Wahrscheinlichkeit* $p(x)$ (für diskrete Zufallsgrößen) um den wahren Wert der Größe angeordnet. Als Maß für die Unsicherheit wird die Standardabweichung dieser Verteilungsdichte um den wahren Wert der Messgröße verwendet. Da dieser wahre Wert (nach einer endlichen Anzahl von Messungen) nur näherungsweise bekannt ist, verwendet man den Messwert als Schätzung für den wahren Wert und gibt die Standardabweichung als
Unsicherheit an:

$M = (m \pm \Delta m) \cdot {\rm }$

Eine übliche grafiche Darstellung einer Messung 

$G=1\pm0.3\,{\rm a.u.}$

(dabei steht a.u. für "arbitrary units", d. h. beliebige Einheiten) erhalten Sie,
wenn Sie die beiden folgenden Zellen mit *python*-Code ausführen 
(durch Anklicken und Eingabe von `+`).

In [None]:
# diesen Code durch Eingabe von ausführen

# Datenpunkt 1.0 +/- 0.3
g_m = [1.0]
g_e = [0.3]

# Erzeugen einer Grafik
plt.figure(1, figsize=(5.0, 5.0))
plt.errorbar([1], g_m, yerr=g_e, fmt="bo")

# Achsenbeschriftungen hinzufügen
plt.ylabel("G (a.u.)", size="xx-large")
plt.xlabel("Nr. der Messung", size="x-large")
# Grenzen festlegen
plt.xlim(0.5, 1.5)
plt.ylim(0.0, 1.1 * (max(g_m) + max(g_e)))

# Text hinzufügen
plt.text(0.75, 0.4, "G=%.2f +/- %.2f a.u." % (g_m[0], g_e[0]), size="x-large")

# keine Anzeige der Achsenbeschriftung für die x-Achse
plt.gca().axes.get_xaxis().set_visible(False) # keine Anzeige der x-Achsenbeschriftung

# Graifk anzeigen
plt.show()

---
## 1.1 Bedeutung der Messunsicherheit 
---

Die Angabe der Unsicherheit ist von entscheidender Wichtigkeit zur Bewertung einer Messung. 
Als Beispiel betrachten wir zwei Messungen der Lichtgeschwindigkeit, die zwar 
den gleichen Messwert ergeben, aber unterschiedliche Unsicherheiten haben.

$$\displaystyle
\begin{array}{ll}
{\rm Messung\,1:\,}\, c = & (3.09 \pm 0.15)\cdot 10^8 \frac{\rm m}{\rm s} \\
{\rm Messung\,2:\,}\, c = & (3.09 \pm 0.01)\cdot 10^8 \frac{\rm m}{\rm s} \\
\end{array}$$
Führen Sie den Code in der Zeile unten aus [1].

[1] **Anmerkung**: Stören Sie sich nicht an den Details im Code unten, die zur
"Verschönerung" der grafischen Darstellung dienen. Das verwendete Paket 
*matplotlib.pyplot* bietet sehr viele Optionen zur Beeinflussung der Grafik,
die man ggf. nachschlägt. Im Laufe der Zeit werden Sie sich die wichtigsten
davon merken. 

In [None]:
# diesen Code durch Eingabe von ausführen

c_m = [3.09e8, 3.09e8]
c_e = [0.15e8, 0.01e8]
c_w = 2.99792458e8

plt.figure(1, figsize=(6.0, 5.0))
plt.errorbar([1, 2], c_m, yerr=c_e, fmt="bo")

plt.axhline(c_w, color="darkred", linewidth=3)
plt.text(0.55, 3.005e8, "wahrer Wert", color="darkred")

plt.ylabel("c (m/s)", size="x-large")
plt.xlabel("Nr. der Messung")
plt.title("Messungen der Lichtgeschwindigkeit")
# noch einige Verschönerungen:
plt.xlim(0.5, 2.5)
ax = plt.gca()
ax.locator_params(nbins=3)
plt.grid()

plt.show()

Man sieht, dass die Messunsicherheit der ersten Messung mit dem wahren Wert der Lichtgeschwindigkeit von 299 792 458 m s−1 überlappt, während der Fehlerbalken der zweiten Messung weit davon entfernt endet. Die zweite Messung
ist damit klar im Widerspruch zum - übrigens im SI-Einheitensystem als exakt
definierten - Literaturwert. 
 

---
### 1.2 Aufnahme einer Messreihe zur Bestimmung der Messunsicherheit 
---

Zufällige Einflüsse auf den Wert einer Messung lassen sich durch wiederholte Ausführung des Messprozesses bestimmen. Dazu wird ein Messreihe aus mehreren Messungen 
$x_i, {\small i=1, \ldots, N}$ 
durchgeführt. Die einzelnen Messwerte $m_i$ unterscheiden sich, weil der allen 
zu Grunde liegende "wahre Werte" $w$ von jeweils zufälligen Abweichungen $z_i$ betroffen ist:

$m_i \,=\, w + z_i \,.$

Unter recht schwachen Voraussetzung ist die zu Grunde liegende Verteilung in der Praxis häufig eine Normal- (oder auch Gauß-)Verteilung. Dies gilt insbesondere dann,
wenn sehr viele Störungen (die sogar einer beliebigen Verteilungsdichte folgen dürfen)
zufällig zusammen wirken. Das ist die Aussage des 
**zentralen Grenzwertsatzes der Wahrscheinlichkeitstheorie**. 

Die **statistische Messunsicherheit** einer Einzelmessung lässt sich als 
Standardabweichung der Werte der Messreihe darstellen: 

$\sigma_{m} = \sqrt{ \frac{1}{N-1} \displaystyle \sum_{i=1}^N (m_i-\bar{m})^2} \,\,{\rm mit}\, \bar{m} = \frac{1}{N} \displaystyle \sum_{i=1}^N m_i \,.$

Dabei ist $\bar{m}$ der (arithmetische) Mittelwert der aufgenommenen Messwerte.
Das Quadrat der Standardabweichung bezeichnet man als **"Varianz"** $V_m = {\sigma_m}^2$.
In Worten ausgedrückt: 
> Die Varianz ist die Summe der quadrierten Abweichungen der Einzelmessungen vom Erwartungswert. 
 
$\bar{m}$ und $\sigma_m$ nach obiger Formel sind die besten unverzerrten Schätzungen der Parameters $w$ und $\sigma$ der angenommenen Gauß-Verteilung 

$g(m) = \frac{1}{\sqrt{2\pi}{\sigma}} \exp {\frac{(m - w)^2}{2{\sigma}^2} } \,.$

Vielleicht ist Ihnen aufgefallen, dass die mittlere quadratische Abweichung durch Division durch $(N-1)$ statt $N$ berechnet wird. Dies ist die sogenannte "Bessel-Korrektur", die dafür sorgt, dass die Schätzung aus den gemessenen Daten unverzerrt ist. Eine Schätzung wird im allgemeinen dann als unverzerrt bezeichnet,
wenn der Erwartungswert des Schätzwerts (siehe [Abschnitt 1.4](#SubSec-Rechenregeln)) dem wahren Wert entspricht. Eine Konsequenz ist, dass man - sinnvollerweise - zur Berechnung der Standardabweichung mindestens zwei Messwerte braucht.

Abweichungen vom wahren Wert, die durch "echte" Fehler im Messprozess oder die Eichung der verwendeten Messgeräte verursacht werden, können durch wiederholte Messungen nicht bestimmt werden. Erst durch Variation des Messverfahrens, die Verwendung jeweils verschiedener Geräte oder durch Vergleich mit genau bekannten Referenzgrößen in einer "Kalibrationsmessung" werden solche Unsicherheiten erkennbar. Man nennt sie **systematische Unsicherheiten**. Typisch für systematische Unsicherheiten ist, dass sie zu Abweichungen führen, die allen Messungen gemeinsam, also korreliert sind. Beispielsweise ist bei Widerstandsthermometern die Temperatur nicht perfekt proportional zum elektrischen Widerstand. Alle mit demselben Thermometer durchgeführten Messungen zeigen dann ähnliche Abweichungen vom wahren Wert. Oft werden die zu erwartenden systematischen Unsicherheiten vom Hersteller im Datenblatt eines Messgeräts angegeben. 

Wenn man eine Messreihe mit $N$ Einzelmessungen ausgeführt hat, sollte man als Messwert nicht eine beliebige Einzelmessung, sondern den Mittelwert $\bar{m}$ aller Messungen der Messreiche zitieren. Der Grund dafür ist, dass die Genauigkeit des Mittelwertes besser ist als die einer Einzelmessung, da sich statistisch bedingte Unsicherheiten teilweise herausmitteln. Somit ergibt sich ein besserer Schätzwert für den wahren Wert. Weiter unten wird gezeigt, dass die **Unsicherheit des Mittelwerts** gegeben ist durch

$\sigma_{\bar{m}} = \frac{\sigma_m} {\sqrt{N}}\,,$

also um einen Faktor $1/\sqrt{N}$ geringer ist als die Unsicherheit eines einzelnen Messwerts.

Das *python*-Paket *numpy* bietet einfache Möglichkeiten, Mittelwert und Standardabweichung einer Messreihe zu berechnen. Dazu müssen die Daten als *numpy array* vorliegen. Betrachten Sie folgendes Code-Fragment:

```
# Messdaten
d=[0.846, 1.513, 0.388, 0.782, 0.403, 0.743, 0.976, 0.988, 1.736, 1.128]
n= len(d)

data=np.array(d)
mean=data.mean()
std=data.std(ddof=1)

print("Mittelwert der Messreihe: ", mean)
print("Standardabweichung der Messungen: ", std)
print("Unsicherheit des Mittelwerts: ", std/np.sqrt(n) )

```

[2] **Anmerkung**: der Parameter "*ddof=1*" (*ddof*= "delta degrees of freedom", d. h. Differenz in der Zahl der Freiheitsgrade) sorgt dafür, dass die Standardabweichung mit der "Bessel-Korrektur" berechnet wird (die Zahl der Freiheitsgrade wird durch die Verwendung des Mittelwerts um eins reduziert).

### Übung:
Geben Sie den Code oben in die leere Zelle unten ein und führen Sie ihn aus.

In [None]:
# eigenen Code hier eingeben:
# -->

---
### 1.3 Häufigkeiten und Histogrammdarstellung 
---


Wenn - häufig automatisiert - große Messreihen aufgenommen wurden, empfiehlt es sich, 
sie grafisch darzustellen. Dazu werden die Messdaten $m_1, \ldots, m_N$ in $k$ Klassen
eingeteilt, z. B. Intervalle $1, \ldots, k$ mit Intervallgrenzen $M_0, \ldots, M_k$,
und die Häufigkeit des Vorkommens von Werten in jedem der Intervalle aufgetragen.
Die übliche Darstellung ist ein Balkendiagramm, bei dem die Höhe eines Balkens im
Intervall $j$ die Häufigkeit $H_j$ einer Beobachtung in diesem Intervall angibt. 

Für $N$ Messungen gilt:

Summe der Häufigkeiten:
 $\displaystyle \sum_{j=1}^k H_j = N\,,$

relative Häufigkeiten: 
 $h_j=\frac{H_j}{N} \displaystyle \,\Leftrightarrow\,\sum_{j=1}^k h_j = 1\,,$
 
Mittelwert der Messgrößen:
 $\overline{m}= \displaystyle \sum_{j=1}^k h_j \, \overline{M}_j \,,$

und Messunsicherheit: 
 $\sigma_x= \displaystyle \sum_{j=1}^k h_j (\overline{M}_j - \overline{m})^2\,.$ 
$\overline{M}_j$ ist dabei die Mitte des jeweiligen Intervalls, 
$\overline{M}_j=(M_j - M_{j-1})/2 \,.$ 

Folgendes Code-Beispiel illustriert eine Histogrammdarstellung:
```
# Daten für Histogramm
Ri = np.array([139.9,139.9,140.1,140.0,139.9,140.0,140.0,139.8,140.0,140.3,140.0,140.0,140.0,140.2,140.], dtype=float)

bconts, bedges, _p = plt.hist(Ri, bins=np.linspace(139.8, 140.3, 6))
plt.ylabel('Häufigkeit')
plt.xlabel('Widerstand R (k$\Omega$)')
plt.show()
```
Zur statistischen Auswertung kann das Paket *PhyPraKit* verwendet werden, in dem die Berechnung der obigen Formeln implementiert ist:
```
# Berechnung der statistischen Daten aus dem Histogramm
from PhyPraKit import histstat
mean, sigma, sigma_mean = histstat(bconts, bedges, pr= True)
```

### Übung: 
Führen Sie diesen Beispiel-Code in der Zelle unten aus.

In [None]:
# eigenen Code hier eingeben
# -->

#### 1.3.1 Berücksichtigung von systematischen Unsicherheiten 
Beim obigen Code-Beispiel handelte es sich offensichtlich um die wiederholte Bestimmung eines ohmschen Widerstands, z. B. mit einem Multimeter. Nehmen Sie nun an, dass die Zuleitungen einen Widerstand von $0.3\,\Omega$ haben, der auf $\pm 0.1\,\Omega$ genau bekannt ist.

Es ist klar, dass der zusätzliche Widerstand einfach korrigierbar ist - der tatsächliche
Widerstand des Bauteils ist um $0.3\,\Omega$ kleiner als der aus dem Histogramm bestimmte Mittelwert.

Im Folgenden wird es darum gehen, wie sich die Unsicherheit auf den ohmschen Widerstand der Zuleitungen auf die Unsicherheit des Bauteilwiderstands auswirkt. Wir werden sehen, dass sich die Varianz, also das Quadrat der Unsicherheit, als Summe der statistischen Varianz und dem Quadrat der systematischen Unsicherheit ergibt, 
$\sigma_{\rm tot}^2 = \sigma_{\rm stat}^2 + \sigma_{\rm syst}^2 \,.$

---
### 1.4 Nomenklatur und Rechenregeln 
---

Der (arithmethische) Mittelwert $\overline{m}$ von Messgrößen wurde bereits in [Abschnitt 1.2](#SubSec-Messreihe) eingeführt. Man kann allgemein für Zufallsgrößen $x$ mit unterschiedlichen Verteilungsdichten zeigen (u. a. für gaußverteilte Zufallsgrößen), dass der Erwartungswert der Verteilungsdichte dem Mittelwert entspricht. Daher gibt es verschiedene Nomenklaturen für den Erwartungswert einer Zufallsgröße $x$, die einer diskreten Wahrscheinlichkeit $p(x)\equiv h_i$ oder einer kontinuierlichen Wahrscheinlichkeitsdichte $f_x(x)$ folgt. Bisher haben wir für den Mittelwert die Bezeichung $\bar{x}$ verwendet. Für den Erwartungswert üblich sind die äquivalenten Darstellungsweisen 

$\bar{x} \equiv \rm{E}[x] \equiv \left$
 
Je nach Art der Daten bzw. deren Verteilung gelten im Einzelfall zur Berechnung 
des Erwartungswerts $\left< x \right>$ die folgenden Formeln: 

$$\begin{array}{c|ccc}
{\rm Erwartungswert} & {\rm Stichprobe} \, x_i, {\small i=1,...,N} &
 {\rm diskrete \,Verteilung} \, h_i & {\rm Verteilungsdichte} \,f_x(x) \\
\hline % ---------------------------------------------------------------------------- 
\left< x \right> \,= & \frac{1}{N}\sum_{i=1}^N x_i &
 \sum_{i=1}^N x_i h_i & \int_{-\infty}^\infty xf_x(x)\,dx \\
\end{array}$$

Für Erwartungswerte gelten allgemein einfache Rechenregeln, die aus der Linearität der Definition des Erwartungswerts folgen. Im folgenden sind $a$, $b$ Konstanten und $x$, $x_1$ und $x_2$ Zufallsgrößen. Es gilt: 

$\left< a \right> = a$, d. h. auch $\left< \left< x \right>\right> = \left< x \right>$

$\left< ax \right> = a \left< x \right>$
 
$\left< x_1 + x_2 \right> = \left< x_1 \right> + \left< x_2 \right>$

und damit auch $\left< a x_1 + b x_2 \right> = a \left< x_1 \right> + b \left< x_2 \right>$ 
 
Der Erwartungswert der quadratischen Abweichung vom Mittelwert, die Varianz $\mathrm{V}_x$, 
lässt allgemein wie folgt schreiben:

$\rm{V}_x = \left< { \left(x - \left< x\right> \right)}^2 \right>$ 

Durch Ausmultiplizieren erhält man die äquivalente Darstellung

$$\begin{array}{lcl} 
\rm{V}_x & = & \left< x^2 - 2 x \left< x \right> + \left< x \right>^2 \right> \\
 ~ & = & \left< x^2 \right> - \left<2x \left< x\right>\right> + \left<\left< x \right>^2\right> \\ 
 ~ & = & \left< x^2 \right> - 2 \left< x \right>^2 + \left< x \right>^2 \\
 ~ & = & \left< x^2 \right> - \left< x \right>^2 \\
\end{array}$$

Beachten Sie: der Erwartungswert eines Produktes ist im allgemeinen nicht gleich dem Produkt der Erwartungswerte,

> $\left< x_1 x_2 \right> \ne \left< x_1 \right> \left< x_2 \right>$.

Gleichheit ($\left< x_1 x_2 \right> = \left< x_1 \right> \left< x_2 \right>$) gilt allerdings, wenn $x_1$ und $x_2$ unabhängige Zufallszahlen sind. 


---
## 2. Fehlerfortpflanzung [^](#Inhalt)
---

Wir widmen uns nun der Frage, wie sich die Unsicherheit einer Funktion $y$ von $N$ Zufallsgrößen $y = y(x_1, \ldots, x_N)$ ergibt. 

### 2.1 Vorüberlegungen 

Beginnen wir mit einem ganz einfachen Beispiel und berechnen die Varianz einer Größe $s$, die sich als Linearkombination zweier Zufallsgrößen $x_1$ und $x_1$ ergibt:
$s = a\,x_1 + b\,x_2$. 

>$$\displaystyle\begin{eqnarray}
 \rm{V}_s &=& \left< { \left(s - \left< s \right> \right)}^2 \right>
 = \left< s^2 \right> - \left< s \right>^2 \\
 &=& \left< a^2 x_1^2 + b^2 x_2^2 + 2 a b x_1 x_2 \right> 
 - a^2 \left< x_1 \right>^2 - b^2 \left< x_2 \right>^2 
 - 2 a b \left< x_1 \right> \left< x_2 \right> \\
 &=& a^2 \left( \left - \left^2 \right)
 + b^2 \left( \left - \left^2 \right) 
 + 2ab \,\bigl( \left - \left \left \bigr)\\
 &=& a^2 \rm{V}_1 + b^2 \rm{V}_2 
 + 2ab \,\bigl(\left< x_1 x_2 \right> - \left< x_1 \right>\left< x_2 \right>\bigr)
\end{eqnarray}$$

Der letzte Term verschwindet für unabhängige Zufallsvariable $x_1$ und $x_2$. 
Er enhält die sogenannte *Kovarianz*, 

$\mathrm{cov}(x_1, x_2) = \left< (x_1 - \left)(x_2 - \left)\right>
 = \left< x_1 x_2 \right> - \left< x_1 \right>\left< x_2 \right>$

Die Kovarianz ist eine Verallgemeinerung der Varianz für zwei Variable: Es gilt $\rm{cov}(x,x) = \rm{V}_x$, d. h. die Kovarianz einer Variable mit sich selbst entspricht der Varianz.

Wir halten also insgesamt als Ergebnis für die Varianz einer Summe von Zufallsvariablen fest:

$ \rm{V}_s = a^2 \rm{V}_1 + b^2 \rm{V}_2 + 2ab \, \rm{cov}(x_1, x_2) \,\,\, $
 für $s = a\,x_1 + b\,x_2\,$
 Gleichung (2.1) .


Für eine allgemeine Funktion $f(x)$ einer Zufallsgröße $x$ lässt sich die Frage
nach der Unsicherheit bzw. Varianz $\mathrm{V}_f$ näherungsweise beantworten, wenn man
die Taylor-Entwicklung von $f$ um den Erwartungswert $\left$ betrachtet:

$f(x) = f(\left) + \left. {\frac{\mathrm{d}f}{\mathrm{d}x}}\right| _{x=\left} 
 \left(x-\left\right) + \ldots$

Da die Unsicherheit typischerweise eine kleine Größe ist und wir uns nur um eine Näherung der Funktion $f$ über den Bereich der Unsicherheit $\sigma_x=\sqrt{\mathrm{V}_x}$ um den Erwartungswert $\left$ interessieren, ist die Näherung in den meisten Fällen hinreichend genau.

Unter Verwendung des Ergebnisses von oben erhalten wir:

$\mathrm{V}_f = \left< f(x)^2 \right> - \left< f(x) \right>^2 
 \simeq \left( \left. \frac{\mathrm{d}f}{\mathrm{d}x}\right|_{x=\left} \right)^2 \left< (x-\left)^2 \right> $ 

Der letzte Term ist die Varianz von $x$; damit erhalten wir also:
> $ \mathrm{V}_f \simeq\, \left( \left. \frac{\mathrm{d}f}{\mathrm{d}x}\right|_{x=\left} \right)^2 \mathrm{V}_x \,$;
Gleichheit gilt bei linearen Funktionen $f(x)$. 

Die Varianz der Funktion $f(x)$ entspricht also der Varianz von $x$, multipliziert mit dem Wert der ersten Ableitung der Funktion am Erwartungswert $\left$ zum Quadrat. 

Bei Funktionen eines Vektors von $n$ unabhängigen Zufallsvariablen $f(x_1, \ldots, x_n)\equiv f(\vec{x})$ ergibt sich die Varianz $V_f$ als Summe von Termen analog zur obigen Gleichung, diesmal mit partiellen Ableitungen:
> $\mathrm{V}_f \simeq \sum\limits_{i=1}^n \left( \left.\frac{\partial V}{\partial x_i}\right|_{\vec{x}=\left<\vec{x}\right>}\right)^2 \mathrm{V}_{x_i}$ Gleichung (2.2)

Der in [Gleichung (2.1)](#Equ-2.1) hergeleitete Term, der die Kovarianz beinhaltet, musste für diese Herleitung nicht berücksichtigt werden, da die Zufallszahlen als unabhängig angenommen wurden. Dieser Term wird in [Abschnitt 2.4](#SubSec-korreliert) im Zusammenhang mit korrelierten Unsicherheiten aber wieder aufgegriffen.

---
### 2.2 Das Fehlerfortpflanzungsgesetz bei unabhängigen Unsicherheiten 
--- 

Zusammenfassend kann man nach diesen Vorüberlegungen den allgemeinen Fall 
einer Funktion $y$ von $n$ unabhängigen Zufallsvariablen $y(x_1, \ldots, x_n)$ 
wie folgt schreiben:


> $\sigma^2_{y}= \displaystyle \sum_{i=1}^n
 \left( \frac{\partial y}{\partial x_i} \right)^2 \sigma^2_{x_i}\,$ 
 Gleichung (2.3) ,
> wobei die partiellen Ableitungen wieder am Erwartungswert ausgewertet werden.

Wichtige Spezialfälle sind Summen, Differenzen, Produkte oder Quotienten von zwei Größen.

Unter Anwendung des allgemeinen Ergebnisses erhält man:

$y=x_1 \pm x_2$
> $\Rightarrow \color{blue}{
 {\sigma_y}^2 = {\sigma_1}^2 + {\sigma_2}^2 } $

Die quadrierte Unsicherheit der Summe oder Differenz
zweier Messungen ergibt sich als die quadratische Summe ihrer Unsicherheiten. 

$y=x_1 \cdot x_2 {\rm ~oder~} y = \frac{x_1}{x_2}$
> $\Rightarrow \color{blue}{
 \left( \frac{\sigma_y}{y} \right)^2 \simeq
 \left(\frac{\sigma_1}{x_1} \right)^2 
 + \left(\frac{\sigma_2}{x_2} \right)^2 }$
 
 Die quadrierte *relative* Unsicherheit (d. h. die Unsicherheit dividiert durch den Wert selbst) 
 des Produkts oder Verhältnisses zweier Messungen ist die quadratische Summe ihrer relativen Unsicherheiten. 
 
Interessant und von besonderer Relevanz ist auch der Fall, wenn eine Funktion von einer
Potenz einer Zufallsvariablen abhängt, also 
 
$y = x^m \quad\rightarrow \frac{\partial y}{\partial x} = m x^{m-1}$

$\sigma_y^2 = \left(\frac{\partial y}{\partial x}\right)^2 \sigma_x^2 
 = m^2 x^{2m-2} \sigma_x^2 = m^2 \frac{y^2}{x^2} \sigma_x^2 
 \quad\rightarrow \frac{\sigma_y^2}{y^2} = m^2 \frac{\sigma_x^2}{x^2}$
> $\Rightarrow \color{blue}{
 \frac{\sigma_y}{x} \simeq |m| \frac{\sigma_x}{x}} $
 
 
Mit Hilfe des Fehlerfortpflanzungsgesetzes kann man auch die weiter oben schon besprochene Reduktion der Unsicherheit durch Mittelwertbildung der Messwerte $x_i$ von $N$ gleichartigen Messungen begründen: 

$y = \bar{x} = \frac{1}{N} \displaystyle \sum_{i=1}^N x_i $ 
$\Rightarrow {\sigma_y}^2 = \frac{1}{N^2} \displaystyle \sum_{i=1}^N {\sigma_i}^2 
 = \frac{1}{N^2} N {\sigma_x}^2 = \frac{1}{N} {\sigma_x}^2 $, also
 
> $ \color{blue}{ {\sigma_\bar{y}}^2 = \frac{1}{N} {\sigma_x}^2 }$




### Kleine Übung zu 2.2

Bei der Untersuchung eines Sensors oder der Bewertung eines medizinischen Tests
wird bestimmt, wie häufig er er auf ein Signal anspricht. 
Es wird $p$ mal ein positiver und $n$ mal eine negative Ausgang beobachtet. 
Die "Effizienz" zur Bewertung der Leistungsfähigkeit ist definiert als 
$\epsilon = \frac{p}{p+n}\,$.


Die statistischen Unsicherheiten der beobachteten Häufigkeiten sind
$\sigma_p =\sqrt{p}$ und $\sigma_n=\sqrt{n}$. 
Wie groß ist die Unsicherheit $\sigma_\epsilon$ der Effizienz $\epsilon$?

> Lösung: $\sigma_\epsilon = \sqrt{ \frac{\epsilon \, (1-\epsilon)}{p+n} }$

**Hier eigene Berechnung eingeben:** 
--> 




---
### 2.3 Fehlerfortpflanzung mit Computer-Unterstützung 
---


Für *python* gibt es das Paket *uncertainties*, das mit Unsicherheiten von Variablen
umgehen kann.

Falls nicht schon vorhanden, installieren Sie es mit `pip3 install uncertainties`. 
Die vollständige Dokumentation finden Sie unter dem Link
[https://pythonhosted.org/uncertainties](https://pythonhosted.org/uncertainties) .

Ein Beispiel illustriert die Anwendung:
```
from uncertainties import ufloat, umath
x = ufloat(1.0, 0.1)
y = ufloat(2.0, 0.1)
r = umath.sqrt(x**2 + y**2)
print( r ) 
```

Lassen Sie den Code in der Zelle unten laufen und zeigen Sie, dass das
Ergebnis korrekt ist ! 
Bemerkenswert ist noch, dass die *print()*-Funktion die korrekt gerundete
Ausgabe erzeugt, also die Genauigkeit des ausgegebenen Wertes der der auf
zwei Stellen gerundeten Unsicherheit entspricht.

In [None]:
# Code hier eingeben:
# -->

**Kurze Begründung, warum Sie dem Ergebnis des Programms trauen** 
->



---
### 2.4 Das Fehlerfortpflanzungsgesetz bei korrelierten Unsicherheiten 
--- 


Bisher haben wir unabhängige Messungen betrachtet und konnten daher den Kovarianz-Term 
in der obigen Formel für die Summe von zwei Zufallsvariablen zu Null setzen. Dies
ändert sich, wenn die Messgrößen gemeinsame Unsicherheiten haben, z. B. eine oben schon
besprochene zusätzliche, allen Messungen gemeinsame systematische Unsicherheit. 

Eine gemeinsame Fehlerkomponente führt dazu, dass Abhängigkeiten zwischen den
beobachteten Werten von Größen entstehen: ist die eine zu groß, so steigt auch
die Wahrscheinlichkeit, dass eine zweite Variable zu groß gemessen wird - man
nennt dies eine "positive Korrelation". Eine negative Korrelation bedeutet, dass
für die zweite Variable mit höherer Wahrscheinlichkeit ein zu kleiner Wert gemessen
wird, wenn der Wert der ersten zu groß war. Ein Beispiel dafür ist die Anpassung einer
Ausgleichsgeraden $y=ax+b$ an Messwerte. Wird die Steigung $a$ der Gerade größer, so wird ihr
$y$-Achsenabschnitt $b$ kleiner (und umgekehrt), die beiden Größen sind negativ korreliert. 
Bei zwei unabhängigen Variablen kann man aus dem Wert der ersten keine Information über die zweite Variable gewinnen (und umgekehrt), die Korrelation ist exakt Null. 

Zur Behandlung systematischer Unsicherheiten ist ein Verständnis der Kovarianzmatrix
unerlässlich; daher beschäftigen wir uns etwas eingehender damit.

#### 2.4.1 Kovarianz, Kovarianz- und Korrelationsmatrix 
---


Als Maß für den Zusammenhang zwischen zwei Zufallsgrößen $x_1$ und $x_2$ dient die
Kovarianz. Sie ist definiert als das Produkt der Abweichungen vom Erwartungswert
der ersten und zweiten Zufallsgröße:

$\mathrm{cov}(x_1, x_2) = \left< (x_1 - \left< x_1\right>) \, (x_2 - \left< x_2\right>) \right>.$

Die Kovarianz ist entsprechend zur Varianz $\mathrm{V}$ einer einzelnen Variablen konstruiert. 
Es gilt $\mathrm{cov}(x_1, x_1) = \mathrm{V}_{x_1}$. Für unabhängige Variablen verschwindet die
Kovarianz; sie kann maximal den Wert $\sqrt{\mathrm{V}_1 \cdot \mathrm{V}_2} = \sigma_1 \cdot \sigma_2$ annehmen.
Wenn es mehrere Variable gibt, werden paarweise Werte für die Kovarianz berechnet;
dann erhält man die sogenannte Kovarianzmatrix 

${\bf V} = (\mathrm{V}_{ij}) = \left( \mathrm{cov}(x_i, x_j) \right).$

Übersichtlicher ist eine Vektor-Schreibweise mit dem Variablen-Vektor $\vec{x}$:

${\bf V} = \bigl< \bigl( \vec{x} - \left< \vec{x} \right> \bigr) \,
 \bigl(\vec{x} - \left< \vec{x} \right> \bigr)^T \bigr>
 = \left< \vec{x}\vec{x}^T\right> \, - \, \left< \vec{x}\right> \left<\vec{x}\right>^T $

Als quadratische Größe ist die Kovarianzmatrix wegen des typischerweise großen Wertebereichs
der Matrixelemente nur schwer zu überblicken. 
Man verwendet daher eine geeignete Normierung und erhält die Matrix der Korrelationen, 
deren Elemente $\rho_{ij}$ Werte zwischen $-1$ und $1$ annehmen:

$\bigl( \rho_{ij} \bigr) \,=\, \Bigl (\frac{ \mathrm{V}_{ij} } {\sigma_i\,\sigma_j} \Bigr)$

Zum besseren Verständnis mag ein Beispiel helfen. Wir erzeugen dazu Zufallsgrößen mit
unabhängigen und gemeinsamen Fehlern:

#### 2.4.2 Beispiel und grafische Darstellung von Kovarianz und Korrelation
---


Zwei Messungen $m_i$ werden modelliert als Summe aus dem wahren Werte $w_i$, einem *unabhängigen* zufälligen Anteil $z_i$ und einem *gemeinsamen* zufälligen Anteil $z_g$:

> $m_1 = w_1 + z_1 + z_g$ 
 $m_2 = w_2 + z_2 + z_g$ 

Zur Veranschaulichung wählt man ein sogenanntes "Streudiagramm" (engl.: "scatter-plot"), 
wie es in *matplotlib.pyplot.scatter()* implementiert ist. Hier einige Zeilen Code dazu:
```
import numpy as np, matplotlib.pyplot as plt

def scatterplot(x, y):
 plt.figure(figsize=(7.5,7.5)) 
 plt.scatter(x, y)
 plt.show()
```

Nach dem Import der notwendigen Pakete erzeugen wir drei Felder mit je 250
standard-normalverteilten Zufallsgrößen. Durch Multiplikation mit vorgegebenen
Werten für die jeweiligen Unsicherheiten und Addition zu den angenommenen wahren
Werten der Messgrößen mit *m1* und *m2* erhalten wir simulierte Messwerte.
Zusammengefasst in einer *python*-Funktion sieht das so aus:
```
def plot_correlation(w1, w2, sig1, sig2, sigg):
# Zufallszahlen erzeugen
 zg = np.random.randn(250)
 z1 = np.random.randn(250)
 z2 = np.random.randn(250)
# simulierte Messwerte erzeugen
 m1 = w1 + sig1*z1 + sigg*zg
 m2 = w2 + sig2*z2 + sigg*zg
# graphische Darstellung
 scatterplot(m1, m2)
```

Bitte den obigen Code in einer eigenen Zelle eingeben. 
In einer neuen Zelle werden dann die Werte definiert und die grafische Darstellung
aufgerufen:
```
w1 = 5.
sig1 = 1.
w2 = 5. 
sig2 = 1.
sigg = 0.
plot_correlation(w1, w2, sig1, sig2, sigg)
```

Es ist nützlich, den Korrelationskoeffizienten berechnen zu lassen.
Die Elemente der Kovarianzmatrix sind
> $\mathrm{V}_{11} = \sigma_1^2 + \sigma_g^2$ 
 $\mathrm{V}_{22} = \sigma_2^2 + \sigma_g^2$ 
 $\mathrm{V}_{12} = V_{21} = \sigma_g^2\,$;

damit ist der Korrelationskoeffizient $\rho$ der beiden Messungen
> $\displaystyle\rho = \frac{\mathrm{V}_{12}}{\sqrt{\mathrm{V}_{11}*\mathrm{V}_{22}}}\,$.

Der folgende Code erledigt die Berechnung von $\rho$:
```
rho = sigg*sigg / np.sqrt( (sig1**2 + sigg**2) * (sig2**2+sigg**2))
print ('Korrelationskoeffizient rho = ', rho)
```

Es ist hilfreich, diese Zeilen vor der Darstellung der Grafik einzufügen,
um den Wert des Korrelationskoeffizienten mit der Form der Punktewolke 
in Verbindung zu setzen. 

In [None]:
# eigenen Code hier zur Erzeugung der Zufallszahlen
# und zur Darstellung des Streudiagramms hier eingeben:
# -->

Geben Sie in der folgenden Code-Zelle verschiedene Werte für w1, w1, sig1, sig2 und sigg vor
(in der Größenordnung von z. B. 0., 0.5, 1.0, 1.5), berechnen Sie jeweils den Korrelationskoeffizienten
$\rho$ und schauen sich das Streudiagramm für verschiedene Werte von $\rho$ an.

In [None]:
# hier Werte für w1, w2, sig1, sig2 und den gemeinsamen Fehler sigg eingeben
# -->


# hier Formel zur Berechnung des Korrelationskoeffizienten eingeben
# -->

**Dokumentation des Ergebnisses** 
Beschreiben Sie hier kurz die Form der Punktewolke im Streudiagramm für
> rho = 0. 
 rho = 1. 
 rho = 0.5 
 rho = 0.75 
 rho = 0.9 


#### 2.4.3 Konstruktion der Kovarianzmatrix
---


Wir fassen kurz die Eigenschaften der Kovarianzmatrix ${\bf V}$ zusammen:

 - ${\bf V} = \left(\mathrm{V}_{ij}\right)$ ist eine symmetrische Matrix
 - sie hat die Dimension $N$, die der Anzahl der Messwerte entspricht
 - für unabhängige Messwerte ist die Matrix diagonal
 - die Nebendiagonalelemente $V_{ij},\,{\small i\ne j}$ lassen sich verstehen als
 das Produkt der gemeinsamen Unsicherheiten $\sigma^g_i$ und $\sigma^g_j$ der 
 Messungen $i$ und $j$. 

Der letzte Punkt verdient eine kurze *Diskussion*: 
>Wir hatten das Kovarianzelement folgendermaßen definiert: 
>
>$\mathrm{V}_{ij}=\left< (x_i - \left< x_i\right>) \, (x_j - \left< x_j\right>) \right>\,.$
>
>Wir denken uns nun den Zufallswert der $x_{i,j}$ zusammengesezt aus einem wahren Wert $x^w_{i,j}$, 
einer Zufallsgröße $z_{i,j}$ und einer Zufallsgröße $z_g$, die $x_i$ und $x_j$ gemeinsam ist, 
also $x_i = x^w_i + z_i + z_g$ und $x_j = x^w_j + z_j + z_g$. 
>Weiter gilt $\left< x_{i,j}\right> = x^w_{i,j}$, der Erwartungswert der $x_{i,j}$ entspricht also dem wahren Wert. 
>
>Durch Einsetzen in die Formel für $\mathrm{V}_{ij}$ ergibt sich:
>
>$\mathrm{V}_{ij}=\left< (x^w_i + z_i + z_g - x^w_i) \, (x^w_j + z_j + z_g - x^w_j) \right>
 = \left< (z_i + z_g) \, (z_j + z_g) \right> $
> 
>Durch Ausmultiplizieren erhalten wir:
>
>$\mathrm{V}_{ij}=\left< z_i z_j + z_i z_g + z_j z_g + z_g^2 \right>
 = \left< z_i z_j \right>+\left+\left+\left$
> 
>Da $z_i$, $z_j$ und $z_g$ unabhängige Zufallszahlen sind, verschwinden die Erwartungswerte ihrer
Produkte. Lediglich der letzte Term ist ungleich Null. Damit ergibt sich schließlich
>
>$\mathrm{V}_{ij}\,=\,\left \,=\, \sigma_g^2\,.$
>
> Bei relativen Unsicherheiten gibt es eine weitere Besonderheit: die vollständig korrelierten
 Unsicherheiten können dennoch unterschiedliche Größen haben. Ein Beispiel dafür sind Längenmessungen
 mit einer Skalenunsicherheit - vollständige Korrelation bedeutet dann, dass zwei mit demselben 
 Gerät gemessene Werte um den gleichen relativen Anteil vom wahren Wert abweichen. In der Betrachtung
 von eben nehmen wir nun an, das $z_g$ standard-normalverteilte Zufallszahlen sind und
 schreiben $z^g_1 = z_g \cdot \sigma^g_1$ bzw. $z^g_2 = z_g \cdot \sigma^g_2$. Der letzte Term nimmt 
 dann die folgende Form an:
> 
>$\sigma^g_1 \, \sigma^g_2 \left< z_g^2 \right> = \sigma^g_1 \sigma^g_2 $
>
>Damit ist die Gültigkeit des letzten Punktes in der Liste oben gezeigt.
 
 Wir sind nun in der Lage, eine Konstruktionsvorschrift für die Kovarianzmatrix anzugeben:
 - Unsicherheiten der Messwerte werden nach verschiedenen Quellen aufgeschlüsselt
 - unabhängige Unsicherheiten jeder einzelnen Messung
 - allen oder Gruppen von Messungen gemeinsame absolute oder relative Unsicherheiten
 - die Quadrate der einzelnen Unsicherheiten werden in allen Elementen $\mathrm{V}_{ij}$ der Kovarianz-Matrix
 aufaddiert, die von dieser Unsicherheit betroffen sind
 - unabhängige Unsicherheiten stehen nur in den Diagonalelementen $\mathrm{V}_{ii}$;
 - korrelierte Unsicherheiten stehen zusätzlich in den betroffenen Nebendiagonalelementen.
 
Ein konkretes Beispiel dazu wird weiter unten untersucht. 
 

### 2.4.4 Das Fehlerfortpflanzungsgesetz mit korrelierten Messunsicherheiten
---


Bei der Herleitung des Fehlerforpflanzungsgesetzes für unabhängige, d.h. damit auch
unkorrelierte Messungen hatten wir gesehen, dass ein weitere Term auftritt, die Kovarianz der
Messwerte, den wir seinerzeit zu Null gesetzt hatten (siehe [Gleichung (2.1)](#Equ-2.1)). 
In den meisten Fällen führen aber allen Messungen einer Messreihe gemeinsame
systematische Unsicherheiten dazu, dass die Messwerte korreliert sind. Wir haben
oben gesehen, wie man diese Korrelationen mit Hilfe der Kovarianz oder des 
Korrelationskoeffizienten quantifiziert. Wenn man den Kovarianz-Term in [Gleichung (2.1)](#Equ-2.1)
nicht vernachlässigt, erhält man mit Hilfe der Kovarianzmatrix das Fehlerfortpflanzungsgesetz 
in allgemeiner Form:

$y = y(x_1, \ldots, x_n)$ 

> $\Rightarrow \sigma^2_{y} \simeq
 \displaystyle \sum_{i=1}^n \displaystyle\sum_{j=1}^n
\left( \frac{\partial y}{\partial x_i} \right)
 \mathrm{V}_{ij}
\left( \frac{\partial y}{\partial x_j} \right)\,$
 Gleichung (2.4)

Leichter zu merken ist vielleicht die kompaktere Darstellung in Vektor-Schreibweise
> $ {\large \sigma^2_{y} \simeq
 (\vec{\nabla}y({\small \vec{x}}))^T \, {\bf V} \,\vec{\nabla}y({\small \vec{x}}) }\,$
 Gleichung (2.5)


**Übung** zu 2.4.4 

Zeigen Sie, dass diese Darstellung für unkorrelierte Messungen, d. h. für eine Kovarianzmatrix mit verschwindenden Nebendiagonalelementen, zur früheren Formel für unabhängige Messungen ([Gleichung (2.3)](#Equ-2.3)) äquivalent ist.

**Kurze eigene Begründung:** 
-> 
 
 
---

Die schon früher betrachteten Spezialfälle für zwei Messwerte sehen für den 
allgemein Fall wie folgt aus:

$y=x_1 \pm x_2$ 
> $\Rightarrow \color{blue}{
 {\sigma_y}^2 = {\sigma_1}^2 + {\sigma_2}^2 \pm 2\, \mathrm{cov}(x_1,x_2) }$


$y=x_1 \cdot x_2 {\rm ~oder~} y = \frac{x_1}{x_2}$ 
> $\Rightarrow \color{blue} {
 \left( \frac{\sigma_y} {y} \right)^2 \simeq 
 \left( \frac{\sigma_1} {x_1} \right)^2 
 + \left( \frac{\sigma_2} {x_2} \right)^2
 \pm 2\frac{\mathrm{cov}(x_1,x_2)}{x_1 x_2} }$

Ein **Beispiel** soll die Bedeutung des Terms mit der Kovarianz illustrieren:

> $ y = x_1 - x_2$ 
 $\left< x_1 \right> = \left< x_2 \right> = 10.$ 
 $\sigma_1 = \sigma_2 = 1. $ 
 
Für $\rho = 0.$ ergibt sich $\sigma_y = 1.4$ 
Aber mit $\rho = 1. $ erhält man $\sigma_y = 0.$ !

__Anmerkung 1__: Dieses Beispiel ist nicht fiktiv, sondern hat tatsächlich 
eine wichtige technische Anwendung bei der Signalübertragung. Zusätzlich
zum eigentlichen Signal $s_+$ wird ein zweites, invertiertes Signal $s_- =-s_+$
übertragen ("differenzielle Signalübertragung"). 
Alle Störungen am Ende der Übertragungsstrecke sind für beide 
Signale zu einem hohen Grad korreliert. 
Das Nutzsignal wird durch Bilden der Differenz zurückgewonnen: 
$s_o = 0.5\,(s_+ - s_-)$; wegen der fast vollständigen Korrelation der
beiden Signalkomponenten ist die Unsicherheit des extrahierten Signals 
sehr klein, $\sigma_{s_o} \simeq 0\,$.

__Anmerkung 2__: In der älteren Literatur wird oft zur "konservativen" Abschätzung
von Messunsicherheiten die "Größtfehlermethode" empfohlen. Dabei werden statt der
Wurzel aus der Summe der Quadrate der einzelnen Unsicherheiten die Absolutbeträge
aufaddiert. Dies entspricht einer angenommenen Korrelation von 100% der einzelnen
Komponenten. In der Praxis tritt eine solch starke Korrelation aller Messwerte 
allerdings fast nie auf, daher wird die Unsicherheit mit der "Größtfehlermethode" 
fast immer zu groß abgeschätzt. Wenn Sie hohe Korrelationen der Unsicherheiten vermuten, sollten Sie diese realistisch abschätzen und die Formeln aus
diesem Kapitel verwenden!


---
#### 2.4.5 Korrelierte Variable im *uncertainties*-Paket


Das oben bereits eingeführte *python*-Paket *uncertainties* unterstützt auch die Fehlerfortpflanzung
bei korrelierten Unsicherheiten. Die notwendigen imports sind: 
```
import uncertainties as unc, numpy as np
```
Die Eingabe der Messgrößen und der korrelierten Unsicherheiten erfolgt mit der Zeile 
`(a,b) = unc.correlated_values([1. ,2.], cov_matrix)`

Vorher muss eine Kovarianzmatrix erzeugt werden:
```
cov_matrix = np.array([ [0.1**2, 0.2*0.1] ,
 [0.1*0.2, 0.2**2] ])
```
In diesem Beispiel sind die Unsicherheiten der beiden Messgrößen zu 100% korreliert. 
Die korrekte Eingabe überprüft man am besten durch eine Kontrollausgabe:
```
# Ausgabe zur Kontrolle
print('a=', a)
print('b=', b)
print('correlations \n', unc.correlation_matrix([a,b]))
```

Nun werden zwei Funktionen, die Summe und Differenz der Größen $a$ und $b$, berechnet und
ausgegeben:
```
# Summe und Differenz von zwei vollständig korrelierten Variablen
print('sum = ', a + b)
print('dif = ', b - a)
```
Geben Sie den Code in der Zelle unten ein. Begründen Sie kurz das Ergebnis.

In [None]:
# Code hier eingeben:
# -->

Das Ergebnis des Programms ist 
>sum = 3.00+/-0.30 
 dif = 1.00+/-0.10 

Die Unsicherheiten ergeben in diesem Fall als Summe bzw. Differenz der Unsicherheiten,
> $\sigma_s = \sigma_a + \sigma_b $ 
 $\sigma_d = |\sigma_a - \sigma_b|$
 
Warum ist das korrekt ? 

**Eigene Begründung hier** 
-> 



#### 2.4.6 Konstruktion einer Kovarianzmatrix an einem aufwändigeren Beispiel
---


Wir betrachten folgendes **Übungsbeispiel**: 
Sechs Personen in drei Zweiergruppen messen mit jeweils einem Messgerät pro Gruppe eine Größe $m_i, {\small i=1,\ldots,6}$. Es wird eine theoretische 
Korrektur benötigt, die eine Unsicherheit $\sigma_t$ hat. Die sechs Messwerte sind $m_i$=(0.82, 0.81, 1.32, 1.44, 0.93, 0.99). 
Damit gibt es drei Komponenten der Gesamtunsicherheit einer jeden Einzelmessung: 
> 1.) individuelle, unabhängige Messunsicherheiten $\sigma_u = 0.1$, 
 2.) Abweichungen der Messgeräte, die zu einer systematischen Unsicherheit $\sigma_{s}=0.15$ führen, vollständig korreliert in jeder der drei Zweiergruppen, 
 3.) eine Theorieunsicherheit $\sigma_t=0.05$, die für alle Messungen vollständig korreliert ist. 
 
Da alle Messungen von gleicher Qualität und Genauigkeit sind, 
wird als Endergebnis der Mittelwert $\bar{m}$ aller Messungen gebildet.
Wie groß ist die Unsicherheit des Mittelwerts $\sigma_\bar{m}$?
 
Damit wir die oben hergeleitete Formel verwenden können, konstruieren wir zunächst die
Kovarianzmatrix der Messungen $m_i$. 
Hier noch einmal zusammengefasst die Regeln:
 - die Diagonalelemente $\mathrm{V}_{ii}$ sind jeweils der quadrierte Gesamtfehler der Messung $i$
 - die Nebendiagonalen $\mathrm{V}_{ij},\,{\small i\ne j}$ enthalten die quadrierten, gemeinsamen
 Unsicherheiten der Messungen $i$ und $j$ 

Die Gesamtunsicherheit ergibt sich zu ${\sigma_g}^2 = {\sigma_u}^2 + {\sigma_s}^2 + {\sigma_t}^2$. 
Die Matrix sieht damit so aus:
>$$\displaystyle{{\bf V}\,=}
\left(
\begin{array}{cccccc}
\sigma_g^2 & \sigma_s^2+\sigma_t^2 & \sigma_t^2 & \sigma_t^2 & \sigma_t^2 & \sigma_t^2 \\
\sigma_s^2+\sigma_t^2 & \sigma_g^2 & \sigma_t^2 & \sigma_t^2 & \sigma_t^2 & \sigma_t^2 \\
\sigma_t^2 & \sigma_t^2 & \sigma_g^2 & \sigma_s^2+\sigma_t^2 & \sigma_t^2 & \sigma_t^2 \\
\sigma_t^2 & \sigma_t^2 & \sigma_s^2+\sigma_t^2 & \sigma_g^2 & \sigma_t^2 & \sigma_t^2 \\
\sigma_t^2 & \sigma_t^2 & \sigma_t^2 & \sigma_t^2 & \sigma_g^2 & \sigma_s^2+\sigma_t^2 \\
\sigma_t^2 & \sigma_t^2 & \sigma_t^2 & \sigma_t^2 & \sigma_s^2+\sigma_t^2 & \sigma_g^2 \\
\end{array} \right) $$

Man sieht deutlich die drei Blöcke, die den drei verwendeten Messgeräten entsprechen. 
Die Komponente $\sigma_t$ steckt in allen Elementen der Kovarianzmatrix. 

Wir berechnen nun die Unsicherheit des Mittelwerts $\bar{m}=\frac{1}{6}\sum_{j=1}^6 m_j$
mit Hilfe von [Gleichung (2.5)](#Equ-2.5). Die Berechnung des Gradienten von $\bar{m}$ ergibt
> $(\vec{\nabla}\bar{m})^T = \frac{1}{6}\,(1,1,1,1,1,1)$. 

Ausführen der Matrix-Multiplikation mit dem Gradienten von rechts und links ergibt
> $\sigma_\bar{m}^2 = \frac{1}{36}\sum_{i,j} \mathrm{V}_{ij}$, also die Summe über alle Elemente der Kovarianzmatrix. 

Wegen der recht einfachen Struktur der Kovarianzmatrix ist diese Summe leicht auszuführen:
$\sigma_u^2$ kommt 6 mal vor, $\sigma_s^2$ 12 mal und $\sigma_t^2$ 36 mal. Damit ergibt sich 
> $$\sigma_\bar{m}^2 \,=\, \sigma_t^2 \,+\, \sigma_s^2/3 \,+\, \sigma_u^2/6 = (0.108)^2\,, \, {\rm also}\, \sigma_\bar{m} = 0.108$$ 
 
Insgesamt ergibt sich also für den Mittelwert $\bar{m}=1.052\pm 0.108 \,$.

__Intuitive Überlegungen__
Dieses Ergebnis kann man auch intuitiv begründen. Wir erinnern uns, dass sich bei mehrmaligen, 
unabhängigen Messungen die Unsicherheit um einen Faktor reduziert, der der Wurzel aus der Anzahl
der Messugen entspricht. Damit wird die statistische Unsicherheit um den Faktor $\sqrt{6}$ kleiner
und die systematische, gerätebedingte Unsicherheit um den Faktor $\sqrt{3}$; die theoretische
Unsicherheit bleibt unverändert. Addiert man die drei Komponenten quadratisch, 
so ergibt sich $\sigma_\bar{m} = 0.108\,$.


**Übung** zum Beispiel aus [Abschnitt 2.4.6](#SubSec-BeispielKovarianzmatrix)

Da die Berechnung "von Hand" im allgemeinen mühsam ist, nutzt man zur Konstruktion
der Kovarianzmatrix den Computer und überlässt die Berechnung dann dem 
oben eingeführten *python*-Paket *uncertainties*.

Zur Konstruktion der Kovarianzmatrix helfen folgende Überlegungen:
 
Die Elemente der Kovarianzmatrix ${\bf V}_c$, die vollständig korrelierten Unsicherheiten $\sigma^c_i$ 
der Messungen $i, j,$ entsprechen, erhält man durch Bilden des dyadischen Produkts (manchmal auch: "äußeres Produkt", "Matrixprodukt") von Vektoren, bei denen nur die Elemente $i$ und $j$ ungleich Null sind:
 
 $\vec{\sigma}_c = (0., 0., \ldots, \sigma_i, \sigma_j, 0., \ldots, 0.)^T
 {\quad \rightarrow {\bf V}_c = \vec{\sigma}_c {\vec{\sigma}_c}^T} $
 ("Matrixprodukt von Spaltenvektor mit Zeilenvektor") 

Die Kovarianzmatrix ergibt sich als Summe von solchen dyadischen Produkten für alle Arten von
Unsicherheiten. Im Paket *numpy* ist das dyadische Produkt über die Funktion *numpy.outer(a, b)* verfügbar. 

Die Diagonalelemente der Kovarianzmatrix für die unabhängigen Unsicherheiten 
kann man mit der Funktion *numpy.diagflat() setzen. 

Eine Funktion zur komfortablen Konstruktion der Kovarianz-Matrix sieht z.B. so aus:
```
def BuildCovarianceMatrix(sig, sigc=[]):
 '''
 Construct a covariance matrix from independent and correlated uncertainty components

 Args: 
 * sig: iterable of independent uncertainties 
 * sigc: list of iterables of correlated uncertainties
 
 Returns: 
 covariance matrix as numpy-array
 '''
 
 # construct a numpy array with diagonal elements 
 su = np.array(sig)
 V = np.diagflat(su*su)

 # if given, add off-diagonal components
 if sigc != []:
 for s in sigc:
 sc = np.array(s)
 V += np.outer(sc, sc)
 return V
```
Diese Funktion ist dem Paket *PhyPraKit* entnommen; dort gibt es auch Funktionen zur
Konversion einer Kovarianz-Matrix in eine Korrelationsmatrix mit Gesamtunsicherheiten 
und umgekehrt.

Die Anwendung auf die gegebenen Daten sieht etwa wie folgt aus:
```
import uncertainties as unc, numpy as np, PhyPraKit as ppk

# the data
m = np.array([0.82, 0.81, 1.32, 1.44, 0.93, 0.99])
sig_u = 0.10 # independent uncertainties
sig_c = 0.05 # fully correlated uncertainties 
sig_s = 0.15 # systematic uncertainties for pairs of measurements

# construct vectors with error components
N = len(m)
su = sig_u * np.ones(N)
sc = sig_c * np.ones(N)
ss1 = np.array([sig_s, sig_s, 0., 0., 0., 0.])
ss2 = np.array([0., 0., sig_s, sig_s, 0., 0.])
ss3 = np.array([0., 0., 0., 0., sig_s, sig_s])
V = ppk.BuildCovarianceMatrix(su, [sc, ss1, ss2, ss3])

print('\nconstructed covariance matrix: \n', V)
err, C = ppk.Cov2Cor(V)
print('\ntotal uncertainties:\n', err)
print('correlation matrix: \n', C)
```

**Aufgabe:** Bauen Sie die Kovarianzmatrix für das Beispiel in 
[Abschnitt 2.4.6](#SubSec-BeispielKovarianzmatrix) auf und 
nutzen Sie das Paket *uncertainties* zur Berechnung des Mittelwerts und seiner Unsicherheit.
*Tipp:* *uncertainties* unterstützt *numpy*-*arrays*! Man kann also Variable vom Typ
*ufloat* mit *numpy*-Fuktionen nutzen. Hier ein Code-Fragment dazu:
```
import uncertainties as unc, numpy as np
unc_m = np.array( unc.correlated_values(m, V) )
mbar = unc_m.sum()/6.
print('Mittelwert und Unsicherheit: ', mbar)
```

In [None]:
# eigenen Code hier eingeben
# -->

---
---
## 3. Anpassung von Modellen an Messdaten und Parameterschätzung [^](#Inhalt)
----

Der Vergleich von Modellen mit Messungen gehört zu den Standardaufgaben in der
Experimentalphysik. Im einfachsten Fall stellt ein Modell eine Funktion dar, die
Vorhersagen für die in einem Experiment zu erwartende Messdaten liefert. Meist sind
diese Modelle keine absoluten Vorhersagen, sondern hängen von Modellparametern ab. 
Neben der Überprüfung, ob das Modell die Daten überhaupt beschreibt, gehört die
Bestimmung der Modellparameter zu den typischen Aufgaben. 

>Ein Beispiel für ein solches Modell ist der lineare Zusammenhang zwischen Stromstärke $I$ und 
Spannung $U$ an einem (idealen) ohmschen Widerstand. Der Modellparameter 
ist der elektrischer Leitwert $G$, Kehrwert des Widerstands $R$. Das Modell 
$I(U) = G\cdot U$ entspricht geometrisch einer Ursprungsgeraden im $I$-$U$-Diagramm. 
Eine solche Gerade wird den gemessenen Stromstärken bei gegebener Spannung angepasst. 
Die Steigung entspricht dem Modellparameter $G$.

Zur Funktionsanpassung wird häufig die Methode der kleinsten Quadrate
verwendet, mit der sich sehr elegant auch kompliziertere Situationen wie korrelierte 
Unsicherheiten der Messdaten oder Unsicherheiten in Abszissenrichtung zusätzlich zu denen
in Ordinatenrichtung behandeln lassen. 

Dieses Kapitel gibt einen kurzen Abriss der Methode und enthält praktische Hinweise 
und Übungen zur Funktionsanpassung mit Hilfe numerischer Methoden auf dem Computer.



### 3.1 Funktionsanpassung mit der Methode der kleinsten Fehlerquadrate


Zunächst muss die Übereinstimmung einer Funktion mit Messdaten quantifiziert werden. 
Ausgangspunkt sind $N$ Messpunkte $(x_i, y_i)$ und eine Funktion $f(x_i)$, die die Werte
der $y_i$ möglichst genau vorhersagen soll. Zur Definition eines Abstands der Funktion von
den Messpunkten gibt es einen Vorschlag von Carl Friedrich Gauß: 
$d := \sum (f(x_i) - y_i)^2$ ("Methode der Gauß'schen Fehlerquadrate").

Für Messdaten $y_i$ mit bekannten Unsicherheiten $\sigma_i$ wird der quadrierte Abstand
auf das Quadrat der Unsicherheit normiert. Beachten Sie, dass nur die Werte der Ordinate $y_i$ eine
Unsicherheit besitzen. Die Ordinatenwerte $x_i$ werden hier als exakt angenommen.
Außerdem soll die Funktion $f$ noch von einem Vektor $\vec{p} = (p_1, \ldots, p_k)$ 
der $k$ Modellparameter abhängig sein. Dann ergibt sich als 
parameterabhängiges Abstandsmaß die sogenannte Residuensumme 

> $ S = \displaystyle \sum_{i=1}^N \left( \frac{ f(x_i; \vec{p}) - y_i} {\sigma_i} \right)^2\,$ 
 Gleichung (3.1)

Nachdem eine Messung erfolgt ist, liegen die Messpunkte $(x_i, y_i)$ fest. Daher kann man die Summe der Residuen $S$ aus [Gleichung (3.1)](#Equ-3.1) als Funktion im $k$-dimensionalen Raum der Parameter $p_j$
auffassen. Durch Minimierung von $S(\vec{x}; \vec{p})$ bezüglich der Parameter $p_j$ erhält man
den Parametersatz $\hat{\vec{p}}$, für den die gewählte Funktion die Daten am besten beschreibt. 
Das Hutsymbol ^ deutet an, dass es sich um die besten Schätzwerte (nach der Methode der kleinsten
Fehlerquadrate) für die Parameter handelt. 

Diese Vorschrift lässt sich aus einem allgemeinen Prinzip der mathematischen Stochastik,
dem Likelihood-Prinzip ableiten, wenn die Messunsicherheiten einer Gauß-Verteilung unterliegen. 

Die Minimierung von $S$ kann in Spezialfällen analytisch erfolgen.
Dazu werden die partiellen Ableitungen von $S$ nach den Parametern $p_j$ zu Null gesetzt,
 $\frac{\partial S} {\partial p_j}=0 \, , \,{\small j=1, \ldots , k}\,$.
Für Probleme, die linear in den Parametern sind, also 
$f(\vec{x}; \vec{p})=\sum_{j=0}^k g_j(\vec{x})\, p_j$ mit beliebigen Funkionen $g_j$, 
gibt es eine analytische Lösung. Im allgemeinen verwendet man Methoden der numerischen
Optimierung zur Suche des Minimums im $k$-dimensionalen Parameterraum. In der Praxis
werden heute oft auch lineare Probleme durch numerische Verfahren gelöst.


---
#### 3.1.1 Beispiel einer Funktionsanpassung 


Als einfaches Beispiel betrachten wir zehn Messwerte $y_i$, jeweils mit der gleichen Unsicherheit $\sigma_i = \sigma$. 

```
y = [11.55, 9.8, 9.82, 9.15, 10.57, 9.58, 10.44, 10.55, 8.23, 10.93]
sig_y = 1. 
```
An diese Daten soll eine konstante Funktion $f(x; c) = c$ angepasst werden - dies entspricht
einer Mittelung der Daten. 

Das Abstandsquadrat scheibt sich in *Python* wie folgt:
```
import numpy as np
y = np.array(y) # konvertieren in Numpy-Array
def S(y, c):
 return ( ( ( y - c ) / sig_y )**2).sum()
```

Die Minimierung kann sehr einfach ausgeführt werden, indem man $S$ für verschiedene
Werte von $c_j$ bestimmt:
```
S_c = []
c_values = np.linspace(8, 12, 100)
for c in c_values:
 S_c.append(S(y, c))
```

Jetzt muss nur noch das Mimimum gefunden werden. Dabei hilft die Funktion `np.argmin()`:
```
id_min = np.argmin(S_c)
print("Mimimum bei ", c_values[id_min])
```
Damit ist das Minimierungsproblem numerisch gelöst! 

Illustrativ ist noch eine grafische Darstellung der Abhängigkeit $S(c)$:
```
# graphische Darstellung S(c)
import matplotlib.pyplot as plt
plt.figure()
plt.plot(c_values, S_c)
plt.xlabel('c')
plt.ylabel('S(c)')
plt.show()
```

**Übung zu 3.1.1** 
Fügen Sie die Code-Fragmente zusammen und führen Sie das Programm in der Zelle unten aus.


In [None]:
# eigenen Code hier eingeben:
# -->

---
#### 3.1.2 Analytische Lösung 


Das eben betrachtete einfache Problem lässt sich natürlich auch analytisch lösen. 

- $S(c)=\displaystyle \sum_{i=1}^{N=10} \frac{(y_i - c)^2} {\sigma^2}$
- $0 = \frac{dS}{dc} = \displaystyle \sum_{i=1}^{N} \frac{-2 (y_i -c)}{\sigma^2} $
 > $\Rightarrow \displaystyle {\hat c}=\frac{1}{N}\sum_{i=1}^{N} y_i $
 
 
Es ist wenig erstaunlich, dass wir als Ergebnis genau die Formel für den Mittelwert erhalten. 



---
#### 3.1.3 Mittelwert von Messungen mit unterschiedlichen Unsicherheiten

Wir nehmen nun wieder ${\small N=10}$ Messwerte $y_i$, diesmal aber mit unterschiedlichen
Unsicherheiten $\sigma_i$:
```
y = [11.55, 9.8, 9.82, 9.15, 10.57, 9.58, 10.44, 10.55, 8.23, 10.93]
sig_y = [0.8, 0.9, 0.9, 1.1, 1.0, 1.2, 0.7, 1.1, 1.0, 0.9] 
```
Wir erwarten, dass in diesem Fall Messwerte mit kleineren Unsicherheiten 
"wichtiger" für den Mittelwert sind als Messwerte mit größeren Unsicherheiten.

Betrachten wir die analytische Vorgehensweise von eben:

 - $S(c) = \displaystyle\sum_{i=1}^{N} \frac{(y_i -c)^2}{{\sigma_i}^2}$
 - $0= \frac{dS}{dc} = \displaystyle\sum_{i=1}^{N} \frac{2 (y_i -c)}{{\sigma_i}^2}$
 > $\Rightarrow {\hat c} = \frac{1}{\sum{1/\sigma_i}^2}
 \displaystyle\sum_{i=1}^{N}\frac{1}{{\sigma_i}^2}y_i $ 

Mit der Definition $ w_i \equiv \frac{1} {{\sigma_i}^2}$ erhalten wir als wichtiges
Ergebnis die Formel für den *gewichteten Mittelwert*:
> ${\hat c}= \frac{1} {\sum {w_i}} \displaystyle\sum_{i=1}^{N} {w_i} y_i$ 

Der Mittelwert ist die mit $1/\sigma_i^2$ gewichtete Summe der Einzelmessungen. 
Die Gewichte entsprechen der obigen Erwartung: Messwerte mit den kleinsten $\sigma_i$
bekommen bei der Mittelwertbildung das größte Gewicht. Am Vorfaktor $1/\sum w_i$ kann
man ablesen, dass die Zahl der Messwerte $N$ in diesem Fall durch die Summe der Gewichte
$\sum w_i$ ersetzt werden muss.
 
Das Paket *PhyPraKit* enthält eine Funktion zur Berechnung des gewichteten Mittelwerts: *wmean(x, sx)*.

**Übung zu 3.1.2** Probieren Sie *PhyPraKit.wmean()* in der Code-Zeile unten aus: 

In [None]:
from PhyPraKit import wmean

# eigenen Code hier eingeben
# -->

---
### 3.2 Bestimmung der Parameterunsicherheiten 
---

Nachdem wir einige Beispiele für analytische und numerische Anpassungen gesehen haben, widmen
wir uns nun der Frage, wie man die Unsicherheiten der Parameter bestimmen kann. 

Wieder soll ein konkretes numerisches Beispiel den Einstieg bilden. Wir kommen dazu 
auf [Beispiel 3.1.1](#SubSec-BeispielFunktionsanpassung) zurück,
die Anpassung einer Konstanten an Messdaten. Wir setzen alle Messdaten auf einen festen Wert,
z.B. 10, und studieren den Verlauf von $S(c)$ als Funktion des Werts von $c$ für verschiedene 
Unsicherheiten $\sigma_y$. Damit das wiederholte Aufrufen von Berechnung und grafischer Darstellung
übersichtlicher wird, sind im folgenden Beispiel entsprechende Funktionen definiert:
```
import numpy as np, matplotlib.pyplot as plt

def calc_S(cs):
 ''' Berechnung der Residuen-Summen'''
 Sc=[]
 for c in cs:
 Sc.append((((y - c)/sig_y)**2).sum())
 return np.array(Sc)

def plot_S(x, y):
 ''' Grafische Darstellung '''
 plt.figure()
 plt.plot(x, y)
 plt.xlabel('c')
 plt.ylabel('S(c)')
 plt.ylim(0, 10.)
 plt.show()
```

Im Hauptteil des Programms werden nun noch die Daten gesetzt und
dann die Grafik für verschiedene Werte der Unsicherheit ausgeführt:
```
y = 10*np.ones(10)
c_values = np.linspace(9, 11, 100)

sig_y = 1.
plot_S(c_values, calc_S(c_values))

sig_y = 0.5
plot_S(c_values, calc_S(c_values))

sig_y = 0.2
plot_S(c_values, calc_S(c_values))
```

Geben Sie den Code in die Zelle unten ein, führen ihn aus und schauen die Grafiken an.

In [None]:
# Code von oben hier eingeben:
# -->

Wir beobachten, dass $S(c)$ einen parabolischen Verlauf hat, wobei das Minimum der Parabel
mit kleiner werdenden Unsicherheiten $\sigma_y$ immer schärfer wird. Offensichtlich bedeutet
ein schärferes Minimum, d. h. eine größere Krümmung, dass der Parameter genauer bestimmt ist. 
Die Krümmung einer Parabel am Minimum ist gegeben durch die 2. Ableitung. Wir vermuten daher,
dass die Krümmung direkt mit dem Kehrwert der Varianz verknüpft ist:

$\displaystyle{\frac{1}{\mathrm{V}_c} = \frac{1}{\sigma_c^2} \propto \left. \frac{\partial^2 S(c)}{\partial c^2} \right|_\hat{c}}$

Über den Wert der Proportionalitätskonstanten können wir an dieser Stelle keine allgemeine Aussage treffen.
Wenn wir allerdings die analytische Lösung im Beispiel aus [Abschnitt 3.1.2](#SubSec-AnalytischeLoesung) 
zu Rate ziehen und die zweite Ableitung bilden, erhalten wir 

$\displaystyle\left. \frac{\partial^2 S(c)}{\partial c^2} \right|_\hat{c} = \frac{2N}{\sigma_y^2}$. 

Da der Schätzwert $\hat{c}$ der Mittelwert der Größen $y_i$ ist, können wir auf frühere Betrachtungen zurückgreifen und 
feststellen, dass $\sigma_{\hat c}^2 = \frac{\sigma_y^2}{N}$ ist. 
In diesem Beispiel ergibt sich der Proportionalitätsfaktor durch Koeffizientenvergleich also zu $\frac{1}{2}$. Man kann zeigen, dass dies auch allgemein gilt. 

Wenn es mehrere Parameter $p_j$ gibt, lässt sich das Ergebnis weiter verallgemeinern. Die Matrix der partiellen Ableitungen bestimmt die entsprechenden Elemente der Inversen der Kovarianzmatrix der Parameter:
> $\displaystyle{\left( {{\bf V}_\hat{p}}^{-1} \right)_{ij} 
 = \frac{1}{2}\,\left.\frac{\partial^2 S(\vec{p})}{\partial p_i\partial p_j}
 \right|_{\hat{p_i}\hat{p_j}}}$
 Gleichung (3.2)


---
### 3.3 Beurteilung der Qualität einer Anpassung 
---

Bei jeder Anpassung stellt sich die Frage, ob das gewählte Modell überhaupt passt. In der Physik ist die
Form des Modells sehr häufig durch theoretische Überlegungen vorgegeben, oder eine Messung wird explizit
dazu durchgeführt, ein angenommenes Modell zu überprüfen. Daher ist die Frage, "wie gut" die Daten durch
das Modell beschrieben werden, von zentraler Bedeutung. 

Wir nähern uns dieser Frage, indem wir die zur Anpassung verwendete Residuensumme, 
[Gleichung (3.1)](#Equ-3.1), noch einmal genau anschauen: 
$ S = \displaystyle \sum_{i=1}^n \left( \frac{ y_i - f(x_i; \vec{p}) } {\sigma_i} \right)^2\,$ 

Wenn die Unsicherheiten gaußförmig sind und das Modell richtig ist, entspricht die Modellvorhersage 
$f(x_i; \vec{p})$ dem wahren Wert $y_i^w$. Der Term in der Summe wird dann zu $((y_i - y_i^w)/\sigma_i)^2$.
Wenn $y_i$ gaußverteilt ist, dann ist $(y_i -y_i^w)/\sigma_i$ symmetrisch um Null verteilt und
die Standardaweichung ist Eins; es handelt sich also um eine standard-normalverteilte Größe. 
Die Verteilung der Summe der Quadrate von standard-normalverteilten Zufallszahlen nennt man
$\chi^2$-Verteilung mit $n_f$ Freiheitsgraden. Sie ist analytisch bekannt; ihr Erwartungswert 
ist $n_f$ und ihre Varianz 2$n_f$.

Die Zahl der Freiheitsgrade in einer Anpassung mit $N$ Datenpunkten und $k$ Parametern ist $n_f=N-k$. Der Wert von $S$ am Mimimum, also für die besten Schätzwerte der Parameter, folgt einer $\chi^2$-Verteilung.

Mit dieser Kenntnis lässt sich mit Hilfe der $\chi^2$-Verteilung die Wahrscheinlichkeit angeben, einen 
noch größeren Wert von $S$ als den tatsächlich beobachteten zu finden. Ist diese Wahrscheinlichkeit klein,
so ist die Anpassung schlecht; erwartet wird ein typischer Wert von 0.5.


**Übung** zu [Abschnitt 3.3](#Sec-Fitqualität)

Die $\chi^2$-Verteilung ist im Paket *scipy* enthalten, *scipy.stat.chi2.pdf(S, nf)*, die kumulative Verteilungsfunktion dazu ist *scipy.stats.chi2.cdf(S, nf)*. Mit deren Hilfe berechnet man die $\chi^2$-Wahrscheinlichkeit mittels `chi2prob = 1. - scipy.stat.chi2.cdf(S, nf)`. Das Paket *PhyPraKit* enthält die Funktion *chi2prob()* für diesen Zweck.

a) Schauen Sie sich mit Hilfe der genannten Funktionen den Verlauf der $\chi^2$-Verteilung für verschiedene Anzahlen von Freiheitsgraden $(n_f=2$ bis $n_f=10)$ an. 

Hier eine Hilfestellung zum Code:
```
# grafische Darstellug der Chi2-Funktion

import numpy as np, matplotlib.pyplot as plt
from scipy.stats import chi2

s = np.linspace(0, 25 ,100)
nf = 0
plt.figure(figsize=(10.,7.5))
plt.xlabel('S')
plt.ylabel('chi2 pdf')
for nf in range(0,10):
 plt.plot(s, chi2.pdf(s,nf),'-')
plt.show()
```
b) Stellen Sie auch die $\chi^2$-Wahrscheinlichkeit grafisch dar. Eine besonders
aussagekräfige Darstellung erhalten Sie, wenn Sie die $\chi^2$-Wahrscheinlichkeit gegen $S/n_f$
auftragen.


In [None]:
# Code hier eingeben
# -->

---
### 3.4 Verfahren und Programmpakete zur Parameteranpassung 
---

Wir hatten in [Abschnitt 3.1](#Sec-Funktionsanpassung) gesehen, dass durch Minimierung der 
Residuensumme und Bestimmung der zweiten Ableitungen Schätzungen der Parameter von angepassten 
Modellen und die Bestimmung der Parameterunsicherheiten möglich sind.

Für einfache Modelle, insbesondere solche, bei denen das Modell linear in den Parametern ist, kann die Minimierung mit Methoden der Analysis ausgeführt werden, d. h. man erhält als Ergebnis fertige Formeln, mit denen die besten Schätzwerte der Parameter und ihrer Unsicherheiten berechnet werden können. 

Für nichtlineare Modelle oder unter Annahme komplexerer Unsicherheiten - z. B. auch Unsicherheiten in Richtung
der Abszisse ("x-Fehler") statt lediglich in der Ordinatenrichtung, muss die Minimierung mit numerischen Methoden ausgeführt werden. 

Für beide Vorgehensweisen hatten wir schon einfache Beispiele diskutiert. Die allgemeine Lösung für
lineare Modelle wird in [Abschnitt 3.4.1](#SubSec-LineareModelle) vorgestellt.
In [Abschnitt 3.4.2](#SubSec-Programmpakete) werden dann Programmpakete für numerischer
Verfahren beschrieben.

Zunächst soll aber noch eine Erweiterung der Residuensumme besprochen werden, die es ermöglicht, auch Anpassungen an korrelierte Messwerte vorzunehmen. Dazu schreiben wir die Residuensumme ([Gleichung (3.1)](#Equ-3.1)) in vektorieller Form, mit dem Vektor $\vec{y}$ der Messwerte sowie dem Vektor $\vec{x}$ der Messpunkte und dem Parametervektor $\vec{p}$. Die Unsicherheiten werden repräsentiert durch eine Kovarianzmatrix ${\bf V}$ mit den Elementen $\sigma_i^2$ in der Diagonalen. Damit ergibt sich die allgemeine Darstellung der Residuensumme

> $S(\vec{y}, \vec{p}) = \left( \vec{y} - \vec{f}(\vec{x},\vec{p} )\right)^T 
 \, {\bf V^{-1}} 
 \left( \vec{y} - \vec{f}(\vec{x},\vec{p} )\right)\, $ 
 Gleichung (3.3) 

Dieses zunächst rein formale Umschreiben ist tatsächlich auch die korrekte Darstellung, wenn die Kovarianzmatrix nichtverschwindende Nebendiagonalelemente enthält. Begründbar ist dies durch die Betrachtung der Gaußverteilung für mehrere, auch korrelierte Zufallsvariablen, bei der genau dieser Term im im Argument der Exponentialfunktion auftritt. 


#### 3.4.1 Analytische Lösung zur Anpassung linearer Modelle 
---


Im Rahmen dieses Hands-On-Tutoriums ist nur eine verkürzte Darstellung des theoretischen Hintergrunds 
möglich. Eine detailliertere Diskussion mit ausführlicher Herleitung findet sich im Skript
[Funktionsanpassung mit der $\chi^2$-Methode](http://www.etp.kit.edu/~quast/Skripte/Chi2Method.pdf)

Wir betrachten Modelle für die Messwerte der Form
${f_i}=\sum_{j =1} ^k g_j(x_i)\cdot p_j \,, \,\, {\small i=1,\ldots,N}$.
Dies lässt sich kompakt in Vektor- und Matrixschreibweise
darstellen: 
 > $A_{ij} := g_j(x_i) \, \Rightarrow \, \vec{f}( \vec{x}, \vec{p} ) = {\bf A}(\vec{x})\vec{p}$
 
Unter Verwendung von [Gleichung (3.3)](#Equ-3.3) ergibt sich folgende Darstellung für die Residuensumme: 
 
> $S(\vec{p})=(\vec{y} - {\bf A} \vec{p})^T \, {\bf V}^{-1} (\vec{y} - {\bf A} \vec{p})$

Die Minimierungsaufgabe sieht dann wie folgt aus: 

> $\nabla_p S(\vec{p})=0$, bzw. etwas ausführlicher 

> $\nabla_p S(\vec{p})=\nabla_p \left( (\vec{y} - {\bf A} \vec{p})^T \, {\bf V}^{-1} (\vec{y} - {\bf A}\vec{p})\right) = 0$

Das Ausführen der Ableitung führt auf eine Matrixgleichung für den Parametervektor $\vec{p}$, die sich 
mit etwas linearer Algebra (und recht viel Schreibarbeit) analytisch lösen lässt. Für den Vektor der besten Parameterschätzungen $\hat{\vec{p}}$ ergibt sich der kompliziert anmutende Matrixausdruck 

> $\hat{\vec{p}} = ({\bf A}^T {\bf V}^{-1}{\bf A})^{-1} \, {\bf A}^T {\bf V}^{-1}\, \vec{y}\,$ 
 Gleichung (3.4a) 

Letzten Endes handelt es sich im Ergebnis allerdings lediglich um eine Linearkombination der Messwerte $y_i$.

Die Kovarianzmatrix der Parameter ergibt sich zu

> ${\bf V}_{\hat{p}}=\left ({\bf A}^T {\bf V}^{-1} {\bf A}\right)^{-1}\,$
 Gleichung (3.4b) 


#### Spezialfall 1: Lineare Regression für unabhängige Messungen

Eine sehr häufig vorkommende Anwendung der obigen Formeln ist die einfache Geradenanpassung ("lineare Regression") an unkorrelierte Messdaten. In diesem Fall sind die Matrizen ${\bf A}$ und ${\bf V}$ gegeben durch:

${\bf A} \,=\, \left( \begin{array}{cc} 
 1 & x_1 \\
 \ldots & \ldots \\
 1 & x_N \\ 
 \end{array} \right)\,, 
\quad$
$ {\bf V}^{-1} \,=\, \left( \begin{array}{ccccc} 
 \frac{1}{\sigma_1^2} & 0 & \ldots & 0 & 0 \\
 0 & \ldots & \frac{1}{\sigma_i^2} & \ldots & 0 \\ 
 0 & 0 & \ldots & 0 & \frac{1}{\sigma_N^2} \\
 \end{array} \right)
$

Durch Einsetzen in die allgemeine Lösung oben erhält man mit der Einführung einiger Abkürzungen 

$$\begin{array}{lclcl}
S_{1~} =~\sum_{i=1}^N \frac{1}{\sigma_i^2}\,, & &
S_{x~} =~ \sum_{i=1}^N \frac{x_i}{\sigma_i^2} \,,& &
S_{y~} =~ \sum_{i=1}^N \frac{y_i}{\sigma_i^2} \,,\\[0.3pc]
S_{xx} =~ \sum_{i=1}^N \frac{x_i^2}{\sigma_i^2} \,,& &
S_{xy} =~ \sum_{i=1}^N \frac{x_i\,y_i}{\sigma_i^2} \,, & &
D_{~~} = {S_1 S_{xx}-S_x^2}
\end{array}$$

die spezielle Lösung 

$$\begin{array}{ccc c c c c }
\hat p_1&=&\frac{S_{xx}S_y-S_xS_{xy}}{D}\,, & & 
{\sigma_{p_1}}^2=\frac{S_{xx}}{D}\,, \\[0.3pc]
\hat p_2&=&\frac{S_1S_{xy}-S_xS_y}{D}\,, & &
{\sigma_{p_2}}^2=\frac{S_{1}}{D}\,, & & 
V_{12}=\frac{-S_{x}}{D}\,. \\
\end{array}$$
 
Sicher verstehen Sie nun, warum Anpassungen in der Vergangenheit als schwierig galten.
Über lange Zeit waren die hier gezeigten Formeln die Basis von Modellanpassungen, und
viele historische Methoden beruhten auf einer "Linearisierung" des Problems, also
der Anwendung von Funktionen auf die Daten, um sie auf eine Geradenform zu transformieren.
Ein Beispiel dafür ist die logarithmische Darstellung von exponentiellen Zusammenhängen.
Dabei wurde allerdings außer acht gelassen, dass nicht nur die Daten selbst, sondern auch
ihre Unsicherheiten transformiert werden müssten. Nach der Transformation sind die
Unsicherheiten im allgemeinen nicht mehr gaußförmig, und die Voraussetzungen zur 
Anwendung der Methode der kleinsten Quadrate sind eigentlich nicht mehr erfüllt. 
Wurde aber trotzdem so gemacht ...

Sie könnten nun versuchen, die obigen Formeln selbst zu implementieren. Sollten Sie eine
einfache lineare Regression benötigen, können Sie auf die Implementierung in 
*PhyPraKit.linRegression(x, y, sy)* zurückgreifen. Oder Sie lesen weiter und
nutzen eines der im nächsten Unterkapitel beschriebenen, auf numerischen Methoden
basierenden Programmpakete. 

Zum **Üben** hier ein Beispiel einer Geradenanpassung mit *PhyPraKit.linRegression()*.
Schauen Sie sich zunächst den Code der Funktion *linRegression* an; mit *numpy* ist
die Implementierung doch gar nicht so schwer !?

```
def linRegression(x, y, sy):
 """
 linear regression y(x) = ax + b 

 method: 
 analytical formula

 Args:
 * x: np-array, independent data
 * y: np-array, dependent data
 * sy: scalar or np-array, uncertainty on y

 Returns:
 * float: a slope
 * float: b constant
 * float: sa sigma on slope
 * float: sb sigma on constant
 * float: cor correlation
 * float: chi2 \chi-square
 """ 
 
 # calculate auxilary quantities
 S1 = sum(1./sy**2)
 Sx = sum(x/sy**2)
 Sy = sum(y/sy**2)
 Sxx = sum(x**2/sy**2)
 Sxy = sum(x*y/sy**2)
 D = S1*Sxx-Sx**2

 # calculate results:
 a = (S1*Sxy-Sx*Sy)/D # slope
 b = (Sxx*Sy-Sx*Sxy)/D # constant
 sa = np.sqrt(S1/D)
 sb = np.sqrt(Sxx/D)
 cov = -Sx/D
 cor = cov/(sa*sb)
 chi2 = sum(((y-(a*x+b))/sy)**2)

 return a, b, sa, sb, cor, chi2
```

Und hier der Code zum Ausprobieren; das ist schon ein relativ komplettes 
Beispiel mit Darstellung der Daten und passenden Beschriftungen.

```
# Beispiel zur Anwendung von linRegression(x, y, sy)
import numpy as np, matplotlib.pyplot as plt

# die Daten
x = np.array([ 1., 2., 3., 4., 5., 6., 7., 8., 9., 10.])
y = np.array([1.46, 1.4, 1.87, 2.10, 2.60, 2.87, 3.03 , 3.93, 4.04, 4.08])
sy = np.array([0.07, 0.07 , 0.09, 0.10, 0.12,0.13, 0.15, 0.17, 0.18, 0.20])

# Fit ausführen und Ergebnis speichern
a, b, sa, sb, cor, chi2 = linRegression(x, y, sy)

# Daten und Modell anzeigen 
plt.errorbar(x, y, yerr=sy, fmt='x',label='Übungsdaten')
plt.plot(x, a*x+b, '-', label='angepasste Gerade')
plt.xlabel('x')
plt.ylabel('measurements y')
plt.legend()
plt.show()
```


In [None]:
# Code von oben hier eingeben:
# -->

**Spezialfall 2: Anpassung einer Konstanten: Mittelwertbildung**

Die Mittelwertbildung entspricht der Anpassung einer konstanten Funktion $y_i = \bar{m}$. 
In diesem Fall wird die Matrix ${\bf A}$ in [Gleichung (3.4a)](#Equ-3.4a) zu einem Vektor: 
${\bf A} = {\small (1, \ldots , 1)^T }$, und man erhält folgendes Ergebnis:

> $ \bar{m} = \frac{1}{\sum_{i,j} \left( {\bf V}^{-1} \right)_{ij}}
 {\sum_{i,j} \left( {\bf V}^{-1} \right)_{ij}x_j}\,$
 Gleichung (3.5a) 
 
Für die Varianz ergibt sich:
> ${\bf V}_\bar{m} = \frac{1}{\sum_{i,j} \left( {\bf V}^{-1} \right)_{ij}}\,$
 Gleichung (3.5b) 
 
 Glleichungen (3.5a,b) sind die Verallgemeinerung für korrelierte Messungen des schon in 
 [Abschnitt 3.1.2](#SubSec-AnalytischeLoesung) hergeleiteten Ergebnisses für unabhängige 
 Messungen. Man kann es sich leicht merken:
 in beiden Fällen ist der Mittelwert eine gewichtete Summe, 
 $\bar{m}= \left( \sum w_i \right)^{-1} \sum w_i x_i $, wobei die Gewichte die 
 Elemente der Inversen der Kovarianzmatrix sind. 
 
 Eine Implementierung findet sich in *PhyPraKit.wmean()*. 
 
Probieren Sie folgendes **Übungsbeispiel** aus:
```
import numpy as np, PhyPraKit as ppk

# Daten und Unsicherheiten
m = np.array([0.82, 0.81, 1.32, 1.44, 0.93, 0.99])
sig_u = 0.1 # unabhängig
sig_s = 0.15 # korreliert für Messungen (1,2), (3,4) und (5,6)
sig_t = 0.05 # korreliert für alle Messungen

# Konstruktion der Komponenten für die Kovarianzmatrix
sys_x= [[sig_t, sig_t, sig_t, sig_t, sig_t, sig_t],
 [sig_s, sig_s, 0. ,0. ,0. ,0.], 
 [0., 0., sig_s, sig_s, 0., 0.], 
 [0., 0., 0., 0., sig_s, sig_s] ]
stat_x = sig_u * np.ones(6)

# Zusammenbauen der Kovarianzmatrix incl. der unabhängigen Unsicherheiten
V = ppk.BuildCovarianceMatrix(stat_x, sys_x)
#print(V)

# Berechnung des Mittelwerts (ohne unabhängige Unsicherheiten, weil schon in V enthalten)
mean, sigm = ppk.wmean(m, None, V, pr=True)
```
Geben Sie das Beispiel in die Code-Zeile unten ein. Verändern Sie dann einige
der Komponenten der Unsicherheit. 

In [None]:
# Code hier eingeben
# -->

**_Anmerkung_**: Sie habe vielleicht die Daten im Beispiel wiedererkannt? 
Es sind die gleichen, die wir ausführlich in [Abschnitt 2.4.6](#SubSec-BeispielKovarianzmatrix) 
besprochen hatten. Die hier gezeigte Vorgehensweise ist im allgemeinen Fall das korrekte Verfahren zur Mittelwertbildung. Wären nämlich die Unsicherheiten der einzelnen Messwerte nicht gleich
groß, würde sich ein anderer Mittelwert ergeben - siehe zum Vergleich [Abschnitt 3.1.2](#SubSec-AnalytischeLoesung) 
Mittelwertbildung bei verschiedenen Unsicherheiten. Die einfache Herangehensweise 
wie in [Abschnitt 2.4.6](#SubSec-BeispielKovarianzmatrix) wäre dann falsch gewesen.

__Also__:
> Zur Mittelwertbildung korrelierter Werte eine Anpassung einer Konstanten
 unter Berücksichtigung der Kovarianz-Matrix vornehmen!


#### 3.4.2 Numerische Anpassung und Programmpakete
---


Mit der allgemeinen Verfügbarkeit von Computern werden heute Anpassungen mit Methoden der numerischen Optimierung ausgeführt. Die Algorithmen sind schnell genug und funktionieren auch bei nichtlinearen Problemstellungen. Am KIT wurden in den letzten Jahren *Python*-Programmpakete entwickelt, die eine korrekte Anpassung auch für kompliziert korrelierte Datenpunkte erlauben:
- *PhyPraKit* (http://ekpwww.etp.kit.edu/~quast/PhyPraKit/htmldoc/): Sammlung von Funktionen 
 zum Einlesen von Daten aus diversen Quellen, zur Datenvisualisierung, Signalbearbeitung und
 zur statistischen Datenauswertung und Modellanpassung sowie Werkzeuge zur Erzeugung simulierter Daten.
- Das Paket *PhyPraKit* enthält ein schlank gehaltenes Interface zum sehr vielseitig verwendbaren 
 Optimierungs- und Fehleranalyse-Werkzeug *iminuit* (https://iminuit.readthedocs.io/en/stable/). 
- *kafe2* (http://ekpwww.etp.kit.edu/~quast/kafe2/htmldoc/ und [Abschnitt 3.5](#Sec-Kafe)): 
 Softwareumgebung zur Anpassung von Modellen an Daten, speziell entwickelt für das physikalische Praktikum.

Ein einfaches Beispiel hatten wir als Übung zu [Abschnitt 3.1.1](#SubSec-BeispielFunktionsanpassung) 
schon kennen gelernt: das Abstandsmaß für eine große, recht dicht liegende Punktemenge auftragen
und das Minimum suchen. Dieses Verfahren lässt sich sehr leicht viel effizienter gestalten. 
Man startet mit weniger Punkten, z.B. minimal drei, und wählt dann zusätzliche Punkte, die 
das Minimum sukzessive immer besser eingrenzen. Moderne Optimierer zur Suche des Minimums einer
skalaren Funktion setzen auf eine Vielzahl von Algorithmen, deren detaillierte Beschreibung hier
zu weit führen würde.


**Behandlung von Unsicherheiten bezüglich der Abszisse ("x-Fehler")**

Unsicherheiten der Datenpunkte $(x_i,y_i)$ bezüglich der Abszissenachse, d. h. 
Unsicherheiten auf die $x_i$, können mit der $\chi^2$-Methode recht elegant durch
Iteration berücksichtigt werden: 
 - zunächst erfolgt eine Anpassung ohne Unsicherheiten auf die Abszissenwerte,
 - im zweiten Schritt werden diese dann mit Hilfe der ersten Ableitungen 
 $f'(x_i)$ der im ersten Schritt angepassten Funktion $f$ in entsprechende Unsicherheiten 
 der Ordinate umgerechnet und quadratisch zu den betreffenden Unsicherheiten der Ordinate addiert: 
 ${\sigma_i}^2={\sigma_y}_i^2 \,+\,(f'(x_i) \cdot {\sigma_x}_i)^2\,$.
 Die Größe $\chi^2$ wird jetzt mit den neuen Unsicherheiten $\sigma_i$ berechnet
 und minimiert. 
 - Ein dritter Schritt, der der Vorgehensweise beim zweiten Schritt entspricht, dient zur 
 Verbesserung des Ergebnisses und zur Fehlerkontrolle - der Wert von $\chi^2$ am Minimum
 darf sich vom zweiten zum dritten Schritt nicht signifikant ändern, ansonsten muss
 nochmals iteriert werden.
Bei der Anwendung dieses Verfahrens ist es essentiell, dass die Modellfunktion über den
Bereich der Unsicherheiten gut durch eine Gerade approximiert wird. 

Übrigens: Dank hoher Rechenleistung und effizienter numerischer Algorithmen ist es heute auch 
kein Problem mehr, die Neuberechung der Unsicherheiten in jedem Schritt der numerischen Optimierung
durchzuführen. Dazu muss das Programmierinterface des verwendeten Optimierers aber den vollen Zugriff
auf die zu minimierende "Kostenfuktion" erlauben. Wenn dies nicht der Fall ist, funktioniert das 
oben skizzierte Verfahren durch mehrfaches Anwenden mit beliebigen Anpassungsprogrammen. 

Im Paket *scipy.optimize* gibt es die Methode *odr* ("orthogonal distance regression"), die
ein anderes Verfahren nutzt. *odr* optimiert den mit den Unsicherheiten gewichteten Abstand 
der Datenpunkte von der anzupassenden Kurve im zweidimensionalen Raum.


**Funktionsanpassung mittels numerischer Verfahren** 

Aus Anwendersicht ändert sich im Vergleich zum Beispiel aus 
[Abschnitt 3.4.1](#SubSec-LineareModelle) nichts wesentliches, wenn man numerische
Verfahren auf dem Computer nutzt.
Statt der Funktion *linRegression()* können Sie einfach die Funktion *odFit()* aus dem 
Paket *PhyPraKit* aufrufen. Diese Funktion verwendet die Methoden *scipy.curve_fit* und
*scipy.optimize.odr*. aus dem Paket *scipy*. Mit deren Hilfe ist es möglich, beliebige
in *python* definierte Funktionen an Daten mit Unsicherheiten in Ordinaten- und Abszissenrichtung
anzupassen. Wenn keine Unsicherheiten in Abszissenrichtung benötigt werden, werden sie auf Null gesetzt.

Ein zur Übung aus [Abschnitt 3.4.1](#SubSec-LineareModelle) analoges Beispiel sieht 
also ganz ähnlich aus wie dort; es gibt nur kleinere Anpassungen an das etwas andere 
Interface von *odFit* im Vergleich zu *linRegression*:
```
# Beispiel zur Anwendung von PhyPraKit.odFit(f, x, y, sx, sy)
import numpy as np, matplotlib.pyplot as plt
from PhyPraKit import odFit

# das Modell
def fitf(x, a, b): 
 ''' linear model ''' 
 return a*x + b

# die Daten
x = np.array([ 1., 2., 3., 4., 5., 6., 7., 8., 9., 10.])
y = np.array([1.46, 1.4, 1.87, 2.10, 2.60, 2.87, 3.03 , 3.93, 4.04, 4.08])
sx = np.zeros(10)
sy = np.array([0.07, 0.07 , 0.09, 0.10, 0.12,0.13, 0.15, 0.17, 0.18, 0.20])

# Fit ausführen und Ergebnis speichern
par, pare, cor, chi2 = odFit(fitf, x, y, sx, sy)
a = par[0]
b = par[1]
# Daten und Modell anzeigen 
plt.errorbar(x, y, yerr=sy, fmt='x',label='Übungsdaten')
plt.plot(x, a*x+b, '-', label='angepassete Gerade')
plt.xlabel('x')
plt.ylabel('measurements y')
plt.legend()
plt.show()
```

Geben Sie als **Übung** den Code in die Zelle unten ein und vergleichen Sie das Ergebnis mit 
dem Beispiel von *linRegression*. Geben Sie dazu jeweils auch die Parameterwerte und Unsicherheiten
mit Hilfe eines *print()*-Befehls aus und prüfen Sie, ob beide Methoden im Rahmen der Unsicherheiten
gut übereinstimmen !

In [None]:
# Code von oben hier eingeben
# -->

Das oben beschriebene Programmpaket reicht für die meisten Belange völlig aus. Allerdings 
kann *odFit* nicht mit korrelierten Unsicherheiten umgehen. Die Programmpakete *kafe* 
(in der aktuellen Version *kafe2*) oder PhyPraKit/phyFit* unterstützen dagegen korrelierte
Unsicherheiten entlang der Ordinaten- und Abszissen-Richtung und bieten Hilfsfunktionen zur
Konstruktion der Kovarianzmatrix. Die Pakete enthalten ebenfalls eigene grafische Ausgaben,
die neben der Modellfunktion auch die mittels Fehlerfortpflanzung ermittelte Unsicherheit 
der angepassten Modellfunktion als Band anzeigt. 
In *PhyPraKit* gibt es ein einfach gehaltene Interfaces zur komfortablen Anwendung der 
Funktionen dieser Pakete, siehe *k2Fit(f, x, y, sx, sy, ...)* oder *xyFit(f, x, y, sx, sy, ...)*. 

**Übung** Für die gleiche Anpassung wie eben mit *odFit* müssen Sie nur im entsprechenden 
Beispiel *odFit* durch *k2Fit* oder *xyFit* ersetzen; den Code zur Anzeige der Grafik können
Sie entfernen, weil diese Fuktionen in der Grundeinstellung eine eigene grafische Ausgabe erzeugen. 

In [None]:
# Code für k2Fit odf xyFit hier eingeben
# -->

In *k2Fit* bzw. *xyFit* gibt es zusätzlich zu den aus *odFit* bekannten Parametern 
(*func*, *x*, *y*, *sx* und *sy*) eine ganze Reihe an optionalen Parametern, die 
viele zusätzliche Möglichkeiten bieten. Die Rückgabeliste als *numpy-array*s oder 
*python-dictionary* enthält Informationen, die denen von *odFit* entsrpechen, also
die angepassen Parameterwerte und deren Unsicherheiten, die Matrix der 
Parameterkorrelationen und die Qualität der Anpassung.

Gehen wir die optionalen Argumente und deren Bedeutung der Reihe nach durch:

 * _xabscor_: absolute, correlated error(s) on x, absolute korrelierte Unsicherheiten x-Richtung
 * _yabscor_: absolute, correlated error(s) on y, absolute korrelierte Unsicherheiten y-Richtung
 * _xrelcor_: relative, correlated error(s) on x, relative korrelierte Unsicherheiten x-Richtung
 * _yrelcor_: relative, correlated error(s) on y, relative korrelierte Unsicherheiten y-Richtung
 
Optionen zur Kontrolle der Anpassung 

 * _ref_to_model_: wenn *True*, werden relative Fehler werden auf den Modellwert, nicht auf den
 Messwert bezogen. Verzerrungen der Parameterschätzung durch Abwärtsfluktuationen der Daten 
 werden so vermieden. 
 * _p0: array-like_, Startwerte für die Parameteranpassung, die bei nicht-linearen Problemstellungen
 mit nicht eindeutigen Minima benötigt werden
 * _constrains_: _(name, value, uncertainty)_, externe Einschränkungen an Parameter innerhalb bekannter
 Unsicherheiten
 * _limits_: _(name, min, max)_, Grenzen für die Parameter, die benötigt werden, um unphysikalische oder
 mathemematisch nicht definierte Bereiche, wie den Logarithmus oder die Wurzel aus negativen Zahlen, 
 bei der Parameteroptimierung auszuschließen
 
Optionen zur Steuerung der grafischen Ausgabe in *k2Fit*

 * _plot: boolean flag_, Grafische Ausgabe erzeugen
 * _axis_labels: list of strings_, Achsenbeschriftungen x und y
 * _data_legend: string_, Name für angezeigte Daten in Legende
 * _model_name: string_, Name für angezeigte Modell in der Info-Box 
 * _model_expression: string_, LaTeX-Ausdruck für die angepasste Funktion
 * _model_legend: string_, Name für Modell in Legende 
 * _model_band: string_, Name für das 1-sigma Band in Legende
 * _fit info: boolean_, Info-Box mit Fitergebnisse ein/ausschalten 
 * _asym_parerrs_: Ausgabe von asymmetrischen Unsicherheiten, d.h. eines 68%-Konfidenz Intervalls
 * _plot_cor_: Anzeige von Konfidenzkonturen der Parameter
 * _showplots_: Anzeige aller Grafiken auf dem Bildschirm 
 * _quiet_: Unterdrückung von Textausgaben.



Eine sehr **wichtige Anwendung von _kafe2_** oder **_phyFit_** ist die Behandlung von 
korrelierten systematischen Unsicherheiten in der Anpassung. Mit anderen numerischen 
Werkzeugen muss zunächst ein Anpassung ohne Berücksichtigung der systematischen 
Unsicherheiten durchgeführt und dann deren Effekt mittels Fehlerfortpflanzung auf 
die Parameter propagiert werden.
Für absolute, also für alle Messdaten gleiche Unsicherheiten funktioniert das sehr gut. 
Bei relativen Unsicherheiten, also z. B. "$\pm1\%$ vom Messwert", oder in Fällen mit 
komplizierter Struktur der Korrelationen gibt es aber keine andere Wahl als sie in der
Anpassung mit zu berücksichtigen, weil solche systematischen Effekte auch die Ergebnisse 
für die Parameterwerte ändern. 

Ein Beispiel soll das illustrieren. Hier ein minimales Code-Beispiel zur Anpassung mit *kafe2*
```
# Beispiel zur Anwendung von PhyPraKit.k2Fit(f, x, y, sx, sy)
import numpy as np, matplotlib.pyplot as plt
from PhyPraKit import k2Fit

# das Modell
def fitf(x, a, b): 
 ''' linear model ''' 
 return a*x + b

# die Daten
x = np.array([ 1., 2., 3., 4., 5., 6., 7., 8., 9., 10.])
y = np.array([1.46, 1.4, 1.87, 2.10, 2.60, 2.87, 3.03 , 3.93, 4.04, 4.08])
sx = np.zeros(10)
sy = np.array([0.07, 0.07 , 0.09, 0.10, 0.12,0.13, 0.15, 0.17, 0.18, 0.20])

# optionale absolute und relative Unsicherheit 
abs_syst = 0.1 # absolute systematic error 
rel_syst = 0.1 # 10% relative systematische Unsicherheit

# Fit ausführen und Ergebnis speichern
par, pare, cor, chi2 = k2Fit(fitf, x, y, sx, sy,
 yabscor = 0., 
 yrelcor= 0.
 )
```
Als **Übung** soll zunächst genau dieser Code in der Code-Zelle unten ausgeführt werden.
Bitte das Ergebnis in der Text-Zelle festhalten.

Jetzt wird eine abosulte systematische Unsicherheit hinzugefügt: *yabscor = abs_syst*.
Bitte den Code modifzieren, ausführen und das Ergebnis sichern. 

Nun die absolute Unsicherheit wieder auf 0. setzen und eine relative systematische Unsicherheit hinzufügen: *yrelcor=rel_syst*, den modifizierten Code ausführen und das Ergebis eintragen. 


In [None]:
# Code k2fit mit Systematik hier eingeben
# -->

**Ergebnis**
 1. ohne systematische Unsicherheit: a = +/- , b = +/- 
 2. mit absoluter systematischer Unsicherheit: a = +/- , b = +/- 
 3. mit relativer systematischer Unsicherheit: a = +/- , b = +/- 

Für den Fall 2. bitte mit Hilfe des Fehlerfortpflanzungsgesetzes prüfen, 
 ob der Unterschied zu 1. den Erwartungen entspricht.
 
 

Als **weiteres Beispiel** greifen wir noch einmal auf die Daten aus 
[Abschnitt 2.4.6](#SubSec-BeispielKovarianzmatrix) zurück und
illustrieren die Mittelwertbildung korrelierter Messwerte mit *kafe2*.
Dank der Fähigkeit von *kafe2*, mit komplizierten Kovarianzmatrizen umgehen zu können, 
lässt sich die Aufgabenstellung auch komfortabel mit *k2Fit* lösen. 
Hier die notwendigen Code-Teile:
 
```
# Mittelung korrelierter Messwerte mit kafe2 / k2Fit

import numpy as np, matplotlib.pyplot as plt
from PhyPraKit import k2Fit

# das Modell
def fitf(x, c):
 # das Ergebnis muss ein Vektor der Länge von x sein 
 return c*np.ones(len(x)) 

# Daten und Unsicherheiten
x = np.arange(6) + 1.
m = np.array([0.82, 0.81, 1.32, 1.44, 0.93, 0.99])
sig_u = 0.1 # unabhängig
sig_s = 0.15 # korreliert für Messungen (1,2), (3,4) und (5,6)
sig_t = 0.05 # korreliert für alle Messungen

# Konstruktion der Komponenten für die Kovarianz-Matrix
sys_y= [[sig_t, sig_t, sig_t, sig_t, sig_t, sig_t],
 [sig_s, sig_s, 0. ,0. ,0. ,0.], 
 [0., 0., sig_s, sig_s, 0., 0.], 
 [0., 0., 0., 0., sig_s, sig_s] ]

# Fit ausführen
par, pare, cor, chi2 = k2Fit(fitf, x , m, sx=0., sy=sig_u, yabscor = sys_y)
```

In [None]:
# Code für Mittelung mit k2Fit() hier eingeben
# -->

Ein häufiges **Beispiel aus der Praxis** stellt die Messung von Strom-Spannungskennlinien dar. 
Sowohl die Strom- als auch die auf der Abzisse aufgetragene Spannungsmessung sind von verschiedenen Unsicherheiten betroffen. So gibt es auch bei digitalen Messinstrumenten eine Anzeigeunsicherheit, 
die im Datenblatt angegeben ist. Dazu kommt ggf. noch Signalrauschen, dass man aus der Stabilität 
der Anzeige bei wiederholten Messungen abschätzt. Diese Unsicherheiten sind für jeden Messwert
unabhängig voneinander. 
Zusätzlich gibt es noch eine Kalibrationsunsicherheit, die der Hersteller üblicherweise als
relativen Wert bezogen auf den wahren Messwert in Datenblatt angibt. Die Kalibrationsunsicherheit
ist eine gemeinsame, relative Unsicherheit aller Messwerte. Je nach Kalibrationsverfahen ist
es möglich, dass die Unsicherheiten für in verschiedenen Messbereichen aufgenommene Messungen
jeweils unabhängig sind. 

Hier einige typische Daten für Messgenauigkeiten:

 - **Spannungsmessung**: Anzeige 4000 Counts, Genauigkeit 0.5% $\pm$ 3 Digits, 
 Messbereich 2 V, Signalrauschen 0.005 V
 - **Strommessung**: Anzeige 2000 Counts, Genauigkeit 1.0% $\pm$ 3 Digits, 
 Messbereiche 200 µA, 20 mA und 200 mA, Signalrauschen 0.025 mA

Als Anwendungsfall betrachten wir Messungen mit diesen Messinstrumenten an einer 
Halbleiterdiode: 
```
# Messdaten:
# - Spannung im Messbereich 2V
 data_x = [0.450, 0.470, 0.490, 0.510, 0.530, 
 0.550, 0.560, 0.570, 0.580, 0.590, 0.600, 0.610, 0.620, 0.630,
 0.640, 0.645, 0.650, 0.655, 0.660, 0.665 ]
# - Strommessungen: 2 im Bereich 200µA, 12 mit 20mA und 6 mit 200mA
 data_y = [0.056, 0.198, 0.284, 0.404, 0.739, 1.739, 1.962,
 2.849, 3.265, 5.706, 6.474, 7.866, 11.44, 18.98,
 23.35, 27.96, 38.61, 46.73, 49.78, 57.75]
``` 

Angepasst werden soll die Shokley-Gleichung:

```
def Shockley(U, I_s = 0.5, U0 = 0.03):
 """Parametrisierung einer Diodenkennlinie

 U/U0 sollte während der Anpassung auf einen Wert <150 
 beschränkt werden, um Überscheitungen des mit 64 Bit 
 Genauigkeit darstellbaren Zahlenraums zu verhindern

 Args:
 - U: Spannung (V)
 - I_s: Sperrstrom (nA)
 - U0: Temperaturspannung (V) * Emissionskoeffizient
 
 Returns:
 - float I: Strom (mA)
 """
 return 1e-6 * I_s * np.exp( (U/U0) - 1.)
```

Mit Ihrem bisherigen Wissen können Sie dieses Problem recht komfortabel mit der oben beschriebenen 
Funktion *k2Fit* oder mit der äquivalenten Funktion *xyFit* lösen, die das Modul *pyhFit* aus
dem Paket *PhyPraKit* nutzt.


**Hilfestellung**

Code zur Berechnung der Unsicherheiten:
```
# Komponenten der Messunsicherheit
# - Genauigkeit Spannungsmessung: 4000 Counts, +/-(0.5% +/- 3 digits)
# - verwendeter Messbereich 2V
 crel_U = 0.005
 Udigits = 3
 Urange = 2
 Ucounts = 4000
# - Genauigkeit Strommessung: 2000 Counts, +/-(1.0% +/- 3 digits) 
# - verwendete Messbereiche 200µA, 20mA und 200mA 
 crel_I = 0.010
 Idigits = 3
 Icounts = 2000
 Irange1 = 0.2
 Irange2 = 20
 Irange3 = 200
# - Rauschanteil (aus Fluktuationen der letzen Stelle)
# - delta U = 0.005 V
 deltaU = 0.005
# - delta I = 0.025 mA
 deltaI = 0.025

# - Anzeigegenauigkeit der Spannung (V) 
 sx = Udigits * Urange / Ucounts
 sabsx = np.sqrt(deltaU**2 + sx**2) # Rauschanteil addieren
# - korrelierte Kalibrationsunsicherheit 
 crelx = crel_U
 
# - Anzeigegenauigkeit des Stroms (mA), 3 Messbereiche
 sy = np.asarray( 2 * [Idigits * Irange1 / Icounts] + \
 12 * [Idigits * Irange2 / Icounts] + \
 6 * [Idigits * Irange3 / Icounts]) 
 sabsy = np.sqrt(deltaI**2 + sy**2) # Rauschanteil addieren
# - korrelierte Kalibrationsunsicherheit 
 crely = crel_I
```

Code für die Anpassung mit *k2Fit* oder *xyFit*:

```
# thisFit = xyFit ## alternativ 
 thisFit = k2Fit
 model = Shockley
# Anpassung ausführen 
 fitResult = thisFit(model,
 # - data and uncertainties
 data_x, data_y, # data x and y coordinates
 sx=sabsx, # indep x
 sy=sabsy, # indel y
 xrelcor=crelx, # correlated rel. x
 yrelcor=crely, # correlated rel. y
 ref_to_model=True, # reference of rel. uncert. to model
 # - fit control
 p0=(0.2, 0.05), # initial guess for parameter values 
 limits=('U0', 0.005, None), # parameter limits
# - output options
 plot=True, # plot data and model
 plot_cor=False, # plot profiles likelihood and contours
 showplots = False, # plt.show() in user code 
 quiet=False, # suppress informative printout
 axis_labels=['U (V)', '$I_D$ (mA) \ Shockley-Gl.'], 
 model_legend = 'Shockley-Gleichung'
 )
 # adjust to different output formats of k2Fit and xyFit
 if type(fitResult) is type({}):
 parvals, paruncs, cor, chi2, pnames = fitResult.values()
 else:
 parvals, paruncs, cor, chi2 = fitResult

```

Nun sollten wir noch eine Ausgabe in Textformat und als Grafiken vorsehen:
```
# Ausgabe der Ergebnisse in Textform:
 print('\n*==* Fit Result:')
 print(" chi2: {:.3g}".format(chi2))
 print(" parameter values: ", parvals)
 print(" parameter uncertainties: \n", paruncs)
 print(" correlations : \n", cor)

# Anpassung der Optionen für grafische Darstellung
 plt.figure(num=1) # activate first figure ...
 plt.ylim(-1., 60.) # ... set better y-limit ...
 plt.show() # .. and show all figures
```


In [None]:
# Code zur Anpassung der Shockley-Gleichung
# --> hier eingeben

#### 3.4.3 Weitere Programmpakete zur Funktionsanpassung
----

Es gibt auf dem Markt eine ganze Reihe kommerzieller und auch freier Programmpakete zur Funktionsanpassung.
Die bekanntesten sind 
- [*origin*](https://www.originlab.com)
- [*gunplot*](http://www.gnuplot.info/)
- [*Grace*](http://plasma-gate.weizmann.ac.il/Grace/)
- [*qtiplot*](https://www.qtiplot.com/)

Diese Werkzeuge bringen ein eigenes grafisches Interface mit - bisweilen im "Excel-Look" - und
sind nach einiger Einarbeitungszeit recht intuitiv zu bedienen. Sie haben allerdings keine
*python*-API (Application Programming Interface); daher ist man bei Datenimport und 
Weiterverarbeitung der Ergebnisse auf grafische Methoden wie "Drag-and-Drop" angewiesen. 

Eine weitere Schwierigkeit besteht darin, dass diese Werkzeuge nicht auf den Einsatz in 
der Physik ausgelegt sind und man die Optionen zur korrekten Behandlung von Unsicherheiten
auf die eingegebenen Daten erst identifizieren und explizit setzen muss! Der Grund ist, dass diese
Programme meist zur Parametrisierung von empirischen Daten eingesetzt werden, wobei folgende 
Funktionsweisen auftreten könnten:
- Die anzupassende Modellfunktion muss die Daten innerhalb der ausgegebenen Parameterunsicherheiten richtig beschreiben. Bei der Wahl einer schlecht passenden Modellfunktion werden die Parameterunsicherheiten soweit erhöht, bis eine gute Übereinstimmung erreicht ist - ein Wert vom $\chi^2/n_f=1$ wird dabei erzwungen!
- Die Unsicherheiten $\sigma_i$ der Datenpunkte sind unbekannt und werden wie bei der Methode der gaußschen Fehlerquadrate alle auf Eins gesetzt.

Ein solches möglicherweise als Voreinstellung gesetztes Verhalten muss abgeschaltet werden, um eine Modellanpassung mit Überprüfung der Qualität der Übereinstimmung innerhalb der Messunsicherheiten der Eingabedaten und korrekte Unsicherheiten der Parameter zu erhalten. 

---
## 3.5 Details zum Anpassungspaket *kafe2* 
---

Das in [Abschnitt 3.4.2](#SubSec-Programmpakete) bereits erwähnte Paket *kafe*2 
ist ist eine erweiterte Version des seit dem Jahr
2012 am Instut für Experimentelle Teilchenphysik entwickelten Paktes *kafe* zur
Anpassung von Modellfunktionen an Daten. *kafe2* besitzt mittlerweile einen breitgefächerten
Funktionsumfang, der auch auf komplexe Probleme der Datenauswertung anwendbar ist. 

Unterstützt werden verschiedene Datentypen wie einfache indizierte Daten (also eine Messreihe),
zweidimensionale Datenpunkte (eine Größe *"x"* und eine abhängige Größe *"y"*) sowie Häufigkeitsverteilungen (Histogramme). 

Bei zweidimensionalen Datenpunkte werden Unsicherheiten sowohl der abhängigen wie
auch der unabhängigen Größe und gegebenenfalls deren Korrelationen unterstützt. 
Im Vergleich zu vielen anderen Anpassungswerkzeugen ist diese Möglichkeit 
ein Alleinstellungsmerkmal von *kafe(2)*. 

Unterstützt wird die Berücksichtigung von Modellparametern, für die es 
Einschränkungen durch externe Messungen gibt. Auch die gleichzeitige Anpassung
mehrerer Modelle mit teilweise gemeinsamen Parametern an verschiedene Datensätze
("Multi-Fit") ist möglich.

Zur Miminierung des Abstandsmaßes zwischen Daten und Modellfunktion(en)
werden numerische Verfahren angewandt, die aus der quelloffenen, 
*Python*-basierten Softwareumgebung *scipy* oder dem am CERN entwickelten
Paket *MINUIT* stammen. Das jeweils minimierte Abstandsmaß (oder auch
die "Kostenfunktion") entpricht dem mit einem Faktor Zwei multiplizierten
negativen natürliche Logarithmus der Likelihood-Funktion $(-2\,\ln{\cal L})$ 
der Daten für das gegebene Modell. 
Für gaußförmige Unsicherheiten der Datenpunkte entspricht dies der Methode
der kleinsten Quadrate (auch "$\chi^2$-Methode"). Andere, auf dem Likelihood-Prinzip 
beruhende Kostenfunktionen für die Anpassung von Wahrscheinlichkeitsdichten an
Histogramme oder an indizierte Daten sind ebenfalls verfügbar.

Zusätlich zur oben diskutierten Methode der "Punktschätzung" (also des Auffindens
eines Minimums der Abstandmaßes zwischen Daten und Modellfunktion und Schätzen der
Unsicherheit aus den Werten der zweiten Ableitungen nach den Parametern) bietet
*kafe2* die Möglichkeit, ein- und zweidimensionale Konfidenzintervalle für die
Parameter zu bestimmen, die aus einem Scan des Abstandsmaßes gewonnen werden. 

Trotz dieser vielfältigen Möglichkeiten ist das Interface von *kafe2* recht einfach
gehalten; die generelle Vorgehensweise ist folgende:

 - Definition und Initialisierung eines Daten-Containers für die jeweilige Anpassung 
 - Erzeugung eines Objekts zur Durchführung der Anpassung, die den
 Datencontainer mit einem Modell verbindet 
 - Durchführung der Anpassung mittels *.do_fit()* und
 Ausgabe der Ergebnisse auf der Konsole mittels *.report()* oder
 durch direkten Zugriff auf die Ergebnis-Variablen des Fit-Objekts
 - Gegebenenfalls Erzeugung und Anzeige von Ergebnisgrafiken mit der generischen
 Klasse *Plot*.


*kafe2* flexibel über ein *Python*-Interface verwendet werden. Zu *kafe2* gibt es ein
eigenes Tutorial als *jupyter*-Notebook, *kafe2Tutorial.ipynb*, das sich an fortgeschrittene
Nutzer mit komplexeren Problemstellungen wendet.

Als Anwendungsbeispiel können Sie zunächst die in [Abschnitt 3.4.2](#SubSec-Programmpakete) 
schon verwendete Funktion *PhyPraKit.k2Fit()* anschauen, die direkt auf Funktionen aus *kafe2*
zugreift.

Der folgende Code illustriert die Anpassung einer Exponentialfuktion mit dem Anpassungswerkzeug *kafe2*.
```
from kafe2 import config, XYContainer, XYFit, Plot
import numpy as np, matplotlib.pyplot as plt

# set better default figure size for kafe2
plt.rcParams['figure.figsize']=[12., 5.] 
# !!! must be done after importing kafe2 (will else be overriden)


# To define a model function for kafe2 simply write it as a python function
def exponential_model(x, A0=1., x0=5.):
 # Our second model is a simple exponential function
 # The kwargs in the function header specify parameter defaults.
 return A0 * np.exp(x/x0)

# the data for this exercise
x = [19.8, 3.0, 5.1, 16.1, 8.2, 11.7, 6.2, 10.1]
y = [23.2, 3.2, 4.5, 19.9, 7.1, 12.5, 4.5, 7.2]
data = XYContainer(x_data = x, y_data = y)
data.add_error(axis='x', err_val = 0.3)
data.add_error(axis='y', err_val = 0.15, relative = True)
data.label = 'Datenpunkte'
data.axis_labels=['x-Wert','y-Wert']

# Create 2 XYFit objects with the same data but with different model functions
exponential_fit = XYFit(data, exponential_model)
exponential_fit.model_label = 'exponentielles Modell'

# Optional: Assign LaTeX strings to parameters and model functions.
exponential_fit.assign_parameter_latex_names(A0='A_0', x0='x_0')
exponential_fit.assign_model_function_latex_expression("{A0} e^{{ {x}/{x0} }}")

# Perform the fits.
exponential_fit.do_fit()

# Optional: Print out a report on the result of each fit.
exponential_fit.report()

# Optional: Create a plot of the fit results using Plot.
p = Plot(exponential_fit)

p.plot(fit_info=True)

# Show the fit results.
plt.show()
```

In [None]:
# Den Code zur Anpassung einer Exponentialfuktion an Messdaten hier einfügen
# -->

Um dieses nichtlineare Modell etwas genauer anzuschauen, verwenden wir die Möglichkeit in
*kafe2*, die Likelihood-Kontur im Parameterraum zu scannen:
```
from kafe2 import ContoursProfiler

# Create contour plot and profiles for the exponential fit
cp = ContoursProfiler(exponential_fit)
cp.plot_profiles_contours_matrix(show_grid_for='contours')
plt.show()
```
Geben Sie diesen Code in die Zelle unten ein - bitte etwas Geduld, die Berechnung der
Likelihood-Konturen braucht Rechenzeit!

In [None]:
# code zum Erstellen von Profil-Likelihood und Kovarianz-Ellipse hier eingeben
# -->

Die grafische Darstellung zeigt, dass es eine starke Korrelation der Parameter gibt und dass die 
Kovarianz-Kontur nur näherungsweise eine Ellipse ist. Auch die Likelihood-Kontur ist im Bereich
des Minimums nicht exakt eine Parabel. Man würde in diesem Fall unsymmetrische Unsicherheiten
der Parameter angeben, die man aus den Schnittpunkten einer horizontalen Line bei Eins mit der
Likelihood-Kurve ablesen kann. Das sich so ergebende Intervall entspricht einem Konfidenzniveau
von 68% (genau wie der Bereich innerhalb von $\pm 1\sigma$ der Gaußverteilung).

Mit dieser Erkenntnis sollte das Ergebnis der Anpassung erneut ausgegeben werden:
Der Aufruf der *report()*-Fuktion mit der Option
*asymmetric_parameter_errors=True* erzeugt eine entsprechende Ausgabe:
```
exponential_fit.report(asymmetric_parameter_errors=True)
p.plot(fit_info=True, asymmetric_parameter_errors= True)
# Show the fit results.
plt.show()
```

In [None]:
# Code zur Ausgabe asymmetrischer Parameterunsicherheiten hier eingeben:
# -->

#### 3.5.1 Simultane Anpassung an mehrere Messreihen mit *kafe2* 

Eine weitere, bisweilen sehr nützliche Fähigkeit von *kafe2* besteht darin, mehrere Messreihen
mit gemeinsamen Parametern gleichzeitig anpassen zu können: das Feature *MultiFit*. Beispiele
sind mehrere Messreihen mit der gleichen Apparatur, um die Eigenschaften von Materialien in 
Proben mit unterschiedlicher Geometrie zu bestimmen, wie z. B. die Elastizität oder den 
spezifischen Widerstand an Proben mit unterschiedlichen Querschnitten und Längen. 
In solchen Fällen sind auf die Apparatur zurückzuführende Unsicherheiten in allen Messreihen 
gleich, auch die interessierende Materialeigenschaft ist immer die gleiche, lediglich die 
unterschiedlichen Gemoetrie-Parameter und die jeweils bestimmten Werte der Messreihen haben
eigene, unabhängige Unsicherheiten.

Im folgenden, einfachen Beispiel wird angenommen, dass es einen linearen Zusammenhang zwischen 
den Messwerten gibt; die Steigung ist gegeben durch das Produkt aus einer Materialeigenschaft,
$p0$, und einem Geometriefaktor $g1$ bzw. $g2$; außderdem gibt es für jede Messreihe eigene 
Offsets $o1$ und $o$, die aus der Geradenanpassung bestimmt werden. 
Die beiden Modellfunktionen sehen so aus:

```
# -- define two model functions with common parameter p0
# remark:
# - p0 might be a material constant,
# e.g. elastic modulus or specific resistance,
# - g might be a geometry factor, like length and/or
# diameter of a sample or a combination of both
# - o might be a nuisance parapeter, e.g. an off-set from noise
# Note that constraints on g1, g2 are needed, i.e. external
# measurents, to give meaningful results
def model1(x, p0=1., g1=1., o1=0):
 # p0: Materialeigenschaft
 # g1: Geometriefaktor für Probe 1
 # o1: offset für Messreihe 1
 return g1 * p0 * x + o1 

def model2(x, p0=1., g2=1., o2=0):
 # p0: Materialeigenschaft
 # g2: Geometriefaktor für Probe 2
 # o2: offset für Messreihe 2
 return g2 * p0 * x + o2 

```

Natürlich müssen die Geometriefaktoren, ggf. mit Unsicherheiten, bekannt sein oder
separat gemessen werden. In den Anpassungen von *model1* und *model2* werden sie
als eingeschränkte Parameter behandelt. Die Abfolge der Schritte zur Anpassung 
ist ansonsten wie üblich, also zunächst das Erzeugen von Daten- und Fitobjekten.
Anders ist lediglich das Zusammenfürhen der Fit-Objekte mit der Zeile 

```# combine the two fit objects to form a MultiFit
multiFit = MultiFit( fit_list=[xyFit1, xyFit2] )
```
Ausführen der Anpassung, Ausgabe der Ergebnisse und die grafische Darstellung
erfolgen dann mit den üblichen Methoden der Instanz des *MultiFit*-Objekts.

Das vollständige Beispiel ist hier gezeigt:

```
''' general example for fitting multiple distributions with kafe2
 - define models
 - set up data objects
 - set up fit objects
 - set up MultiFit objcet
 - perform fit
 - show and save output
'''
# Imports #
from kafe2 import XYContainer, Fit, MultiFit, Plot
import numpy as np, matplotlib.pyplot as plt


# Workflow #

# 1. set data 

# data set 1
x1 = [ 1., 2., 3., 4., 5., 6., 7., 8., 9., 10.]
y1 = [ 1.29, 1.78, 3.32, 3.85, 5.27, 6.00, 7.07, 8.57, 8.95, 10.52 ]
e1 = 0.2
e1x = 0.15
c1 = 1.0
ec1 = 0.05

# data set 2
x2 = [ 1., 2., 3., 4., 5., 6., 7., 8., 9., 10. ]
y2 = [ 0.76, 1.19, 1.71, 2.21, 2.58, 3.01, 3.67, 4.24, 4.69, 4.97 ]
e2 = 0.15
e2x = 0.15
c2 = 0.5
ec2 = 0.05

# 2. convert to kafe2 data structure and add uncertainties

xy_d1 = XYContainer(x1, y1)
xy_d1.add_error('y', e1) # independent errors y
xy_d1.add_error('x', e1x) # independent errors x 
xy_d2 = XYContainer(x2, y2)
xy_d2.add_error('y', e2) # independent errors y
xy_d2.add_error('x', e2x) # independent errors x

# set meaningful names 
xy_d1.label = 'Beispieldaten (1)'
xy_d1.axis_labels = ['x', 'y (1)']
xy_d2.label = 'Beispieldaten (2)'
xy_d2.axis_labels = ['x', 'y(2) & f(x)']

# 3. create the individual Fit objects 
xyFit1 = Fit(xy_d1, model1)
xyFit2 = Fit(xy_d2, model2)
# set meaningful names for model
xyFit1.model_label = 'Lineares Modell'
xyFit2.model_label = 'Lineares Modell'
# add the parameter constraints
xyFit1.add_parameter_constraint(name='g1', value = c1 , uncertainty = ec1)
xyFit2.add_parameter_constraint(name='g2', value = c2 , uncertainty = ec2)

# combine the two fit objects to form a MultiFit object
multiFit = MultiFit( fit_list=[xyFit1, xyFit2] )

# 4. perform the fit
multiFit.do_fit()

# 5. report fit results
multiFit.report()

# 6. create and draw plots
multiPlot = Plot(multiFit)
##multiPlot = Plot(multiFit, separate_figures=True)
multiPlot.plot(figsize=(13., 7.))

# 7. show or save plots #
##for i, fig in enumerate(multiPlot.figures):
## fig.savefig("MultiFit-"+str(i)+".pdf")
plt.show()

```

In [None]:
# Code für MultiFit-Beispiel hier eingeben
# -->

---
### 3.6 Details zur Modellanpassung mit *PhyPraKit/phyFit* 
---

*phyFit* ist Teil des Pakets *PhyPraKit* (https://readthedocs.org/projects/phyprakit/
und bietet ein so schlank wie möglich gehaltenes Interface zum Anpassungspaket 
*iminuit* (https://iminuit.readthedocs.io/en/stable/), das insbesondere auch als Vorlage 
zu eigenen Implementierungen dienen kann, die in speziellen Anwendugnsfällen nötig werden. 
*iminuit* enthält zahlreiche Methoden zur Minimierung einer in einem hochdimensionalen
Raum definierten skalaren Kostenfunktion, zur Analyse der Unsicherheiten und zur Bestimmung
von Konfidenzintervallen bzw. Konfidenzkonturen. 

Die Basis von *phyFit* bildet die Klasse *mnFit* zum Anpassen eines parameterabhängigen Modells
$f(x, *par)$ an eine Menge von Daten $\{ x_i\}$, an Datenpunkte $\{\, (x_i, y_i=f(x_i, *par)\,\}$ 
oder einer Wahrscheinlichkeitsdichtefunktion an Histogram-Daten oder an ungebinnete Daten.
Die Parameterschätzung basiert grundsätzlich auf vorimplementierten
Maximum-Likelihood-Funktionen oder im letzteren Fall auf einer benutzerdefinierten Kostenfunktion. 
Klassische Kleinste-Quadrate-Methoden stehen optional zum Vergleich mit anderen Paketen zur Verfügung. 
Ein besonderes Merkmal des Pakets ist die Unterstützung verschiedener Arten von Unsicherheiten 
für $x-y$-Daten, nämlich unabhängige und/oder korrelierte absolute und/oder relative Unsicherheiten
in $x$- und/oder $y$-Richtung, wie sie auch von *kafe2* unterstützt werden. Die Parameterschätzung
für Dichteverteilungen von histogrammierten Daten basiert auf der verschobenen Poisson-Verteilung, 
Poisson$(x - loc, lambda)$ der Anzahl der Einträge in jedem Bin des Histogramms. 

In *phyFit* unterstützt werden eingeschränkte Parameter (zur Einbeziehung von externem Wissen 
innerhalb von Gauß'schen Unsicherheiten), Grenzen von Parameterwerten (um problematische Bereiche
im Parameterraum während des Minimierungsprozesses zu vermeiden), und das Fixieren von Parametern.

Unsicherheiten, die von Modellparametern abhängen, werden korrekt durch dynamische Aktualisierung 
des negativen natürlichen Logarithmus der Likelihoodfukntion in jedem Schritt der numerischen
Minimierung behandelt. Datenpunkte mit relativen Fehlern werden als Voreinstellung auf den
Modellwert bezogen, um ansonsten auftretende Verzerrungen zu vermeiden. In Anpassungen an
$x-y$-Daten wird die Ableitung der Modellfunktion nach den Stützstellen $x_i$ verwendet, um 
die Kovarianzmatrix der $x_i$ auf die $y$-Achse zu transformieren.

Die im Paket enthaltenen Wrapperfunktionen *xyFit()*, *hFit()* und *mFit()* veranschaulichen die 
Steuerung der Schnittstelle von *mnFit* und erlauben die Anpassungen an (x,y)-Daten, Histogramme 
oder unbeginnte Daten mit einem einzigen Funktionsaufruf. 
 
Ein Beispielskript zur Illustration der einzelnen Schritte bei der Modellanpassung mit der Klasse
*mnFit* aus *PhyPraKit/phyFit* ist hier gezeigt: 
```
''' general example for fitting with class mnFit from PhyPraKit.phyFit
 - initialize data object
 - initialize fit opject 
 - perform fit (2nd order polynomial)
 - show output
'''
# Imports #
from PhyPraKit.phyFit import mnFit
import numpy as np, matplotlib.pyplot as plt

# fit function definition 
def poly2(x, a=1.0, b=0.0, c=0.0):
 return a * x**2 + b * x + c

# set fit function 
fitf=poly2 # own definition 

# Workflow #
# 1. load data 
x = [0.05, 0.36, 0.68, 0.80, 1.09, 1.46, 1.71, 1.83, 2.44, 2.09, 3.72, 4.36, 4.60]
y = [0.35, 0.26, 0.52, 0.44, 0.48, 0.55, 0.66, 0.48, 0.75, 0.70, 0.75, 0.80, 0.90]
sy = [0.06, 0.07, 0.05, 0.05, 0.07, 0.07, 0.09, 0.10, 0.11, 0.10, 0.11, 0.12, 0.10]
srx = 0.05
# 2. set up Fit object
myFit=mnFit()
# 3. initialize data object
myFit.init_data(x, y, ey=sy, erelx=srx)
# 4. initalize fit object
myFit.init_fit(fitf)
# 5. perform fit
myFit.do_fit()
# 6. retrieve results
FitResult = myFit.getResult()
# 7.make result plot
fig = myFit.plotModel()
# 8.print results
np.set_printoptions(precision=3)
print("*==* Result of fit:\n", FitResult)
# 9. finally, show plot
plt.show()
```

In [None]:
# Beispeil für phyFit hier ausprobieren
# -->

*PhyPraKit* enhält eine Reihe von einfachen Wrapper-Fuktionen, die Anpassungen mit einem
einzigen Funktionsaufruf durchführen und die verschiedenen Anwendsmöglichkeiten von 
*phyFit* illustrieren: 

 - xyFit() Funktionsanpassung mit (korrelierten) x- und y-Unsicherheiten, 
 - hFit() Maximum-Likelihood-Anpassung einer Verteilungsdichte an Histogramm-Daten,
 - mFit() Anpassung einer Nutzerdefinierten Kostenfunktion oder einer 
 Verteilungsdichte an ungebinnete Daten mit der maximum-likelood Methode,
 - xFit() Anpassung eines Modells an indizierte Daten x_i=x_i(x_j, \*par).


## 4.1 Spezielle Anwendungsfälle von numerischen Anpassungen 

Numerische Optimierungsverfahren sind aus der modernen Datenanalyse nicht mehr wegzudenken.
Einige weitergehende Anwendugsfälle, die auch schon für die Grunglagenpraktika in der Physik
relevant sind, werden im folgenden besprochen. 

## 4.1 Transformation von Parametern und Konfidenzkonturen mittels Anpassung 

Eine übliche Problemstellung in der Datenanalyse ist die Weiterverarbeitung oder Interpretation
von an Messdaten angepassten Modellparametern. So müssen häufig Ergebnisse verschiedener Messungen
kombiniert werden, oder die für eine Messung optimierte Wahl der Parameter entspricht nicht
den Parametern, die in fundamentalen theoretischen Modellen verwendet werden. Oft sind auch
Parameter in den Messergebnissen enthalten, die für bestimmte theoretische Studien nicht
relevant sind und daher entfernt werden müssen. So sind die Messgrößen in quantenphysikalischen
Prozessen häufig Raten, denen in der Quantentheorie Summen von Produkten von Kopplungskonstanten
zu Grunde liegen; in solchen Fällen muss "umparametrisiert" werden, d.h. es müssen Funktionen
der ursprünglichen Modellparameter berechnet und die Konfidenzbereiche der transformierten
Parameter bestimmt werden.

In einfachen Fällen reichen dazu die bekannten Formeln zur Fehlerfortpflanzung. 
Wenn solche Transformationen von einem Parametersatz $\{p_i\}$ auf einen anderen Satz 
$\{p'_j\}$ nicht-linear sind, dann sind die Konfidenz-Konturen der transformierten Parameter 
mit analytischen Methoden allerdings meist nicht leicht zu bestimmen. Die oben besprochenen 
Formeln zur linearisierten Fehlerfortpflanzung helfen hier nur bedingt, denn sie liefern eine 
Näherung für die Standardabweichung einer unter Umständen von der Gaußverteilung stark abweichenden 
Verteilung. Die allgemeine Problemstellung sieht also wie folgt aus:

Ein oder mehrere Parametersätze $\{ {p_i}^{(k)} \}$ sollen durch fundamentalere Parameter 
$\{p'_j\}$ dargestellt werden. Von Interesse sind dabei nicht nur die transformierten 
Parameterwerte selbst, sonderen insbesondere auch deren genaue Konfidenzbereiche. Stellt 
man die ursprünglichen Parameter als Funktionen der neuen und ggf. auch der ursprünglichen 
Parameter dar, also
$${p_i}^{(k)} = {p_i}^{(k)}\left( p_i^{(k)}, p'_j \right)\, ,$$
so kann man mittels numerischer Anpassung der $p'_j$ die neuen Parameter, deren
Unsicherheitsintervalle und Konfidenzkonturen bestimmen. Wenn es genau so viele
ursprüngliche wie transformierte Parameter gibt, stellt dieses numerische Verfahren
die Lösung eines nicht-linearen Gleichungssystems dar. 

*kafe2* enhält zur Umsetzung dieser Idee ein allgemeines Container-Format, *IndexedContainer*, 
das beliebige Eingandsdaten sowie die Berücksichtigung von deren Unsicherheiten und Korrelationen
unterstützt. Damit können als Eingebadaten z.B. auch die Ergebnisse von Anpassungen, also 
Ergebnisparameter und deren Kovarianzmatrix, in weiteren Anpassungen verwendet werden, um
mehrere Sätze von Ergebnissen zu mitteln oder um die Parameter zu transformieren. 
Dazu wird eine $\chi^2$-Kostenfunktion minimiert:
$$\chi^2 = \left( \vec{p} - \vec{p}(\vec{p}')\right)^T 
{\bf V}_\vec{p}^{-1} 
\left(\vec{p} - \vec{p}(\vec{p}')\right) \, .$$
Die ursprünglichen Parameter $\vec{p}$ mit Kovarianzmatrix ${\bf V}$ werden so durch die 
transformierten und deren Kovarianzmatrix V' dargestellt: $\vec{p'}\left( \vec{p} \right)$. 

Als einfaches Beispiel betrachten wie die Messung eines Ortes in der Ebene in Polarkoordinaten
$(r, \varphi)$, bestimmt durch Abstandsmessung und Winkelpeilung mit Unsicherheiten.
Wie sieht der $1\,\sigma$-Konfidenzbereich, also die entsprechende Kontur, in kartesischen 
Koodinaten aus?

Durch Anpassung von $(x, y)$ an die Messungen $(r\pm\sigma_r, \varphi\pm\sigma_\varphi)$
kann diese Frage beantwortet werden. 
Die folgende Funktion sorgt für die Koordinatentransformation: 
```
def cartesian_to_polar(x, y):
 # determine polar coordinats from cartesian (x,y)
 r = np.sqrt(x*x + y*y)
 phi = np.arctan2(y, x)
 return np.concatenate( (r, phi) )

```

Die Daten werden über einen Daten-Container bereit gestellt:
```
from kafe2 import IndexedContainer, Fit, Plot, ContoursProfiler

# example of parameters: (r, phi) of a space point in polar coordinates
pars = np.array([0.9, 0.755])
puncs = np.array([0.01, 0.15])
indexed_data = IndexedContainer(pars)
indexed_data.add_error(puncs)
```

Wir wollen die Funktion etwas allgemeiner halten und für den Fall vorsorgen, dass
Messungen mehrerer Punkte übergeben werden, und zwar als aneinandergehängte Arrays
mit $r$ und $\varphi$-Koordinaten.
```
def cartesian_to_polar(x, y):

 # access data container to find out how many measurements we got
 nm = len(indexed_data.data)//2 # expect 2 concatenated arrays (r and phi)

 # determine polar coordinats from cartesian (x,y)
 r = np.ones(nm)*np.sqrt(x*x + y*y)
 phi = np.ones(nm)*np.arctan2(y, x)

 return np.concatenate( (r, phi) )
```

Die Durchführung der Anpassung und die Darstellung der Ergebnisse laufen wie üblich: 
```
# Set up the fit:
fit = Fit(indexed_data, cartesian_to_polar)
fit.model_label = '$r$-$\phi$ from x-y'

# Perform the fit:
fit.do_fit()

# Report and plot results:
fit.report()
p = Plot(fit)
p.plot()

contours = ContoursProfiler(fit)
contours.plot_profiles_contours_matrix()

plt.show()

```

In [None]:
# Code für Parameter-Transformation hier eingeben
# -->

Anzumerken ist noch, dass in diesem Beispiel die Anzahl der Ausgangs- und
Ergebnisparameter gleich ist. Daher ist die Zahl der Freiheitsgrade in diesem
Fall Null, und auch der Wert von $\chi^2$ am Minimum ist exakt Null. Wenn man
mehrere Messungen der Position in $r-\varphi$ als Eingabedaten vorgibt, wird
zusätzlich zur Parametertransformation auch eine Mittelung durchgeführt, d.h. es 
handelt sich dann um eine echte Parameteranpassung mit einer von Null verschiedenen
Anzahl von Freiheitsgraden. 


#### Parametertransformation mit *phyFit*

Auch *phyFit* unterstützt mit der Klasse *xDataContainer* und der Wrapper-Funktion
*xFit()* diese Form von Anpassung an eine allgemeine Menge von Daten $\{ x_i \}$
mit durch eine Kovarianz-Matrix $\bf V$ bestimmten Unsicherheiten. 
Von Anwenderseite muss die Darstellung der Daten $\vec{x}$ als Funktion der Parameter
$\vec{p}$ bereitgestellt werden. Die Kostenfunktion für die Parameterbestimmung ist
das zweifache des negativen Logarithmus der Likelihood der multivariaten Gaußverteilung,
die für konstante, d.$\,$h. nicht vom Wert der Daten abhängende Unsicherheiten der
$\chi^2$-Kostenfunktion entspricht. 


## 4 Abschließende Anmerkungen 

Mit diesem Ausblick auf fortgeschrittenene Anpassungsprobleme endet das einführende Tutorial 
zur Behandlung von statistischen und systematischen Unsicherheiten von physikalischen Messsungen
und zur Bestimmung von Modellparametern aus Messdaten.

Hoffentlich ist es gelungen, die wesentlichen Grundlagen zu erläutern und in die praktische 
Anwendung der vorgestellten Methoden einzuführen und Ihnen damit Hilfestellungen für die
Datenauswertung in den Praktika zur Physik zu geben. 
Die Code-Beispiele sind zur freien Anwendung in Ihren eigenen Arbeiten gedacht und 
Sie können sie sicher nutzbringend einsetzen. 

---

Für die Grundlagen-Praktika reichen die in diesem Tutorial beschriebenen
Kenntnisse und Methoden aus. Viele weitere Beispiele, die für Anwendungen 
in den Fortgeschrittenenpraktika und in Bachelor-Arbeiten gedacht sind, 
werden in den auf diesem Tutorial aufbauenden Tutorials *kafe2Tutorial.ipynb*,
*negLogLFits.ipynb* und *advancedFitting.ipynb* beschrieben. 