{ "cells": [ { "cell_type": "markdown", "id": "1ee9ebc2", "metadata": {}, "source": [ "## Einfache Beispiele zur Fehlerrrechnung" ] }, { "cell_type": "markdown", "id": "22ecac25", "metadata": {}, "source": [ "*Notebook erstellt am 03.09.2022 von C. Rockstuhl, überarbeitet von Y. Augenstein*\n", "\n", "In diesem Notebook werden wir einfache Beispiele zur Berechnung des Mittelwertes und der Standardabweichung kennenlernen. Dieses allererste Notebook wird uns vor allem auch helfen, einfache Problemstellungen zu bearbeiten und die Umgebung besser kennenzulernen. " ] }, { "cell_type": "markdown", "id": "bbaaf575", "metadata": {}, "source": [ "### Ausgangspunkt: Unsere Daten" ] }, { "cell_type": "markdown", "id": "af025c41", "metadata": {}, "source": [ "Ausgangspunkt aller unserer weiterer Betrachtungen sind zunächst einmal unsere Messgrößen. Hier gehen wir davon aus, dass wir eine gegebene Messgröße eine endliche Anzahl von Malen unter nominell gleichen experimentellen Bedingungen gemessen haben. Beispiele für eine solche Messgröße können eine Zeitspanne $t$ oder eine Ortskoordinate $x$ sein. Wir beschränken uns hier der Einfachheit halber auf skalare Größen, wie wir sie in der Vorlesung bisher diskutiert haben." ] }, { "cell_type": "markdown", "id": "7459ecc2", "metadata": {}, "source": [ "Diese Messgrößen sind also gegeben als eine endliche Anzahl von $N$ Messwerten, also $t_1, t_2, ..., t_N$. Zur besseren Handhabung werden wir alle diese Messwerte in einer Liste zusammenfassen." ] }, { "cell_type": "code", "execution_count": 1, "id": "ec362014", "metadata": {}, "outputs": [], "source": [ "meine_messwerte = [3, 4, 5, 6, 10] # Sie können hier einfach dynamisch neue Listen erstellen, die\n", " # verschiedene Werte beinhalten. Später können Sie Elemente\n", " # dieser Liste individuell adressieren.\n", " # Tendenziell können diese Listen verschiedene Variabeltypen beinhalten." ] }, { "cell_type": "markdown", "id": "dc9c1ce8", "metadata": {}, "source": [ "### Mittelwert" ] }, { "cell_type": "markdown", "id": "1ca64eb1", "metadata": {}, "source": [ "\n", "In der Vorlesung wurde der Mittelwert einer Messgröße $t$ berechnet als\n", "$$\n", "\\langle t\\rangle=\\frac{\\sum_{i=1}^N t_i}{N}\n", "$$\n", "\n", "Die Schritte zur Berechnung des Mittelwerts sehen also wie folgt aus:\n", "1. Berechnen Sie als Erstes die Summe aller gemessenen Werte der Funktion $t$.\n", "2. Teilen Sie diese Summe durch die Anzahl der Messungen, um zum Mittelwert zu gelangen.\n", "\n", "Wir definieren uns als Erstes eine Funktion, die die einzelnen Werte aufaddiert und dann diese Summe durch die Anzahl der Einträge dividert." ] }, { "cell_type": "code", "execution_count": 2, "id": "6aa785bd", "metadata": {}, "outputs": [], "source": [ "def mean(data): # Hier definieren wir den Funktionskopf. Er beinhaltet den Funktionsnamen \n", " # und das Argument, mit dem dann die Funktion aufgerufen werden muss.\n", " \n", " # Baechten Sie bitte hier und im Folgenden einige Python spezifische typische\n", " # Elemente der Formatierung. Dazu zählen vier Lehrzeichnen beim Einzug und ein \n", " # Leerzeichen zwischen zwei Operatoren.\n", "\n", " summe = 0 # Zu Beginn unserer Summation weisen wir dieser Variablen den Wert 0 zu. \n", "\n", " for element in data: # Mit dieser Schleife iterieren wir jetzt über alle Elemente unserer Summe. \n", " # Beachten Sie bitte, dass die Notation der Summe hier etwas speziell ist und \n", " # anders im Vergleich zu anderen Programmiersprachen. Sie addressieren hier exlizit \n", " # die Elemente der Liste. Versuchen Sie sich an die Notation zu gewöhnen, und verstehen \n", " # es bitte als einen Konstrukt der Sprache.\n", "\n", " summe = summe + element # Das Format dieser Einrückung ist wichtig um zu erkennen, über was hier \n", " # alles iteriert wird. Hier wird praktisch jedes einzelne Element der Liste aufsummiert.\n", "\n", " mean = summe / len(data) # Abschliessend müssen wir zur Mittelwertbildung diese Summer noch durch die Anzahl der \n", " # Elemente dividieren. \n", " # Mit dem Befehl bestimmen wir die Länge der Liste, die Anzahl der Werte also, \n", " # die zur Mittelwertbildung benötigt wird.\n", "\n", " return mean # Wir beenden die Funktion, in dem wir angeben, welches Ergebniss unsere Funktion \n", " # zurückgeben soll." ] }, { "cell_type": "markdown", "id": "91d36ee0", "metadata": {}, "source": [ "Die for-Schleife durchläuft hier also eine vorgegebene Liste und wir können direkt die Einzelwerte der Liste verwenden." ] }, { "cell_type": "code", "execution_count": 3, "id": "a2a046b4", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "5.6" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "mean(meine_messwerte) # Hier rufen Sie einfach die Funktion auf und erhalten das Ergebnis. Sie können es sich\n", " # hier anzeigen lassen oder einer neuen Variabel zuordnen." ] }, { "cell_type": "markdown", "id": "8c573c39", "metadata": {}, "source": [ "Das ist eine etwas sehr ausführliche Berechnung und wir können hier auch einfacher schreiben und auf eingebaute Routinen zurückgreifen." ] }, { "cell_type": "code", "execution_count": 4, "id": "47c130c3", "metadata": {}, "outputs": [], "source": [ "def mean_2(data):\n", " mean = sum(data) / len(data) # Alles, was wir in dieser Funktion vereinfachen, ist das direkte Summieren über\n", " # alle Elemente in der Liste mit der vordefinierten Funktion sum(). Das vereinfacht die\n", " # Rechnung ungemein. Allgemein gilt, dass wenn Sie in einer Schleife eine Operation\n", " # durchführen, die alle Elemente einer Liste betreffen, Sie üblicherweise auch einfache\n", " # Funktionen schreiben oder auf diese zurückgreifen können, in der diese Operation\n", " # direkt ausgeführt wird.\n", " return mean" ] }, { "cell_type": "code", "execution_count": 5, "id": "6f7dc5e0", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "5.6" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "mean_2(meine_messwerte)" ] }, { "cell_type": "markdown", "id": "31514fd3", "metadata": {}, "source": [ "Es ist natürtlich nicht immer notwendig, alle Funktionen selbst zu programmieren. Der Vorteil von Python ist gerade, dass sehr viele Bibliotheken open source zur Verfügung gestellt werden, und auf diese können wir hier zurückgreifen. Eine Bibliothek mit Funktionen rund um die Statistik lässt sich z.B. so einbinden:" ] }, { "cell_type": "code", "execution_count": 6, "id": "d9d21e72", "metadata": {}, "outputs": [], "source": [ "import numpy as np # Mit diesem import Befehl importieren Sie eine bestimmte Bibliothek.\n", " # Diese enthält (meistens thematisch) eine ganze Reihe von Funktionen, auf welche Sie \n", " # dann im Folgenden zurückgreifen können. \n", " # Welche Funktionen zur Verfügung gestellt werden,können Sie in den meistens \n", " # sehr umfangreichen Online-Dokumentationen nachlesen.\n", "\n", " # Wir versuchen hier überwiegend zwei Bibliotheken zu verwenden. NumPy und SciPy. \n", " # NumPy wird für alle Arten numerischer Rechnungen benötigt bei denen es vor allem darum\n", " # geht, Vektoren, Matrizen oder große mehrdimensionale Arrays zu verarbeiten.\n", " # Die Dokumentation für diese NumPy-Bibliothek finden Sie unter:\n", " # https://numpy.org\n", " \n", " # SciPy wird für viele wissenschaftliche Arbeiten verwendet, welche auf NumPy aufbauen.\n", " # Die Dokumentation für diese SciPy-Bibliothek finden Sie unter:\n", " # https://scipy.org\n", " \n", " # Es gibt eine sehr umfangreiche Standardbibliothek (dokumentiert unter \n", " # https://docs.python.org/3/library/) und viele Spezialbibliotheken. \n", " # Diese werden wir im Laufe des Kurses punktuell kennenlernrn. \n", " \n", " \n", " # Beachten Sie bitte, dass einer üblichen Konvention folgend, NumPy as np importiert wird,\n", " # was die spätere Arbeit etwas erleichtern wird. " ] }, { "cell_type": "markdown", "id": "220372a0", "metadata": {}, "source": [ "Eine erneute Berechnung des Mittelwertes erfolgt nun mit dem Befehl:" ] }, { "cell_type": "code", "execution_count": 7, "id": "89292bcd", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "5.6" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "np.mean(meine_messwerte) # Eine der zur Verfügung gestellten Funktionen ist gerade die Mittelwertbildung." ] }, { "cell_type": "markdown", "id": "0f799115", "metadata": {}, "source": [ "Sie können auch einen ganzen Satz ausgeben in dem Sie den folgenden Befehl verwenden" ] }, { "cell_type": "code", "execution_count": 8, "id": "3293178b", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Der Mittelwert unserer Messergebnisse beträgt 5.6\n" ] } ], "source": [ "print(f\"Der Mittelwert unserer Messergebnisse beträgt {np.mean(meine_messwerte)}\")\n", " # Die Logik des Printbefehls ist hoffentlich eindeutig. Sie können ihn zur Ausgabe von Text verwenden.\n", " # Wir verwenden hier sogenannte f-strings (f\"\" - das f ist wichtig!), in die wir einfach die Variable,\n", " # die wir ausgeben wollen, mit geschweiften Klammern einsetzen können.\n", " # Hier soll dann also der Mittelwert ausgegeben werden." ] }, { "cell_type": "markdown", "id": "801069c7", "metadata": {}, "source": [ "### Standardabweichung" ] }, { "cell_type": "markdown", "id": "6c110c21", "metadata": {}, "source": [ "In der Vorlesung wurde die Standardabweichung einer Messgröße $t$ berechnet als\n", "\n", "$$\n", "\\sigma_t=\\sqrt{\\frac{\\sum_{i=1}^N \\left(t_i-\\langle t\\rangle\\right)^2}{N-1}}\n", "$$\n", "\n", "Die Schritte zur Berechnung der Standardabweichung sehen also wie folgt aus:\n", "1. Berechnen Sie den Mittelwert wie oben beschrieben.\n", "2. Berechnen Sie anschliessend die Varianz für jeden Eintrag, indem Sie den Mittelwert vom Wert des Eintrags subtrahieren.\n", "3. Quadriere dann jeden dieser resultierenden Werte und summieren Sie die Ergebnisse.\n", "4. Teilen Sie dann das Ergebnis durch die Anzahl der Datenpunkte minus eins.\n", "5. Die Quadratwurzel der Varianz (oben berechnet) ist die Standardabweichung.\n", "\n", "Wir können wieder alle diese Schritte transparent in einer eigens hierfür definierten Funktion durchführen. Beachten Sie bitte, dass wir hier eine neue Bibliothek importieren müssen zur Berechnung der Wurzel." ] }, { "cell_type": "code", "execution_count": 9, "id": "8829473c", "metadata": {}, "outputs": [], "source": [ "def stdev(data):\n", " N = len(data)\n", " mean = sum(data) / N\n", " deviations = [(element - mean) ** 2 for element in data]\n", " # Hier sehen Sie zwei neue Elemente. Zum einen beachten Sie bitte, wie das Quadrat einer\n", " # Zahl berechnet wird.\n", " # Zum anderen sehen Sie hier eine noch kompaktere Version, eine for-Schleife ablaufen\n", " # zu lassen (siehe https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions).\n", " # Im Ergebniss erzeugen Sie sich hier eine Liste, deren Elemente dann gerade\n", " # den Elementen entspricht, über die Sie dann noch summieren müssen.\n", " \n", " var = sum(deviations) / (N-1) # Hier berechnen Sie nun das Argument der Wurzel. \n", " std_dev = np.sqrt(var)\n", " return std_dev" ] }, { "cell_type": "markdown", "id": "557daff8", "metadata": {}, "source": [ "In dem obigen Beispielcode haben wir eine weitere Art kennengelernt, wie man eine for-Schleife in Python programmieren kann. In diesem Falle ist es eine ein-zeilige for-Schleife, die den Code schon ziemlich kompakt erscheinen lässt. Wenn Sie sich damit unwohl fühlen, schreiben Sie einfach die for-Schleife wie oben angegeben aus." ] }, { "cell_type": "code", "execution_count": 10, "id": "540ea0a3", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2.701851217221259" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "stdev(meine_messwerte)" ] }, { "cell_type": "markdown", "id": "5f2770bf", "metadata": {}, "source": [ "Beachten Sie, auch hier hätten wir nicht zwingend die entsprechende Funktion selbst implementieren müssen, sondern wir hätten auch hier wieder auf die entsprechenden Funktionen zurückgreifen können. " ] }, { "cell_type": "code", "execution_count": 11, "id": "1292fb5a", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2.701851217221259" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "np.std(meine_messwerte, ddof = 1) # Baechten Sie hier bitte eine Besonderheit in der Implementierung in \n", " # in NumPy. Hier wird in der Berechnung der Standardabweichung dividiert\n", " # duch N und nicht durch N-1. Daher verwenden wir als ein zusätzliches Argument\n", " # ddof, was für Delta Degrees of Freedom steht. In der Division wird dann\n", " # N-ddof berücksichtig." ] }, { "cell_type": "markdown", "id": "6ff227a7", "metadata": {}, "source": [ "Damit wir wieder einen ganzen Satz als Ergebnis bekommen, können wir schreiben:" ] }, { "cell_type": "code", "execution_count": 12, "id": "44503b35", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Die Standardabweichung unserer Messergebnisse beträgt 2.4166091947189146\n" ] } ], "source": [ "print(f\"Die Standardabweichung unserer Messergebnisse beträgt {np.std(meine_messwerte)}\")" ] }, { "cell_type": "markdown", "id": "7b467ba7", "metadata": {}, "source": [ "Da es etwas unnatürlich aussieht, dass wir so viele Stellen für das Ergebnis angeben, wollen wir es besser runden auf die Anzahl der Stellen, in denen unsere Messwerte auch vorliegen. " ] }, { "cell_type": "code", "execution_count": 13, "id": "7fc8cdd6", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Die Standardabweichung unserer Messergebnisse beträgt 2.7\n" ] } ], "source": [ "print(f\"Die Standardabweichung unserer Messergebnisse beträgt {round(np.std(meine_messwerte, ddof = 1), 2)}\")\n", " # Hier benutzen wir die Funktion round zum Runden einer Zahl. Das zweite Argument gibt die Anzahl \n", " # der Nachkommastellen an, mit denen das Ergebnis angezeigt wird. In unserem Falle sehen Sie\n", " # keine zwei Nachkommastellen, da die zweite Nachkommastelle 0 ist." ] }, { "cell_type": "markdown", "id": "0f367330", "metadata": {}, "source": [ "### Beispiel: Magnetfeld" ] }, { "cell_type": "markdown", "id": "036d1ba6", "metadata": {}, "source": [ "Für die folgende einfache Datenanalyse habe ich mit dem Programm phyphox den Magnetfeldsensor meines Funktelefons für einige Zeit ausgelesen, um passende Daten zu generieren. Ich verwende im Folgenden nur die x-Komponente des Magnetfelds und gehe davon aus, dass diese keine Funktion der Zeit ist. Ich verwende hierfür im Folgenden die Bibliotheken `pandas` (Python Data Analysis Library) zum Einlesen der Daten sowie `matplotlib` zur Visualisierung. Für die Darstellung der Messdaten habe ich einige Kommandos verwendet, um die Abbildung etwas zu verbessern. Die konkreten Befehle hier sind nicht ganz so wichtig. Im Laufe der Zeit werden Sie sicherlich viele verschiedene kennenlernen. " ] }, { "cell_type": "code", "execution_count": 14, "id": "2ba3841d", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " Time (s) Magnetic Field x (µT) Magnetic Field y (µT) \\\n", "0 0.031599 39.719997 -14.04 \n", "1 0.039473 39.719997 -14.52 \n", "2 0.047468 39.899998 -14.70 \n", "3 0.055372 39.779999 -15.24 \n", "4 0.063307 39.660000 -15.78 \n", "\n", " Magnetic Field z (µT) Absolute field (µT) \n", "0 31.439999 52.566846 \n", "1 31.859999 52.948731 \n", "2 31.980000 53.205453 \n", "3 32.219997 53.411929 \n", "4 32.639999 53.733542 \n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "import pandas as pd # Wir benötigen hier die Bibliothek pandas, die oben im Text beschrieben ist.\n", " # Weitere Informationen zu den zur Verfügung gestellten Funktionen finden Sie hier:\n", " # https://pandas.pydata.org\n", "import matplotlib.pyplot as plt\n", " # Hier importieren wir eine spezielle Bibliothek zur Visualisierung unserer Daten.\n", " # Mehr Informationen zu dieser Bibliothek finden Sie hier:\n", " # https://matplotlib.org/stable/tutorials/introductory/pyplot.html\n", " # Beachten Sie hier als Besonderheit, dass ich die Bibliothek unter einem kurzen Namen\n", " # importiere, der die spätere Notation vereinfacht.\n", "\n", "df = pd.read_csv(\"Magnetfeld.csv\", sep=\",\")\n", " # Mit diesem Befehl lesen wir den Inhalt der Datei \"Magnetfeld.csv\". Schauen Sie \n", " # sich die Datei einmal in einem Texteditor an um den Aufbau zu studieren.\n", " # Sie hat also ein header mit Meta-Daten und dann die eigentlichen Messdaten.\n", " # Diese Messdaten sind mit einem Komma getrennt. Da cvs-Dateien unterschiedliche \n", " # Zeichen zur Separierung verwenden, müssen Sie das hier mitteilen.\n", " \n", "print(df.head()) # Das was als Header erkannt wurde, können Sie hier anzeigen lassen.\n", "\n", "time = df['Time (s)'] # Und dann weisen Sie die Werte in der Spalte \"Time (s)\" der Zeitvariabel zu\n", "\n", "Magnetic_field = df['Magnetic Field x (µT)']\n", " # Und mit der Spalte \"Magnetic Field x (µT)\" verfahren Sie genauso.\n", "\n", " # Im Folgenden haben wir einige Befehle, die eine Abbildung erstellen.\n", " # Wir fügen der Abbildung einen Titel hinzu und definieren, was an der x-Achse\n", " # und was an der y-Achse stehen soll. \n", "\n", "plt.title(\"X-Koponente des Magnetfelds auf meinem Schreibtisch\", size=\"x-large\")\n", "plt.ylabel(\"Magnetfeld in µT\", size=\"x-large\")\n", "plt.xlabel(\"Zeit in s\", size=\"x-large\")\n", "\n", "plt.plot(time, Magnetic_field, \"*\", markersize=6, color='b')\n", " # Der vorhergehende Befehl sagt dem Program, was genau dargestellt werden soll.\n", " # Wir plotten hier also die Werte des Magnetfeldes als Funktion der Zeit. \n", " # Da wir diskrete Messewerte haben werden die einzelnen Wertepaare als Sternchen \n", " # dargestellt mit einer Größe von 6 und das ganze in Blau. \n", "plt.show()" ] }, { "cell_type": "code", "execution_count": 15, "id": "cf85cdd4", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Der Mittelwert der x-Komponente des Magnetfeldes beträgt 39.6484\n" ] } ], "source": [ "print(f\"Der Mittelwert der x-Komponente des Magnetfeldes beträgt {round(np.mean(Magnetic_field),4)}\")" ] }, { "cell_type": "code", "execution_count": 16, "id": "b57abb13", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Die Standardabweichung der x-Komponente des Magnetfeldes beträgt 0.4404\n" ] } ], "source": [ "print(f\"Die Standardabweichung der x-Komponente des Magnetfeldes beträgt {round(np.std(Magnetic_field),4)}\")" ] }, { "cell_type": "code", "execution_count": 17, "id": "8e11d430", "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "import scipy.stats as stats # Hier importieren wir jetzt lediglich das Statistikmodul der Bibliothek SciPy.\n", " \n", "mu = np.mean(Magnetic_field)\n", "sigma = np.std(Magnetic_field)\n", "x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100) \n", " # Dieser Befehl erzeugt einen Vektor, der diskrete Werte annimmt zwischen einem \n", " # Anfangswert und einem Endwert. Wir erzeugen uns hier einen Vektor mit insgesamt \n", " # 100 Punkten.\n", " \n", "plt.hist(Magnetic_field, density=True, bins=50) \n", " # Hier plotten wir ein Histogramm der Häufigkeitswahrscheinlichkeit.\n", " # Beachten Sie bitte, dass wir diese Häufigkeit normieren, so dass die Summe der\n", " # Wahrscheinlichkeit multipliziert mit dem entsprechenden Wert des Bins (\n", " # also dem Wert auf der x-Achse) gerade eins ergibt. \n", " # Würden wir density=False setzen, würde wir einfach die Anzahl der Messwerte in\n", " # einem bestimmten Interval bekommeb\n", " \n", "plt.plot(x, stats.norm.pdf(x, mu, sigma))\n", " # Zum besseren Vergleich können wir uns hier eine Normalverteilung erzeugen. Die\n", " # drei Paramater sagen gerade an welchen Stützstellen die Funktion evaluiert \n", " # werden soll und geben den Mittelwert und die Standardabweichung der Werte an.\n", "plt.ylabel(\"Häufigkeit, mit der der Messwert auftaucht\")\n", "plt.xlabel(\"Magnetfeld in µT\")\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": null, "id": "50411e3b", "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.12" }, "vscode": { "interpreter": { "hash": "d8a2906dcb97603fb8bf6af013c33fbabb7e5937bec8c5f3e829af877692ee61" } } }, "nbformat": 4, "nbformat_minor": 5 }