Every Day Prompt Engineering Teil 7: Datenanalyse

Every Day Prompt Engineering Teil 7: Datenanalyse

[ad_1]

Eine etwas übersehene Funktion von ChatGPT ist seine Fähigkeit, Daten zu analysieren. ChatGPT ist in der Lage, Dateien zu lesen, zu analysieren und Visualisierungen, Dateien und Analysen bereitzustellen. In diesem Blogbeitrag werfen wir einen Blick darauf, wie man ChatGPT zur Datenanalyse nutzt. Um die Leistungsfähigkeit der erweiterten Datenanalyse zu demonstrieren, verwenden wir Daten aus kostenlosen Datensätzen.
Zur Veranschaulichung verwenden wir a Datensatz über die globalen Emissionen fossiler Brennstoffe von 1750 bis 2021. Der Datensatz ist recht komplex und umfasst mehr als 50.000 Zeilen und mehr als 70 Spalten. Sie werden feststellen, dass Sie mehrere Dateien gleichzeitig hochladen können. ChatGPT versucht zu verstehen, wie sie zueinander in Beziehung stehen. Zum Zeitpunkt des Verfassens dieses Artikels können Sie bis zu 750 MB mit einer einzelnen Datei mit einem Limit von 25 MB hochladen. Nachdem wir die Dateien ChatGPT zur Verfügung gestellt haben, erklären wir, was die Dateien sind und was wir zunächst mit den Daten machen wollen. In unserem Fall geht es um die weltweiten Emissionen fossiler Brennstoffe und wir möchten grafisch darstellen, wie sich die Emissionen im Laufe der Zeit entwickelt haben:

Die CSV-Datei enthält Daten zu den weltweiten Emissionen fossiler Brennstoffe von 1750 bis 2021. Die XLS-Datei enthält eine Beschreibung der Spalten. Können Sie eine Grafik erstellen, die zeigt, wie sich die Emissionen pro Land im Beobachtungszeitraum entwickelt haben?

Wenn ChatGPT dazu aufgefordert wird, liest es den Inhalt der Dateien und beginnt mit der Generierung von Python-Code, den es zur Analyse der Dateien ausführt. Es wird beschrieben, was es findet, und erklärt, wie das Diagramm gezeichnet wird. In unserem Fall haben wir Folgendes bekommen:

matplotlib.pyplot als plt importieren

# Filtern Sie den Datensatz nach relevanten Spalten

emissions_filtered = emissions_data((‘country’, ‘year’, ‘co2’)).dropna()

# Da die Visualisierung aller Länder über einen so langen Zeitraum komplex sein kann,

# Konzentrieren wir uns auf die Länder mit den höchsten Emissionen im letzten verfügbaren Jahr, um die Visualisierung zu vereinfachen.

Latest_year = emissions_filtered(‘year’).max()

top_emitter_countries = emissions_filtered(emissions_filtered(‘year’) == Latest_year).nlargest(10, ‘co2’)(‘country’)

# Filtern Sie den Datensatz so, dass nur die Länder mit den höchsten Emissionen enthalten sind

emissions_top_countries = emissions_filtered(emissions_filtered(‘country’).isin(top_emitter_countries))

# Drehen Sie die Daten zur Visualisierung

emissions_pivot = emissions_top_countries.pivot(index=’Jahr’, Spalten=”Land”, Werte=”CO2″)

# Plotten

plt.figure(figsize=(14, 8))

plt.plot(emissions_pivot, marker=””, linewidth=2)

plt.title(‘Entwicklung der CO2-Emissionen nach Ländern (Top 10 im Jahr 2021)’, Schriftgröße=16)

plt.xlabel(‘Jahr’, Schriftgröße=14)

plt.ylabel(‘CO2-Emissionen (Millionen Tonnen)’, Schriftgröße=14)

plt.legend(emissions_pivot.columns, loc=”upper left”, title=”Country”)

plt.grid(True)

plt.yscale(‘log’)

plt.tight_layout()

# Speichern Sie die Figur

plt_path=”/mnt/data/co2_emissions_development_by_country.png”

plt.savefig(plt_path)

plt_path

Nach unserer ersten Analyse können wir tiefer in die Daten eintauchen. Nehmen wir an, wir wollen wissen, wie es den Ländern der Europäischen Union im Laufe der Jahre ergangen ist:

Können Sie ein Kreisdiagramm für die CO2-Emissionen der Länder der Europäischen Union von 2010 bis 2021 erstellen?

Beachten Sie, dass wir ChatGPT nicht mitgeteilt haben, welche Länder in der Europäischen Union sind. Es tut dies von selbst und berücksichtigt sogar den Brexit:

# Liste der Länder der Europäischen Union (EU) basierend auf der gemeinsamen Mitgliedschaft um 2021 (ohne Großbritannien aufgrund des Brexit)

eu_countries = (

„Österreich“, „Belgien“, „Bulgarien“, „Kroatien“, „Zypern“, „Tschechien“, „Dänemark“,

„Estland“, „Finnland“, „Frankreich“, „Deutschland“, „Griechenland“, „Ungarn“, „Irland“,

„Italien“, „Lettland“, „Litauen“, „Luxemburg“, „Malta“, „Niederlande“,

„Polen“, „Portugal“, „Rumänien“, „Slowakei“, „Slowenien“, „Spanien“, „Schweden“

)

# Filterdatensatz für EU-Länder und die Jahre 2010 bis 2021

emissions_eu = emissions_filtered(

(emissions_filtered(‘country’).isin(eu_countries)) &

(emissions_filtered(‘year’) >= 2010) &

(emissions_filtered(‘year’) <= 2021)

)

# Aggregierte CO2-Emissionen nach Ländern

eu_co2_emissions = emissions_eu.groupby(‘country’)(‘co2’).sum()

# Das Kreisdiagramm zeichnen

plt.figure(figsize=(10, 8))

plt.pie(eu_co2_emissions, labels=eu_co2_emissions.index, autopct=”%1.1f%%”, startangle=140)

plt.title(‘CO2-Emissionen der EU-Länder (2010-2021)’, Schriftgröße=16)

plt.axis(‘equal’) # Gleiches Seitenverhältnis stellt sicher, dass der Kreis als Kreis gezeichnet wird.

# Speichern Sie die Figur

pie_chart_path=”/mnt/data/eu_co2_emissions_pie_chart.png”

plt.savefig(pie_chart_path)

pie_chart_path

Wenn wir uns nun die Grafik ansehen, sieht sie fast gut aus, aber nicht großartig. Einige der Etiketten liegen zu nah beieinander und sind schwer zu lesen, aber es ist ein guter Anfang. Sie können ChatGPT beispielsweise bitten, dies zu verbessern, indem Sie eine farbige Legende hinzufügen. Wir werden uns jedoch weiterhin mit den Daten befassen. Wir werfen einen Blick darauf, wie sich die Emissionen Deutschlands im Laufe der Jahre verändert haben:

Können Sie ein Balkendiagramm erstellen, das die Entwicklung des Anteils der CO2-Emissionen für Deutschland darstellt?

Beachten Sie, dass ChatGPT automatisch den gesamten Datensatz verwendet, da wir ChatGPT nicht erklärt haben, dass wir den Beitrag Deutschlands zu den Emissionen der Europäischen Union sehen möchten:

Um ein Balkendiagramm zu erstellen, das die Entwicklung des Anteils der CO2-Emissionen für Deutschland darstellt, konzentriere ich mich darauf, die jährlichen CO2-Emissionen als Anteil der Gesamtemissionen Deutschlands über den angegebenen Zeitraum darzustellen. Dabei wird der Anteil der jährlichen Emissionen an den Gesamtemissionen aller beobachteten Jahre im Datensatz für Deutschland berechnet.

Fahren wir mit der Extraktion der CO2-Emissionsdaten Deutschlands, der Berechnung der jährlichen Anteile und der anschließenden Erstellung des Balkendiagramms fort. Am Ende haben wir das Balkendiagramm mit dem Beitrag Deutschlands zu den weltweiten Emissionen erhalten. Nun wollen wir klären, wann Deutschland irgendwann den Punkt erreichen wird, an dem es überhaupt keine Emissionen mehr gibt:

Führen Sie eine Trendanalyse für die Deutschland-Daten aus dem letzten Balkendiagramm durch. Wann können wir damit rechnen, den Nullpunkt zu erreichen?

ChatGPT beginnt mit einem linearen Regressionsmodell und berechnet den Zeitpunkt, an dem Null erreicht werden soll:

Um den Trend der CO2-Emissionen für Deutschland zu analysieren und abzuschätzen, wann die Emissionen Null erreichen könnten, können wir ein lineares Regressionsmodell für die jährlichen CO2-Emissionsdaten verwenden. Dieser Ansatz wird es uns ermöglichen, den Trend in die Zukunft zu projizieren und anhand der historischen Daten abzuschätzen, wann die Emissionen gegen Null gehen könnten.

Leider werden wir den Nullpunkt erst im Jahr 2100 erreichen. Sehen Sie sich noch einmal an, wie ChatGPT Annahmen trifft, wenn nicht anders angegeben:

Basierend auf dem linearen Regressionsmodell, das an die CO2-Emissionsdaten Deutschlands angepasst wurde, sagt die Trendanalyse kein Jahr voraus, in dem die CO2-Emissionen innerhalb des prognostizierten Bereichs bis zum Jahr 2100 Null erreichen werden. Dieses Ergebnis legt nahe, dass das lineare Modell, das auf historischen Daten basiert, geht nicht davon aus, dass die Emissionen im aktuellen Trend auf Null sinken werden. Es ist wichtig zu beachten, dass ein lineares Regressionsmodell die Komplexität der CO2-Emissionstrends möglicherweise nicht genau erfasst, insbesondere unter Berücksichtigung möglicher Änderungen von Richtlinien, Technologien und wirtschaftlichen Faktoren im Laufe der Zeit. Ausgefeiltere Modelle oder Analysen, möglicherweise unter Einbeziehung dieser Faktoren, könnten einen anderen Ausblick darauf ermöglichen, wann Deutschland Null-Emissionen erreichen könnte.

Da ChatGPT uns mitteilt, dass ein lineares Regressionsmodell die Trends möglicherweise nicht genau erfasst, können wir uns für andere Modelle entscheiden. Wenn Sie mit anderen Modellen vertraut sind, können Sie ChatGPT einfach bitten, ein anderes Modell zu verwenden. Oder Sie fragen, welche Modelle es gibt, die wir verwenden können:

Welche anderen Modelle außer dem linearen Regressionsmodell können Sie auf die Daten anwenden? Geben Sie mir eine Liste und ordnen Sie die Elemente nach ihren Stärken und Schwächen.

ChatGPT stellt eine Liste von Modellen bereit, die auf die Daten angewendet werden können. Wir entscheiden uns für ARIMA (Autoregressive Integrated Moving Average) und lassen ChatGPT seine Arbeit machen. Wenn Sie mit einem Modell nicht vertraut sind (wie ich mit ARIMA), denken Sie daran, die Analyse von ChatGPT noch einmal mit Leuten zu überprüfen, die wissen, wie man das Modell verwendet. Sie können ChatGPT auch selbst um Erklärungen zu den Berechnungen bitten und es bitten, die Ergebnisse noch einmal zu überprüfen. Hier Sie können die Konversation mit Ausnahme der hochgeladenen Dateien finden.

Datenbereinigung, -transformation und -aggregation

In den Beispielen haben wir die Daten so verwendet, wie sie bereitgestellt wurden. Abhängig von der Qualität der verfügbaren Daten müssen Sie die Daten möglicherweise zuerst bereinigen. Dies erfordert Kenntnisse über die Daten, insbesondere wenn die Daten schlecht strukturiert („schmutzig“) sind. Sie können ChatGPT jedoch bitten, es durchzugehen und die Feldtypen umzustrukturieren, neu zu formatieren und die Daten so vorzubereiten, dass Sie damit arbeiten können.

Die Hauptbeschränkung ist die Größe der Datensätze. Große Dateien mit Millionen von Zeilen können nicht wirklich verarbeitet werden. Wie bereits erwähnt, können Sie Dateien mit etwa 25 MB hochladen und problemlos 100.000 Datenzeilen verarbeiten. Außerdem gibt es eine Verarbeitungszeitbegrenzung von 60 Sekunden: Wenn ChatGPT länger für die Verarbeitung der Daten benötigt, schlägt die Verarbeitung fehl.

Zusätzliche Funktionen der erweiterten Datenanalyse

Es ist wichtig, einige andere bemerkenswerte Funktionen hervorzuheben, die ChatGPT standardmäßig bietet.

  1. Statistische Analyse: Dies beinhaltet die Durchführung verschiedener statistischer Tests und Analysen, wie z. B. Hypothesentests, die Analyse von Korrelationen, die Durchführung von Regressionsanalysen und die Durchführung komplexerer statistischer Modellierungen.
  2. Maschinelles Lernen: Dieser Bereich ermöglicht die Erstellung und Bewertung von Modellen für maschinelles Lernen. Zu den Aktivitäten gehören die Datenvorbereitung, das Feature-Engineering, die Auswahl von Modellen, deren Training, die Bewertung ihrer Leistung und die Erstellung von Vorhersagen. Dieses Thema ist umfassend genug, um eine eigene Diskussion zu rechtfertigen.
  3. Textanalyse: Beim Umgang mit Textdaten können zahlreiche Aufgaben durchgeführt werden, darunter die Vorverarbeitung von Texten, die Analyse von Stimmungen, die Modellierung von Themen und die Anwendung anderer Methoden der Verarbeitung natürlicher Sprache (NLP).

Abschluss

Unsere Untersuchung der Datenanalyse zeigt die robusten und oft unterschätzten Fähigkeiten von ChatGPT im Bereich der Datenanalyse. Von der Verarbeitung komplexer Datensätze wie den globalen Emissionen fossiler Brennstoffe von 1750 bis 2021 bis hin zur Ausführung anspruchsvoller statistischer, maschineller Lern- und Textanalyseaufgaben zeigt ChatGPT eine bemerkenswerte Vielseitigkeit, die sich mit einfachen Eingabeaufforderungen problemlos nutzen lässt.

[ad_2]

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *