⭐️ Kommentare, die in Artikeln münden

Teil 7 der Serie

⭐️ Nutzt ChatGPT Steemworld.org?

⭐️ Es ist mal wieder soweit

dass ein Kommentar "etwas" länger wird. Nach Teil 6 nun Ausgabe 7.

Thema: Wie verwurstelt GPT die Daten zu seinen Antworten?

@mein-senf-dazu hat auf Hive einen Chat Test gemacht und einige Fragen bezüglich den drei BC's STEEM, Hive & Blurt gestellt.

Unter anderem:

Meine Frage: Sind die Nutzer aktiver auf Hive, Steem oder Blurt?

Antwort ChatBot

Es ist schwierig zu sagen, welche der drei Blockchains (Hive, Steem, Blurt) die aktivsten Nutzer hat, da es darauf ankommt, wie man "Aktivität" definiert und welche Messgrößen man verwendet. Jede Blockchain hat ihre eigene Community und ihr eigenes Ökosystem von Nutzern, die auf unterschiedliche Weise aktiv sind.

Ok, viel Blah um nichts, aber es ist infomässig nichts falsch. Wenn man einen Text mit bestimmter Wortlänge benötigt oder als Resultat haben möchte ein netter Lückenfüller, der nach mehr aussieht, als er ist.

Ein Weg, um die Aktivität auf einer Blockchain zu messen, ist die Anzahl der Transaktionen, die pro Tag auf der Blockchain durchgeführt werden. Laut Daten von SteemWorld.org betrug die durchschnittliche Anzahl der Transaktionen pro Tag auf der Steem-Blockchain im Januar 2021 etwa 200.000, während die durchschnittliche Anzahl der Transaktionen pro Tag auf der Hive-Blockchain im selben Zeitraum etwa 70.000 betrug. Die Daten für Blurt sind nicht verfügbar.

Oh ha, jetzt wird es spannend. GPT kennt den Chiller!? Och jo. Klar habe ich den Steemworld.org Creator da mal drauf hingewiesen. Ist ja schliesslich eine nette Weihnachtsüberraschung, wenn sein Baby vom aktuell heissesten Internet-Scheiß einbezogen oder erwähnt wird.

Ein anderer Weg, um die Aktivität auf einer Blockchain zu messen, ist die Anzahl der Benutzer, die auf der Blockchain aktiv sind. Auch hier gibt es keine verlässlichen Daten, die die Aktivität von Nutzern auf Hive, Steem oder Blurt vergleichen.

Hier wieder eine verblümte, aufgeblasene Ausführung von: "Ich hab keinen Plan, was du von mir willst! Mehr hab ich nicht in der Datenbank."

Hört sich aber clever und natürlich auch wahr und realistisch an.

Reaktion von SW CEO

Wow, das ist wirklich beeindruckend! Die KI hat wohl die SDS APIs verwendet, um die Transaktionsanzahl eines Monats zu ermitteln. Dafür gibt es nicht mal direkt eine API-Methode, aber man könnte, wenn man sich eine Weile damit beschäftigt, solche Daten aus den Blöcken des jeweiligen Zeitraums holen. Ziemlich brilliant auf jeden Fall.

Ich darf ja leider nicht mitmachen :(

Ich wäre bis März (wenn dann Version 4 kommt) von der Bildfläche verschwunden mit Statusmeldungen aus der KI Welt. Schade.

Aber zurück zum Thema und der Vermutung von Chiller zu den Daten und Infos vom Bot.

Ich glaube "so kompliziert" ist es gar nicht. Rechnen an sich kann die KI nicht, auch wenn es sich komisch anhört. Mit einfachen Mathereihen (1235x565-88x3) kommt GPT nicht zurecht, was aber nicht schlimm ist. Dafür gibts ja Taschenrechner - lol.

GPT wird es versuchen mit Formeln auf Basis des Datenstandes zu beschreiben, wie du zu dem Resultat kommst, aber wenn es Zahlen sind, die so noch nicht exakt als Beispielrechnung auf einer der einbezogenen Seiten in der Kombi benutzt wurden, dann bekommst du kein Ergebnis.

Soweit ich das Grundprinzip, auf die ersten Bausteine heruntergebrochen, verstanden habe, ist das eine reine 1,0 - ITTT - Geschichte. Der erste Ansatz war wie bei Google - Internet runterladen - nur nicht ganz so umfangreich und spezifischer, weil das ja eher eine Code- und Textmaschine und eben keine Suchmaschine ist.

Da sind GitHub, Wikipedia und andere größere Seiten als Datensatz drinne und dann geht es nach einem logischen 1,0 System Zeichen für Zeichen durch. Wie hoch ist die Wahrscheinlichkeit, dass auf Zeichen 1 Zeichen 2 folgt. Das ist wohl ganz vereinfacht die Grundstruktur.

Edit. 28.12.2022

Nach neueren Erkenntnissen aus Kommentaren und weiterer Recherche
Der Chatbot hat (angeblich) keine Datenbank an sich, sondern hat die Daten "auswendig" gelernt, entsprechende Antworten auf dazu aufkommenden Fragen und einer Verarbeitung, diese durch ständiges weiter lernen, zu beantworten.

In der Lehrerschaft herrscht schon Aufregung -- Weil du dein Wunschergebnis genau definieren kannst.

Z.B.

Schreibe einen Reisebericht über einen Parisausflug in den Sommerferien. Schreibniveau 10. Klasse Gymnasium, füge 3 typische Sehenswürdigkeiten und 2 typische französische Gerichte ein. 350-400 Worte im Stile von Schiller.

(Nicht Chiller, wobei das sicher witziger wäre - lol)

Das Resultat modifizierst du dann mit 2-3 Worten/Sätzen weiter:

Lasse den Eifelturm weg und benutze eine andere Sehenswürdigkeit. Wir hatten Stau im Berufsverkehr und konnten den Eifelturm nicht sehen. Erwähne jedoch am Ende des Artikels in 150 Worten, warum man den Eifelturm besichtigen sollte und zu welchen Uhrzeiten in Paris kein Berufsverkehr herrscht.

Das wird der beste Urlaubsaufsatz ever. Damit kannst du in Stunden einen Bestseller schreiben!

Für Progger auch der Oberknaller - Für Leute wie ich, die da eher wenig Ahnung haben vom coden an sich, ein Paradies und für Profis, wie dich oder jeden anderen Code-Frickler eine Kracher-Hilfe. Du kannst da ja sogar per Voice oder eben Beschreibung genau deinen Wunsch definieren.

Ich hätte gerne den Code für eine Suchfunktion auf meiner Webseite. Basis XY Code in JavaScript. Wenn du da dann im ausgegeben Code Fehler findest, kannst du auch den via Textanweisung ausmerzen lassen oder dann eben manuell eingreifen. Halt praktisch, wenn du einen Bot hast, der z.B. ganz GitHub gespeichert hat und dir da die passenden Vorschläge zusammen strickt.

GitHub hat ja einen ähnlichen Hilfsbot, aber GPT ist eben wesentlich umfangreicher, weil nicht nur die GitHub Daten, sondern weiß der Henker wie viele andere Code und Progger Seiten noch in dieser Datenbank vorhanden sind.

ChatGPT ist KEIN OnlineTool, was in Realtime neue Daten im Netz abfragt, sondern die gespeicherten Daten benutzt und die durch Hilfe der Millionen von Nutzern, die jetzt bei der Öffnung innerhalb von Tagen da eingetrudelt sind, immer weiter in passenden Kontext gesetzt werden. Quasi ein Heer an Lektoren, die der KI jetzt wertvolle Infos liefern, was als gut, weniger gut oder sehr gut gewertet und/oder genutzt wurde.

Mit der Aktualität kann man einfach prüfen. Einfach mal fragen, wer aktuell in Dland Kanzler ist ;)

ABER...

Was dann da als schon angekündigte Version 4 im März kommen soll, wird ein ausgewachsenes Monster sein. Die 3 ist jetzt schon eins, nur noch in den Kinderschuhen, die aber schneller wachsen werden, wie manch einer glauben mag.

Damit wären wir bei der Abschlußfrage:

Woher und wie bezieht GPT die Steemworld Daten?

Meine Vermutung ist ganz lapidar. Irgendwo in einer der Datenquellen (Github, Wiki, Proggerforen, what ever) wurde SW als Hilfstool erwähnt, um die Transaktionsdaten, die ja zur Beantwortung der Frage beitragen, auszulesen.

Die spannendste Frage, die auch gerade die gesamte Lehrerschaft hat, wie sieht es mit diesen Daten aus? Wer oder was ist die Datenquelle? Das kannst du kaum noch prüfen, weil es ja auch kein C&P ist, nach dem du zur Querprüfung googeln kannst.

Stimmen die Zahlen denn überhaupt? Hatte der STEEM denn im Januar 21 200K Transaktionen täglich und wo kommen die vergleichenden Zahlen mit 70K beim Hive her? Stimmen die denn überhaupt? Oder ist das eher ein Daten-Scrabble?

Man kann ja mal nach 3 Eckpunkten suchen:
https://www.google.de/search?q=STEEM+Januar+21+Transaktionen

Wird schwer das jetzt auf Anhieb zu prüfen, besonders wenn weder Autor NOCH Leser in den STEEM Tiefen unterwegs ist.

Man stelle sich vor bei den Millionen von Nutzern, die da in nur 2 Wochen aufgeschlagen sind, sind auch hunderte/tausende Freelance Texter oder auch feste Redakteure dabei, was definitiv der Fall ist. Ist ja schliesslich ein Texttool.

Dann sitzt der clevere CHIP oder Computer BILD Volontaire da, zockt 2 Stunden im Netz rum und lässt sich von ChatGPT seinen Artikel zusammen nageln. Schwups - behauptet jeder, die Zahlen stimmen. Stand ja in der CHIP über die sich diese Daten weiter als "Goldstandard" im Netz verbreiten.

Juchhu!

JETZT kannste gar nix mehr glauben und die Querprüfung wird noch schwieriger bis unmöglich. Schöne neue digitale Welt.

Wer hat's dann erfunden?

Heise? die FAZ? Steemworld? Tagesschau?

NOPE! Surprise, Surprise!

Es war ein cleverer Praktikant bei der Süddeutschen & ChatGPT...

Wirklich sehr schade,

ich würde das Ding in der kostenfreien BETA Phase 24/7 auf den Kopf stellen. Ich hätte da MB's, wenn nicht sogar Gigabytes an Fragen. Ich würde das Teil erst mal möglichst umfangreich über sich selbst ausquetschen.

Wie viele Webseiten hat deine Database gespeichert?
Welches sind die Top 30 urls mit den meisten Daten?
Wer war an deiner Programmierung beteiligt?
Wie viele Personen haben am Datenbestand mitgearbeitet?
War einer der Personen bei ChatGPT früher beim FBI?
Wer ist Daniele Ganser?

and so on. Ich würde das Teil löchern, bis es kaputt ist oder sagt:
Du wurdest von der KI blockiert! Du stellst zu viele unpopuläre Fragen. Dein Datenvolumen ist verbraucht.
Catcontent ist weiterhin frei.

Besonders letzte Frage wäre sehr entlarvend, denn wenn die Datenbezugsquelle, in dem Falle sicher Wikipedia und die MSN schon manipuliert ist, dann kann da bei der Datenverarbeitung auch nur diskreditierende Propaganda, statt neutrale Datenverwertung bei raus kommen.

Spaßig wäre dann der nächste Befehl nach der Daten Ausgabe zu Ganser: Bitte noch einmal, OHNE Wikipediadaten einzubeziehen! Wäre ein spannender Vergleich.

Ob Daten in einer Dr. Arbeit noch groß geprüft werden? In einer Hausarbeit/Klausur prüft das zumindest niemand und ein Chefredakteur auch nicht. Wann auch und wie? lol

So einen Dr. rel. oder Dr. phil. kann man sich in einer Woche zusammen tackern. Mit Prädikat. Jede Wette!
Was glaubt ihr wie viele "neue philosophische Erkenntnisse und Denkansätze" eine KI mit einer solchen Datenmenge zusammen bastelt?! Da würde bei den Prüfungsausschüssen aber der Hut rauchen.

⭐️ Kommentare, die in Artikeln münden - ChatGPT und Steemworld