AI-on-the-edge-device icon indicating copy to clipboard operation
AI-on-the-edge-device copied to clipboard

15.7.0 Bug?

Open theunknownstarman opened this issue 1 year ago • 31 comments

Issue

Ich habe vor kurzem von 15.6.0 auf 15.7.0 upgedatet.

Seit dem fällt AI on the edge permanent aus. Die Weboberfläche ist zwar noch erreichbar, aber es werden keinerlei Messungen mehr gemacht. Reboot usw. behebt das Problem nicht. Auch stromlos machen bringt keinen Erfolg.

Hier ein Auszug aus dem Log, wenn das hilft. Auffällig ist, dass immer wieder der folg. Fehler kommt:

[0d00h05m30s] 2024-02-21T15:09:20 <ERR> [TFLITE] AllocateTensors() failed

[0d00h05m30s] 2024-02-21T14:55:16 <DBG> [TFLITE] CTfLiteClass::LoadModel [0d00h05m30s] 2024-02-21T14:55:16 <DBG> [TFLITE] CTfLiteClass::ReadFileToModel: /sdcard/config/ana-cont_1207_s2_q.tflite [0d00h05m30s] 2024-02-21T14:55:16 <DBG> [TFLITE] Loading Model /sdcard/config/ana-cont_1207_s2_q.tflite /size: 47328 bytes... [0d00h05m30s] 2024-02-21T14:55:16 <DBG> [PSRAM] Allocating Model memory (1363148 bytes, use shared memory in PSRAM)... [0d00h05m30s] 2024-02-21T14:55:16 <DBG> [TFLITE] CTfLiteClass::MakeAllocate [0d00h05m30s] 2024-02-21T14:55:16 <ERR> [TFLITE] AllocateTensors() failed [0d00h00m00s] 2024-02-21T13:55:17 <INF> [MAIN] ================================================= [0d00h00m00s] 2024-02-21T13:55:17 <INF> [MAIN] ==================== Start ====================== [0d00h00m00s] 2024-02-21T13:55:17 <INF> [MAIN] ================================================= [0d00h00m00s] 2024-02-21T13:55:17 <INF> [MAIN] PSRAM size: 8388608 byte (8MB / 64MBit) [0d00h00m00s] 2024-02-21T13:55:17 <INF> [MAIN] Total heap: 4380199 byte [0d00h00m04s] 2024-02-21T13:55:22 <INF> [MAIN] Camera info: PID: 0x26, VER: 0x42, MIDL: 0x7f, MIDH: 0xa2 [0d00h00m04s] 2024-02-21T13:55:22 <INF> [SDCARD] Basic R/W check started... [0d00h00m04s] 2024-02-21T13:55:22 <INF> [SDCARD] Basic R/W check successful [0d00h00m04s] 2024-02-21T13:55:22 <INF> [SNTP] TimeServer: 192.168.2.70 [0d00h00m04s] 2024-02-21T13:55:22 <INF> [SNTP] Configuring NTP Client... [0d00h00m04s] 2024-02-21T14:55:22 <INF> [SNTP] Time zone set to CET-1CEST,M3.5.0,M10.5.0/3 [0d00h00m04s] 2024-02-21T14:55:22 <INF> [SNTP] time zone: +0100 Delta to UTC: 3600 seconds [0d00h00m04s] 2024-02-21T14:55:22 <INF> [SNTP] Time is already set: 2024-02-21 14:55:22 [0d00h00m04s] 2024-02-21T14:55:22 <INF> [MAIN] CPU frequency: 160 MHz [0d00h00m05s] 2024-02-21T14:55:22 <INF> [SDCARD] Folder/file presence check started... [0d00h00m05s] 2024-02-21T14:55:22 <INF> [SDCARD] Folder/file presence check successful [0d00h00m05s] 2024-02-21T14:55:22 <INF> [MAIN] Tag: 'v15.7.0', Release: v15.7.0 (Commit: 0d0b018+), Date/Time: 2024-02-17 00:15, Web UI: Release: v15.7.0 (Commit: 0d0b018+) [0d00h00m05s] 2024-02-21T14:55:22 <WRN> [MAIN] Reset reason: Exception/panic [0d00h00m05s] 2024-02-21T14:55:22 <WRN> [MAIN] Device was rebooted due to a software exception! Log level is set to DEBUG until the next reboot. Flow init is delayed by 5 minutes to check the logs or do an OTA update [0d00h00m05s] 2024-02-21T14:55:22 <WRN> [MAIN] Keep device running until crash occurs again and check logs after device is up

Hat noch jemand das Problem bzw. eine Lösung?

Ich weis, dass man mit dem Fehlerbild zunächst nicht viel anfangen kann, aber wenn nötig kann ich noch weitere Info's dazu liefern. Wenn ich der einzige bin, dann liegt das Problem wohl an meiner Installation.

Die 15.4.0 lief völlig stabil ohne Ausfälle. Ich habe jetzt erstmal ein Downgrade auf diese Version gemacht und beobachte mal. Sollte sie wieder stabil laufen, dann würde ich schrittweise auf die darüberliegenden Versionen gehen und versuchen nachzuvollziehen bei welcher ein Problem sein könnte.

Benötigt AI on the edge eine dauerhafte Verbindung ins Internet? Ich habe das System vor einiger Zeit vom Internet abgekoppelt, da es ziemlich gesprächig in der Gegend "rumfunkt" und mir das aus Security Gründen nicht wirklich Recht ist.

... nur erstmal vorab zur Info bis ich mehr dazu weis.

theunknownstarman avatar Feb 21 '24 14:02 theunknownstarman

Issue

2024-02-21T14:55:22 <WRN> [MAIN] Reset reason: Exception/panic [0d00h00m05s] 2024-02-21T14:55:22 <WRN> [MAIN] Device was rebooted due to a software exception! Log level is set to DEBUG until the next reboot. Flow init is del

Ja, hier! Bei mir das selbe Problem.

Ich hatte von v13.0.8 auf v15.7.0 geupdated und lief in das selbe Problem wie Du.

Konnte dann das Binary von v13.0.8. wieder einspielen und verbinde heute den Tag damit jede einzelne Version dazwischen nacheinander einzuspielen. Bin jetzt schon bei v15.2.4 angekommen 🤣

Aber guter Hinweis von Dir, dann kann ich mich ja "trauen" gleich auf v15.6.0 zu hüpfen.

Grund für meine Updates ist übrigens das Problem der "Early Transisition" bei meiner Wasseruhr. Das letzte Digit dreht quasi kontinuierlich und der kleinste Wert für Early Transition in der Config ist bisher 6,0 - bei mir viel zu hoch. Müsste eher bei 0,5 liegen, denke ich.

Viele Grüße!

DieterBurgy avatar Feb 21 '24 16:02 DieterBurgy

ok. Läuft wieder, ABER

Downgrade hat nicht mehr funktioniert.

Vermutlich sind irgendwelche Dateien auf der SDCARD bei bestimmten Versionen verändert worden (die Config Daten der SDCARD waren ja bei den Downgrade Versuchen immer die gleichen!) und damit war dann auch bei den Vorgängerversionen keine Zählererkennung mehr ohne ständigen Absturz möglich ODER die SDCARD war defekt.

Wie bin ich vorgegangen:

  1. Sicherung der Configs
  2. Neuflashen des ESPs (vermutlich nicht unbedingt notwendig)
  3. NEUE SDCARD formatieren
  4. NEUE SDCARD mit Default Dateien füllen
  5. Default Dateien durch die in 1. gesicherten Daten ersetzen (wobei die WLAN.INI vermutlich kryptiert wurde und somit NEU gemacht werden musste)
  6. Reboot
  7. OTA Update auf die Version 15.4.0

Nach dem Install-Reboot lief AI on the edge wieder und übertrug auch via MQTT die Daten nach Home Assistant Inwieweit das Ganze jetzt stabil ist kann ich erst in ein paar Tagen sagen.

Ich bleibe jetzt erstmal bei der 15.4.0 die nächsten Tage.

theunknownstarman avatar Feb 21 '24 17:02 theunknownstarman

Firmware immer mit den dazu passenden SD Dateien benutzen, um Fehler zu vermeiden. Auch in der config.ini wurden einige neue Parameter hinzugefügt, daher würde ich auch immer die neu benutzen. Da man nach dem Update das System sowieso neu Konfigurieren/Kalibrieren muß, sind nur die Einstellungen von MQTT und InfluxDB wichtig und die kann man ja schnell auf der Webseite ändern. Ich gehe mal von aus, dass mindestens 90% der Fehler, die hier gemeldet werden, auf nicht beachten der Anleitung und das durcheinander mischen von Firmware und SD-Dateien zurückzuführen ist.

SybexX avatar Feb 22 '24 04:02 SybexX

kurze Rückmeldung: 15.4.0 läuft seit 2 Tagen stabil.

Mal sehen ob ich mich traue upzudaten ;)

theunknownstarman avatar Feb 23 '24 09:02 theunknownstarman

Ich kann bestätitgen das nach dem Update auf 15.7.0 ist meiner ebenfalls so gut wie nicht nutzbar. Unglaublich träge und die versuche das Referenzbild zu aktualisieren und neu auszurichten scheiterten bisher.

claasgo avatar Feb 25 '24 05:02 claasgo

https://github.com/jomjol/AI-on-the-edge-device/issues/2940#issuecomment-1962418942

SybexX avatar Feb 25 '24 05:02 SybexX

Ich habe seit dem Update von 16.6.0 auf 16.7.0 sehr viele Wifi reconnects, dadurch auch Probleme mit den MQTT Übertragungen.

[0d21h44m20s] 2024-03-05T06:20:39 <ERR> [MQTT IF] Other event id: [0d21h44m30s] 2024-03-05T06:20:49 <ERR> [WIFI] Disconnected, multiple reconnect attempts failed (201), still retrying... [0d21h44m43s] 2024-03-05T06:21:01 <ERR> [MQTT IF] Other event id: [0d21h44m56s] 2024-03-05T06:21:15 <ERR> [WIFI] Disconnected, multiple reconnect attempts failed (205), still retrying... [0d22h04m44s] 2024-03-05T06:41:03 <ERR> [MQTT IF] Other event id: [0d22h04m53s] 2024-03-05T06:41:11 <ERR> [WIFI] Disconnected, multiple reconnect attempts failed (205), still retrying... [0d22h08m44s] 2024-03-05T06:45:03 <ERR> [MQTT IF] Other event id: [0d22h08m51s] 2024-03-05T06:45:09 <ERR> [WIFI] Disconnected, multiple reconnect attempts failed (201), still retrying... [0d22h09m07s] 2024-03-05T06:45:25 <ERR> [MQTT IF] Other event id: [0d22h12m04s] 2024-03-05T06:48:23 <ERR> [MQTT IF] Other event id: [0d22h12m13s] 2024-03-05T06:48:32 <ERR> [WIFI] Disconnected, multiple reconnect attempts failed (205), still retrying... [0d22h12m27s] 2024-03-05T06:48:45 <ERR> [MQTT IF] Other event id: [0d22h12m38s] 2024-03-05T06:48:57 <ERR> [WIFI] Disconnected, multiple reconnect attempts failed (201), still retrying...

camodebw avatar Mar 05 '24 07:03 camodebw

Firmware immer mit den dazu passenden SD Dateien benutzen... Ich gehe mal von aus, dass mindestens 90% der Fehler, die hier gemeldet werden, auf ... durcheinander mischen von Firmware und SD-Dateien zurückzuführen ist.

Ich habe ein komplett neues System für meinen Gaszähler aufgebaut und somit keine alten Dateien. Trotzdem kann ich einige der gemeldeten Probleme bestätigen:

Ich habe ein neues ESP32-cam mit 15.7.0 geflasht (per Edge browser) und eine neue SD mit den entsprechenden files erstellt. In meinem normalen Netzwerk habe ich dann aber die Webseite von AI-on-the-edge nicht erreichen können. Ich habe dann einen GL.iNet AR300 verwendet, in dessen (W)LAN ausschließlich das ESP32-cam und mein MacBook waren. Damit konnte ich die Webseite erreichen und der Initial Setup Workflow war bedienbar. Nach dem Reboot und ein paar Minuten, in denen das System wie gewünscht (stand alone) funktionierte habe ich MQTT hinzugefügt. Auf dem MQTT Broker kamen einige publications an, jedoch waren bereits eine fehlende Daten zu erkennen, da zB der Status nicht immer alle Schritte (Foto, alignmet, ROI,... ) enthielt. Wiederum einige Minuten später habe ich das System vom Strom getrennt, um auf der SD Karte das WLAN vom GL.iNet auf mein normales Netzwerk umzustellen. Danach waren die Daten auf dem MQTT-Broker noch spärlicher und die Webseite war gar nicht mehr erreichbar. Ich habe leider wenig Zeit intensiv in ein Debugging einzusteigen, bin aber gerade sehr froh, dass ich diesen Issue-Eintrag gefunden habe, weil ich schon angefangen hatte mein Netzwerk zu debuggen. Dank dieses Issues kann ich die Fehlersuche in meinem Netz wohl beenden. ;-) Mein Eindruck ist: Je länger das System läuft und Bilder auswertet und je mehr Anfragen aus dem (W)LAN auf den ESP eintreffen, desto träger wird das System und um so mehr Fehler entstehen.

Nachdem die bisherigen Kommentare vermuten lassen, dass 15.4.0 (oder vielleicht 15.6.0?) besser funktionieren, werde ich morgen auf eine ältere Version wechseln.

parsley avatar Mar 19 '24 20:03 parsley

Ich meine in irgendeinen Beitrag gelesen zu haben, dass manche ESP32-Cams Probleme mit dem Wlan haben und nur auf Kanal 1 richtig funktionieren.

SybexX avatar Mar 19 '24 20:03 SybexX

Danke für den Hinweis, das werde ich mal gezielt testen.

parsley avatar Mar 19 '24 22:03 parsley

Kann das gesamte verhalten hier bestätigen. Hab gestern auch Blauäugig ein Update gemacht. Jetzt ist das Gerät kaum mehr im WLAN und das WebIF ist unbenutzbar. Ich hab auch die SD neu gemacht und den ESP am Rechner geflashed und es hat nix gebracht. Werde wohl einfach mal eine Version zurück Downgraden wenn der Fehler-case bekannt ist.

DaPeace avatar Mar 20 '24 06:03 DaPeace

https://github.com/jomjol/AI-on-the-edge-device/discussions/2406#discussioncomment-8846805 https://github.com/jomjol/AI-on-the-edge-device/discussions/2926

SybexX avatar Mar 20 '24 10:03 SybexX

Nachtrag: Danke für alle Hinweise und Hilfen!

Weder WLAN Kanal 1, noch andere SD Karten, noch SD-Karten mit Windows statt am Mac erstellen hat geholfen.

Ein downgrade auf 15.4.0 hat aber Abhilfe gebracht.

Wäre es möglich den Webinstaller so zu erweitern, dass man auch alte Release Versionen auswählen und flashen kann?

parsley avatar Mar 22 '24 08:03 parsley

die firmware aus dem zweiten Link von mir auch ausprobiert? https://github.com/jomjol/AI-on-the-edge-device/discussions/2926 Zwischen den Versionen wurde eigentlich nichts an der Wlan-Implementierung verändert, wie hoch ist bei dir der RSSI?

SybexX avatar Mar 22 '24 11:03 SybexX

RSSI aktuell -52 am Watermeter und -44 am Gasmeter. Würde ich also als tip top in Ordnung bezeichnen. Unifi meldet übrigens auf der Gegenseite noch leicht bessere Werte: Watermeter -39, Gasmeter -31.

Das ganze Verhalten und die sich steigernde Trägheit sieht mMn auch nicht nach (W)LAN Problemen aus. Diese Vermutung hatte ich zwar zunächst, konnte aber keine Indizien finden, die das bestätigen. Es wirkt eher, als ob CPU oder Stack mit jeder Webanfrage und jedem Konvertierungsversuch sich weiter vollfressen und das System dadurch Unresponsiv wird. Oder wurde irgendwas am Zugriff der SD geändert und es ist jetzt dort ein Nadelör entstanden?

Ich habe jetzt leider keine Gelegenheit mehr andere Softwareversionen zu testen, da bis Ostern erstmal die Familie dran ist. Die #2926 habe ich also noch nicht testen können.

Vielen Dank für den tollen Support und das geniale Projekt!

parsley avatar Mar 22 '24 20:03 parsley

hast du mehrere Endgeräte mal getestet? Es werden ja viele Java Skripte auf dem Endgerät ausgeführt, um den ESP zu entlasten, und wenn es nicht gut ausgerüstet ist könnte es zu diesem Verhalten auch kommen. Mein altes Samsung Tab E (2GB Arbeitsspeicher) reagiert auch etwas träge, mit meinem Laptop (32GB Arbeitsspeicher) habe ich jedoch keine Probleme.

SybexX avatar Mar 22 '24 20:03 SybexX

Endgeräte waren mindestens iPhone 13 Mini, MacBook Pro Mid 2015 und Dell Precision 5570. Alle drei Geräte zeigten/zeigen mit diversen Browsern das gleiche Bild. Am iPhone Safari, am Mac Firefox und Safari, am Dell mit Edge und Firefox. Das MBP ist zwar schon ein paar Tage älter, hat aber die damalige Vollausstattung an RAM und CPU (16GB & i7) und der Dell ist weder alt noch besonders schwach ausgestattet. Ob ich zwischenzeitlich noch andere Geräte versucht habe erinnere ich nicht mehr.

parsley avatar Mar 22 '24 21:03 parsley

Nachdem ich bei meinem ESP32 die Antenne umgelötet habe von der internen auf die externe, funktioniert das alles völlig problemlos. Danke für das geniale Projekt auch von mir!

DaPeace avatar Mar 27 '24 12:03 DaPeace

Ich kann bestätitgen das nach dem Update auf 15.7.0 ist meiner ebenfalls so gut wie nicht nutzbar. Unglaublich träge und die versuche das Referenzbild zu aktualisieren und neu auszurichten scheiterten bisher.

Kann ich genau so bestätigen. Ab 15.7 sehr träge, unstabil und das Referenzbild lässt sich nicht mehr erzeugen.

Beim clicken auf "Create new Reference" ist das Device erst mal nicht mehr erreichbar. Im Log sing man, das jedes mal ein Neustart gemacht wird und ebenso folgender Hinweis:

[0d00h00m05s] 2024-04-20T14:12:31 <WRN> [MAIN] Reset reason: Exception/panic
[0d00h00m05s] 2024-04-20T14:12:31 <WRN> [MAIN] Device was rebooted due to a software exception! Log level is set to DEBUG until the next reboot. Flow init is delayed by 5 minutes to check the logs or do an OTA update
[0d00h00m05s] 2024-04-20T14:12:31 <WRN> [MAIN] Keep device running until crash occurs again and check logs after device is up again

stefan04 avatar Apr 20 '24 12:04 stefan04

hast du das aktuelle rolling schon ausprobiert? https://github.com/jomjol/AI-on-the-edge-device/actions/runs/8704635427

SybexX avatar Apr 20 '24 12:04 SybexX

hast du das aktuelle rolling schon ausprobiert? https://github.com/jomjol/AI-on-the-edge-device/actions/runs/8704635427

Ja, gerade aufgespielt. Nach dem flash der neuen firmware ließ sich ein neues Ref Image erstellen. Aber das war bislang immer so nachdem ich dann die gleiche firmware nochmal geflasht habe. Oder ein aus-/einschalten hat hin und wieder auch geholfen.

Aktuell muss ich feststellen, dass es mit dem rolling auch mehrmals hintereinander funktioniert hat.

Beim aufrufen von Settings -> Configuration kommt aber nun folgende Meldung:

grafik

Diese Option sieht man auch nur wenn man dann den Expert Modus aktiviert. Was müsste dort dann eingetragen werden?

stefan04 avatar Apr 20 '24 12:04 stefan04

das taucht eigentlich auf, wenn du die passende config.ini nicht drauf hast. Welchen wert du dort auswählst ist egal, der Standardwert ist x2, dieser Wert wird nur verwendet wenn die Auto-Funktionen (entweder Auto-Exposure Control oder andere, weiß jetzt nicht so genau) deaktiviert werden.

SybexX avatar Apr 20 '24 12:04 SybexX

wenn du die passende config.ini nicht drauf hast

Das ist das größte Problem der letzten Releases. Das sollte eigentlich die Firmware regeln nicht der Enduser. Ansonsten gibt's nur unnötig Komplikationen.

Slider0007 avatar Apr 20 '24 17:04 Slider0007

Diese Migrations-Funktion verschlingt nur unnötigen Speicherplatz, wenn man ein Update von jeder Version möglich machen will. Beim rolling startet der ESP ja auch ohne die richtige config.ini, nur kommt halt dann die Warnung das da was nicht stimmt. Bei der letzten Releases wollte er nicht starten und es gab dann immer nur Boot loops^^

SybexX avatar Apr 20 '24 17:04 SybexX

Bisher war zumindest immer der Ansatz, dass vom vorherigen Release automatisch hoch migriert wurde.

Ja dann lieber den Speicherplatz für neue Features verwenden und jedem User einzeln erklären müssen wie er die Firmware irgendwie zum laufen bekommt. Auch ein Ansatz...

Slider0007 avatar Apr 20 '24 17:04 Slider0007

Aus der Industrie kenne ich das alle Versionen untereinander nicht wirklich kompatibel sind und das ist Standard so. Version 15.6.0 sollte mit 15.6.1 , 15.6.2 usw. kompatibl sein, aber die Version 15.6.0 nicht zwingend mit der Version 15.7.0 .....

SybexX avatar Apr 20 '24 17:04 SybexX

Wir haben aber kein "Industrie" Projekt und ich kann nur für mich sprechen, dass ich voll hinter @Slider0007 Meinung stehe, das ist doch nicht im Sinne der vielen "Heimanwender".....

friedpa avatar Apr 20 '24 20:04 friedpa

Grundsächlich bin ich ja eurer Meinung, nur muß man manchmal Abstriche machen, da sonst die Altlasten ein effektives Programmieren behindern und zum Teil viele neue Probleme mit sich bringen. Ich glaube der Enduser will lieber neue Funktionen haben und nimmt deshalb auch den geringen Aufwand bzw. die kleinen Probleme in kauf und Updatet das System sobald eine neue Version verfügbar ist.

SybexX avatar Apr 20 '24 20:04 SybexX

Having trouble with 15.7.0. The system crashes and reboots every time I click "take new reference image". I don't know how to proceed...

jalla2000 avatar Apr 25 '24 20:04 jalla2000

@jalla2000 Apparently the SD card files do not match the firmware version (mostly the config.ini). Either use the config.ini from 15.7.0 or try the current rolling, the problem should be fixed there.

SybexX avatar Apr 26 '24 02:04 SybexX