Storing bij één van de 1A-internet leveranciers

    Startdatum 2021-08-02 01.30
    Einddatum

     

    Er speelt een storing bij de leverancier van de 1A-internetlijnen.

    We hebben dit bij onze leverancier aangekaart, zij zijn het aan het onderzoeken.

     

    Impact:

    Meerdere 1A-internet verbindingen zijn offline, zowel DSL als glas.

     

    Update 7:55

    Wij hebben de storing gedetecteerd en bij de leverancier gemeld.

     

    Update 9:35

    We hebben meerdere keren telefonisch contact met de leverancier opgenomen, de leverancier geeft aan het probleem te onderzoeken.

    We hebben een lijst met getroffen internetlijnen naar de leverancier gestuurd.

     

    Update 11:00

    De leverancier heeft nog geen inhoudelijke update beschikbaar.

     

    Update 13:38

    De leverancier heeft nog steeds geen update over de oorzaak of oplostermijn.

     

    Update 15:26

    De leverancier heeft  nog geen update gegeven.

     

    Update 16.35

    De leverancier heeft uitgesloten dat het een hardware probleem is, maar nog geen oplostermijn aangegeven.

     

     

    [OPGELOST] Netwerkstoring in Datacenters A en D

    Startdatum 2021-07-21 12:45
    Einddatum 2021-07-21 13:20


    Er is een storing gaande in datacenters A en D.

    De leverancier die deze datacenters beheert onderzoekt wat er aan de hand is.

     

    Impact:
    De storing zorgt ervoor dat lopende sessies met de Cloud-Werkplek tijdelijk verbroken zijn.

    Telefonie is tijdelijk niet bereikbaar voor inkomende en uitgaande gesprekken.

     

    Update 13:00

    De netwerkstoring lijkt grotendeels verholpen.

    U kunt weer verbinden met uw Cloud-Werkplek, openstaande programma’s zullen daarin nog steeds actief zijn.

     

    Update 13:20

    De netwerkstoring lijkt verholpen, alle diensten zijn weer beschikbaar.

    Zodra de leverancier de oorzaak van de storing heeft achterhaald, zullen we dit hier melden.

    [OPGELOST] Packetloss in Datacenter-A

    Startdatum 2021-07-15 11:42
    Einddatum 2021-07-15 14:00

     

    Er speelt een storing in Datacenter-A.
    Onze monitoring geeft aan dat er kleine verstoringen optreden in het netwerkverkeer.

    We zijn aan het onderzoeken wat er precies aan de hand is.

     

    Impact:
    De storing zorgt ervoor dat gebruikers korte hakkelingen kunnen ervaren in telefoongesprekken.

     

    Update 13:55

    Het probleem werd veroorzaakt doordat alle virusscanners van één leverancier tegelijk meerdere keren een volledige update van hun virusdatabase gedownload hebben.

    Dit is gebeurd door een bug waarvoor de leverancier van dat pakket nu een oplossing aan het verzorgen is.

    In afwachting daarvan hebben wij er voor gezorgd dat dit gedrag geen netwerkverstoring meer oplevert.

    [OPGELOST] Gepland netwerk-onderhoud in Datacenter-A

    Startdatum 2021-07-17 00:00
    Einddatum 2021-07-17 06:00

     

    De provider van datacenter-A heeft werkzaamheden gepland in de nacht van vrijdag 16-juli op zaterdag 17-juli.

    Zij verwachten dat onze systemen hierbij korte onderbrekingen in de verbinding met internet kunnen ervaren.

     

    Impact:

    Lopende telefoongesprekken en Cloud-Werkplek sessies kunnen haperen, de verbinding kan verbroken worden.

    Met verbroken Cloud-Werkplek sessies kan opnieuw verbonden worden, de sessie wordt niet afgemeld door dit onderhoud.

    [REASON FOR OUTAGE] Storing in één van onze datacenters (datacenter-D)

    RFO Cloud-opslag Delft

    Dit betreft de storing die is opgetreden op 08-07-2021 in onze systemen in Datacenter-D.

    Dit artikel is een work in progress en zal nog verder worden bijgewerkt.

    Laatste update: 20 juli 10:00

     

    Achtergrond

    1A gebruikt Proxmox als virtualisatieplatform voor het aanbieden van haar cloud-diensten. De opslag in dit platform bestaat uit een Ceph cluster. Ceph is software waarmee verschillende machines met SSDs of harddisks worden samengevoegd tot een enkele grote opslagmogelijkheid, die door Proxmox wordt gebruikt. Voor de locatie Delft bestaat het Ceph-cluster uit zes servers met elk 10 SSD’s, en vijf servers met elk 10 HDD’s, goed voor samen ongeveer 200 TB SSD-opslag en 550 TB HDD-opslag. Ceph zorgt voor dataveiligheid door alle data drie keer op te slaan, en is daardoor bestand tegen het uitvallen van een of meerdere SSD’s of HDD’s, of zelfs het uitvallen van een hele server.

    De koppeling tussen de daadwerkelijke SSDs of harddisks en de virtuele laag wordt bereikt door middel van software, zogeheten “osd daemons“. Voor elke SSD of harddisk draait er een osd daemon die het bijbehorende stukje opslag toevoegt aan de grote pool.

     

    Van tijd tot tijd moet de Ceph software geupdate worden. Ceph is open source, maar een enterprise-variant wordt door Proxmox tegen betaling beschikbaar gesteld. 1A gebruikt de enterprise-updates van Proxmox, zowel voor de Proxmox software als voor de Ceph software.

    Updates worden door 1A altijd eerst getest op het test-cluster, en daarna doorgevoerd op het Proxmox cluster dat 1A voor ontwikkeling en eigen data in gebruik heeft. Pas nadat deze systemen met de updates minstens vier weken zonder problemen hebben gedraaid, wordt er overwogen om de system te updaten waarmee de Cloud-diensten aan klanten worden geleverd.

     

    Tijdlijn

    • 7 juli 19:00 Engineers van 1A beginnen aan de upgrade van de ceph software.
    • 7 juli 23:00 De upgrade is afgerond. Het systeem ziet er stabiel uit.
    • 8 juli 07:30 Engineers merken op dat er tussen 24:00 en 07:00 een tiental osd-daemons is gecrashed. Ceph heeft geprobeerd om de nu ontbrekende opslag te herstellen uit de overgebleven kopieen. In een aantal gevallen was er nog maar 1 kopie van de data aanwezig, waardoor Ceph dit stuk opslag als alleen-lezen heeft gemarkeerd.
    • 8 juli 07:30 Engineers controleren de opslag van de gecrashte osd-daemons en voegen ze weer toe aan het systeem. Een deel van de problemen is hiermee opgelost. Enkele osd-daemons kunnen echter niet meer toegevoegd worden of vallen na het toevoegen wederom uit het systeem.
    • 8 juli 08:30 Er wordt besloten om externe expertise in te schakelen van het bedrijf Croit, dat gespecialiseerd is in grote opslag, o.a. met Ceph.
    • 8 juli 09:30 De engineers van Croit kijken mee naar de problemen op het systeem. Ook één van de makers van Ceph kijkt mee.
    • 8 juli 11:45 De data van de falende osd-daemons wordt in Ceph gemarkeerd als verloren, waardoor Ceph de derde kopie opnieuw genereert op basis van de bestaande twee kopieen. De storage is nu weer voor alle VMs beschikbaar.
    • 8 juli 12:50 Om meer informatie te krijgen wordt er op verzoek van Croit een osd-daemon offline gehaald.
    • 8 juli 13:06 Aangezien er weer klachten worden gemeld wordt deze osd-daemon weer gestart.
    • 8 juli 14:00 Het overleg met Croit loopt te einde. De conclusie is dat de enige manier om te garanderen dat de opslag weer betrouwbaar is, is om alle data van het cluster af te halen en het hele cluster opnieuw op te bouwen.
    • 8 juli 14:00 – nu Engineers van 1A monitoren het systeem actief om te bewaken dat uitvallende osd-daemon meteen weer kunnen worden toegevoegd aan het systeem. Dat gebeurt nog een enkele keer.
    • 8 juli 15:00 Er wordt een plan gemaakt om de dienstverlening veilig te kunnen stellen, en ondertussen het cluster opnieuw op te bouwen.
    • 8 juli 16:00 Er worden nieuwe SSDs besteld (22x 4TB) om als tijdelijke opslag te kunnen fungeren.
    • 8 juli 19:00 De nieuwe SSDs worden in RAID-configuratie geplaatst in vijf van de zes virtualisatie-nodes.
    • 8 juli 20:00 – 9 juli 08:00 Data wordt (live) verplaatst van de Ceph-opslag naar de nieuwe lokale SSD-opslag. Dit levert geen onderbreking op, wel mogelijk een wat trager reagerend systeem tijdens het verplaatsen.
    • 9 juli 09:30 Er worden SSDs in RAID-configuratie geplaatst in de zesde virtualisatie-node.
    • 9 juli 10:00 – 15:30 De resterende VMs worden in overleg met de partners en klanten verplaatst naar de lokale storage.
    • 9 juli 16:00 Een laatste paar VMs dat eerder niet wilde verplaatsen is nu ook overgezet. Hierna zijn alle VMs weer operationeel.
    • 9 juli 17:00 Er staat nu geen data meer op de Ceph SSD opslag. De situatie is weer stabiel en wordt actief gemonitord. Verdere acties zullen nog volgen.
    • 9 juli 21:00 Een van de Ceph developers heeft een mogelijk issue gevonden in de software: https://tracker.ceph.com/issues/51619
    • 12 juli 08:00 Er wordt gewerkt aan een plan om te kunnen bevestigen dat de gevonden bug de enige oorzaak is van het opgetreden probleem
    • 13 juli 19:00 Na overleg met de Ceph developers wordt er met de bovengenoemde fix gekeken of de in de opslag gevonden problemen kunnen worden verholpen.
    • 15 juli 14:00 De ceph developers hebben nog een bug gevonden die van invloed is geweest: https://tracker.ceph.com/issues/51682
    • 17 juli 18:00 De SSD storage pool is opnieuw aangemaakt. Een paar interne VM’s zijn terug verplaatst.
    • 19 juli 20:00 Na overleg met de partner is een klein aantal klant-VMs terug verplaatst naar de SSD-opslag. De overige VMs zullen in de loop van de week gefaseerd volgen.

    Toekomst

    Nadat het acute probleem hersteld is, is door 1A ook nagedacht over hoe soortgelijke problemen in de toekomst voorkomen kunnen worden. Hiervoor zijn of worden de volgende maatregelen genomen:

    • De monitoring van de verschillende onderdelen van het redundante systeem is uitgebreid;
    • De signalering van systemen buiten werktijd is verbeterd;
    • Systeemonderhoud zal vanaf nu meer in het weekend plaatsvinden;
    • De communicatie met partners bij storingen wordt verbeterd

    [OPGELOST] Storing in één van onze datacenters (datacenter-D)

    Startdatum 2021-07-08 00:00
    Einddatum 2021-07-09 17:00


    Er is een storing gaande in datacenter-D.

    Veel van de klant-systemen reageren traag waardoor sommige diensten niet goed werken.

     

    Impact:
    De storing zorgt ervoor dat gebruikers traagheid in hun sessies ervaren of niet kunnen inloggen in de Cloud-Werkplek.

     

    Update 09:30:
    Er speelt een probleem in de performance van de storage van het getroffen cluster, we zijn hard bezig met het onderzoeken van de oorzaak zodat we het probleem kunnen oplossen.

     

    Update 10:30:
    We zijn nog druk bezig met het vinden van de oorzaak en een oplossing.

     

    Update 11:05

    We hebben gelokaliseerd in welk onderdeel het probleem optreedt en zijn een oplossing aan het zoeken.

     

    Update 11:30

    We zijn een mogelijke oplossing aan het doorvoeren, we verwachten rond 12:30 te zien of dit het gewenste resultaat oplevert.

     

    Update 12:30

    Het lijkt er op dat de oplossing het gewenste resultaat oplevert, klanten kunnen en mogen weer inloggen in de Cloud-Werkplek.

    Als u nog problemen ervaart horen we het graag.

     

    We zijn nog bezig met het doorvoeren van de oplossing en controles daarvan.

    Daarna zullen we verder onderzoeken wat de achterliggende oorzaak is en hoe we dit in de toekomst kunnen voorkomen.

     

    Update 13:00

    Tijdens het doorvoeren van de oplossing treden er soms momenten op waarbij sommige servers even niet reageren, dit kan van een paar seconden tot een paar minuten duren.

     

    Update 14:40

    Zeer binnenkort zal onderhoud uitgevoerd worden om het probleem volledig op te lossen.
    We zijn hiervoor een plan aan het opstellen

     

    Update 17:00

    Het onderhoud zal vanavond uitgevoerd worden.

    Het plan hiervoor is zo opgesteld dat de klant-omgevingen hiervan geen hinder zullen ondervinden.

     

    Update 9-juni 10:00

    Het onderhoud van afgelopen nacht is succesvol en zoals gepland verlopen. Vandaag zal op de achtergrond verder gewerkt worden aan de systemen die nu offline gehaald zijn zodat de dienstverlening weer optimaal functioneert.

     

    Update 9-juni 17:00

    Het directe probleem is verholpen en de systemen draaien weer stabiel.

     

    Een technische uitleg van de achterliggende oorzaak en genomen stappen is beschikbaar in onderstaand artikel. Daarin zal ook aangegeven worden welke vervolgstappen we nog gaan ondernemen. https://www.1afa.com/storingen/2021/07/09/reason-for-outage-storing-in-een-van-onze-datacenters-datacenter-d/

    [OPGELOST] VaMo heeft verminderde beschikbaarheid

    Startdatum 2021-07-02 09:12
    Einddatum 2021-07-02 14:35

     

    Er is een verstoring opgetreden in de beschikbaarheid van de VaMo bij onze 4G provider.
    De oorzaak van het probleem wordt onderzocht.

     

    Impact:
    Een aantal mobiele telefoons die gebruik maken van VaMo zijn soms niet goed bereikbaar, dit geldt voor zowel bellen als data.

     

    Update 10:53:
    Onze 4G provider heeft het probleem gevonden en is dit aan het herstellen. 

     

    Update 14:35:
    De 4G provider heeft aangegeven dat ze de oorzaak hebben gevonden en de storing hebben opgelost.

    [OPGELOST] DNS gedeeltelijk verstoord door DDos aanval

    Startdatum 2021-05-05 10:33

    Einddatum 2021-05-05 10:56

     

    Er is een verstoring opgetreden in de bereikbaarheid van de DNS nameservers.

     

    Impact:

    Een aantal websites en cloud-omgevingen zijn soms niet bereikbaar doordat de domeinnaam niet gevonden wordt.

     

    Update 11:34

    Onze datacenter-provider geeft aan dat ze aanpassingen doorvoeren om dergelijke aanvallen in het vervolg beter op te kunnen vangen.

    [OPGELOST] Storing bij binnenkomende gesprekken op buitenlandse nummers

    Startdatum 2021-05-04 10:54
    Einddatum 2021-05-04 11:38

     

    Er speelt op dit moment een storing met binnenkomende gesprekken naar buitenlandse nummers.

    De storing treft geen uitgaande gesprekken naar buitenlandse nummers.
    De oorzaak van het probleem wordt onderzocht.

     

    Impact:

    Als u geen buitenlandse nummers bij ons afneemt, heeft u geen last van deze storing.

    Uw buitenlandse nummer ontvangt geen binnenkomende gesprekken.

    Uw Nederlandse nummers zijn wel bereikbaar, ook vanuit het buitenland.

     

    Update 11:38

    De partij die de routering voor de buitenlandse nummers verzorgt, heeft gemeld dat zij de storing hebben verholpen. 

     

    [OPGELOST] Gedeeltelijke netwerkstoring in datacenter-A

    Startdatum 2021-04-01 03:13
    Einddatum 2021-04-01 08:05

     

    Onze datacenter-provider geeft aan dat er op dit moment netwerkstoringen (packet loss) optreden in de verbinding naar één van onze datacenters. Dit houd in dat er soms stukjes uit de communicatie weg vallen. 

    De provider is hard aan het werk om het probleem te verhelpen.

     

    Impact:

    Wanneer u verbonden bent met uw Cloud-Werkplek kan het scherm soms even niet reageren.

    Geluid in de telefonie kan soms even hakkelen.

     

    Update 08:45
    Onze datacenter-provider heeft het verkeer omgeleid en daarmee zijn de verbindingen weer stabiel.

    De provider is nog bezig met onderzoek naar de oorzaak.

     

    Update 10:30

    De storing is sinds 08:05 geheel opgelost.

    Wanneer de datacenter-provider de achterliggende oorzaak heeft achterhaald, zullen we dat doorgeven