ceph dati

Il mese scorso ci siamo imbattuti in un articolo che al di là della tecnica tocca interessanti tematiche.

Non si parte con la più descrittiva delle immagini a dire il vero ma, approfondendo solo un poco emerge subito qualcosa di utile.

Dove stanno andando i dati, qual è il trend del mondo dell’archiviazione?

La linea blu tratteggiata ci risponde in modo molto chiaro, il mondo dello storage si sta spostando sempre più da archivi delocalizzati - Endpoint - a grandi archivi centralizzati - Core.

Qui la fonte:

https://ceph.io/community/diving-into-the-deep/

Non è detto che siano solo su cloud pubblici, potrebbero essere anche on premise, quindi datacenter realizzati “in casa”.

Quindi grandi spazi dedicati allo storage e ci riferiamo sia a data lake (per semplificare: grossi archivi di dati grezzi) che a data warehouse (grossi archivi di dati più filtrati e strutturati).

Un link ad un articolo che ne elenca le principali differenze qui:

https://www.talend.com/it/resources/data-lake-vs-data-warehouse/

Un altro trend interessante

Un altro trend interessante in evidenza è dove vengono generati i dati, molto semplicemente nello stesso posto, sempre nel core, e nelle organizzazioni private ed aziendali.

“..Dove ci sono dati, ci sarà anche potenza di calcolo per estrarre informazioni. Nel core ci sono grandi volumi di dati ed è lì che questi dati vengono anche aggregati, filtrati, indicizzati e catalogati..”

E da qui emerge un altro dato di rilievo:

“Il disaccoppiamento di elaborazione e archiviazione è già comune nei core, sia quando parliamo di cluster di storage locali che di quelli ospitati in un cloud pubblico. La tendenza verso elaborazione e archiviazione disaccoppiati dovrebbe accelerare con la proliferazione di hardware di elaborazione specializzato come GPU, FPGA e TPU. In un'architettura dati disaccoppiata, i dati sono prevalentemente persistenti in sistemi o servizi di storage di oggetti dedicati.”

Quello che si intende raccontare è la scelta che viene operata dagli addetti ai lavori e dagli ingegneri di separare i cluster dedicati allo storage da quelli dedicati al calcolo.

L’iperconvergenza per esempio, tecnologia interessante da molti punti di vista, in primis quello della condivisione di risorse, che porta a notevoli economie di scala, non è più adeguata nell’ambito dei Big Data e delle successive elaborazioni cui sono sottoposti questi dati grezzi.

Si pensi al machine learning, all'intelligenza artificiale ecc.

Quindi quale può essere la scelta architetturale che permetta di soddisfare sia i necessari requisiti di flessibilità ed espandibilità che quelli di integrazione con sistemi di calcolo già esistenti, mantenendo anche i piedi saldi a terra dal punto di vista dell’affidabilità e degli economics, voce di progetto quest’ultima non trascurabile?

La risposta ancora una volta è Ceph

“..In un'intervista del 2018 riguardante l'archiviazione di oggetti per i big data, Mike Olson, ex CTO di Cloudera, ha usato il termine "luci spente"  per descrivere le persone che lavoravano su Ceph. Oggi, ci sono organizzazioni e iniziative come Massachusetts Open Cloud che sfruttano lo storage di oggetti Ceph nel core, fungendo sia da data lake che come parte di un data warehouse disaccoppiato..”

E qui si giunge al nocciolo della questione, come rendere economica una soluzione simile?

Ceph è nato per aggregare risorse, dischi di diversa natura in pool gestiti in modo differente, quindi non solo ssd o nvme quando il dato non lo richiede, ma anche rotativi di grandi dimensioni.

Si sposta il focus dall’esigenza di prestazione e di sicurezza, dalla caratteristica hardware spinta al numero di elementi hardware presenti.

Con Ceph in pratica più nodi ci sono meglio è, da lì derivano prestazioni e affidabilità superiori.

Quindi è possibile spingersi fino a valutare l’utilizzo di server refurbished in taluni casi e sicuramente il fatto che sia un prodotto open source senza necessità di licenze da applicare a seconda delle macchine sulle quali il software va ad operare lo rende ancora più interessante.

Cosa si può fare lo abbiamo raccontato in articoli precedenti  citando illustri utilizzatori di Ceph ma anche dal link citato all’inizio di questo contributo si può estrapolare quanto segue:

“..L’archiviazione delle funzionalità offline può spingere molti sistemi di archiviazione al limite e per assicurarci che sia all'altezza del compito, abbiamo superato i limiti di Ceph (throughput aggregato raggiunto in lettura: 79.6 GiB/s). Nel febbraio del 2020, abbiamo caricato un cluster Ceph a 7 nodi con 1 miliardo di oggetti e , a settembre, avevamo ridimensionato i nostri sforzi di test per archiviare 10 miliardi di oggetti in un cluster Ceph a 6 nodi. Ceph utilizza il posizionamento algoritmico, quindi il numero di oggetti che il cluster è in grado di memorizzare è relativo al numero di nodi. Scalando fino a centinaia di nodi e utilizzando formati come Parquet e TFRecord, Ceph è in grado di proteggere e fornire un accesso ad alta velocità a trilioni di oggetti e funzionalità..”

Dunque per concludere la scelta di questa tecnologia può essere decisiva per chi ha la necessità di realizzare un cluster di storage dedicati alla gestione di grandi quantità di dati, ma sorprendentemente anche richieste più modeste, a partire da un numero minimo di 4 nodi, sono ormai perfettamente in linea con architetture Ceph (anche in configurazione di iperconvergenza), che è dunque diventato “una soluzione hi-tech” da tenere in grande considerazione per quasi ogni esigenza.

Enterprise OSS Staff

disaster recovery

Notizia di questa settimana da fare accapponare la pelle:

https://www.dday.it/redazione/38814/ovh-e-il-datacenter-in-fiamme-perche-puo-succedere-e-perche-i-dati-sono-persi-per-sempre

Per chi non ha voglia di leggere l’articolo al post qui sopra riassumiamo in poche righe cosa è accaduto:

“..Ieri è andato a fuoco uno dei più grandi datacenter europei: una intera ala di OVH è stata devastata dalle fiamme e tutto quello che era sui server è andato in fumo. Chi non aveva previsto un disaster recovery plan ha quasi sicuramente perso tutto. Può succedere, vediamo perché.”

La frase finale è inquietante ma reale e nell’articolo si argomenta proprio del perché, seppur di rado, questo evento possa accadere.

Noi però vorremmo concentrarci su un altro tema.

Prendo a prestito la metafora della “mela marcia”, che uso spesso dal giorno in cui un mio caro amico e maestro di comunicazione me la espose per la prima volta.

Tutti noi veniamo attirati da luci e cotillons, almeno quanto dai prezzi da urlo, dai servizi all in one per un tozzo di pane o dalle promesse di performance invidiabili in offerta, ma non ci ricordiamo mai di guardare il retro di questa offerta, nella metafora della mela.

Bella, rossa, irresistibile quando guardata di fronte.

Come una Biancaneve digital dei nostri tempi vogliamo mordere il frutto che ci viene offerto, ma non ci preoccupiamo delle conseguenze, non pensiamo che possa essere avvelenata o più semplicemente marcia sul retro.

Naturalmente lungi da noi fare dei paragoni così poco lusinghieri con i servizi offerti da OVH ai propri clienti, il nostro intento è far riflettere su quale sia il costo di un dato perduto o di un disservizio prolungato.

La questione è quanto siamo disposti a rischiare pur di risparmiare?

Ma abbandonando le metafore e le prediche facciamoci una domanda più importante.

È possibile ad oggi proteggerci davvero da eventi così infausti e catastrofici con un piano di disaster recovery serio?

La risposta è sì e vogliamo aggiungere che si può fare senza spendere un patrimonio in licenze, software proprietari hypertech e ferro mega carrozzato.

Mi rivolgo all’IT manager che vede lontano e che vuole davvero offrire un servizio di livello ai propri clienti, senza disservizi, senza perdita di dati.

Oggi con tecnologie come Ceph e Proxmox, entrambi prodotti open source, supportati e assistiti da professionisti è possibile crearsi un datacenter personale, ridondato geograficamente e a prova di incendi e bombe.

“Dice, la fai facile, come al solito è solo una questione di soldi”.

No non si tratta di questo, è una questione di competenze e professionalità e di assistenza e di test di disaster recovery ecc.. ecc..

Mettere in piedi un sistema del genere con il vantaggio dei prodotti open e addirittura di hardware refurbished per certe tipologie di dati, (che non necessitano della prestazione spinta per essere acceduti), può davvero essere alla portata anche di tasche non particolarmente piene.

Naturalmente non ci si può improvvisare, serve una consulenza mirata, quello che si pagherà sarà il know how di chi ci aiuterà e la successiva assistenza.

Vorresti avere un sistema informativo ridondato che ti faccia dormire sonni tranquilli, anche a fronte di eventi catastrofici?

E avere qualcuno da chiamare in caso di necessità, non solo per la manutenzione ordinaria, che fa già i 3/4 del lavoro, ma anche per “tirare su tutto” nel momento del bisogno?

Oggi puoi averlo grazie al team di Enterprise OSS.


Contatta Enterprise OSS

© 2022 All rights reserved