ceph dati

Il mese scorso ci siamo imbattuti in un articolo che al di là della tecnica tocca interessanti tematiche.

Non si parte con la più descrittiva delle immagini a dire il vero ma, approfondendo solo un poco emerge subito qualcosa di utile.

Dove stanno andando i dati, qual è il trend del mondo dell’archiviazione?

La linea blu tratteggiata ci risponde in modo molto chiaro, il mondo dello storage si sta spostando sempre più da archivi delocalizzati - Endpoint - a grandi archivi centralizzati - Core.

Qui la fonte:

https://ceph.io/community/diving-into-the-deep/

Non è detto che siano solo su cloud pubblici, potrebbero essere anche on premise, quindi datacenter realizzati “in casa”.

Quindi grandi spazi dedicati allo storage e ci riferiamo sia a data lake (per semplificare: grossi archivi di dati grezzi) che a data warehouse (grossi archivi di dati più filtrati e strutturati).

Un link ad un articolo che ne elenca le principali differenze qui:

https://www.talend.com/it/resources/data-lake-vs-data-warehouse/

Un altro trend interessante

Un altro trend interessante in evidenza è dove vengono generati i dati, molto semplicemente nello stesso posto, sempre nel core, e nelle organizzazioni private ed aziendali.

“..Dove ci sono dati, ci sarà anche potenza di calcolo per estrarre informazioni. Nel core ci sono grandi volumi di dati ed è lì che questi dati vengono anche aggregati, filtrati, indicizzati e catalogati..”

E da qui emerge un altro dato di rilievo:

“Il disaccoppiamento di elaborazione e archiviazione è già comune nei core, sia quando parliamo di cluster di storage locali che di quelli ospitati in un cloud pubblico. La tendenza verso elaborazione e archiviazione disaccoppiati dovrebbe accelerare con la proliferazione di hardware di elaborazione specializzato come GPU, FPGA e TPU. In un'architettura dati disaccoppiata, i dati sono prevalentemente persistenti in sistemi o servizi di storage di oggetti dedicati.”

Quello che si intende raccontare è la scelta che viene operata dagli addetti ai lavori e dagli ingegneri di separare i cluster dedicati allo storage da quelli dedicati al calcolo.

L’iperconvergenza per esempio, tecnologia interessante da molti punti di vista, in primis quello della condivisione di risorse, che porta a notevoli economie di scala, non è più adeguata nell’ambito dei Big Data e delle successive elaborazioni cui sono sottoposti questi dati grezzi.

Si pensi al machine learning, all'intelligenza artificiale ecc.

Quindi quale può essere la scelta architetturale che permetta di soddisfare sia i necessari requisiti di flessibilità ed espandibilità che quelli di integrazione con sistemi di calcolo già esistenti, mantenendo anche i piedi saldi a terra dal punto di vista dell’affidabilità e degli economics, voce di progetto quest’ultima non trascurabile?

La risposta ancora una volta è Ceph

“..In un'intervista del 2018 riguardante l'archiviazione di oggetti per i big data, Mike Olson, ex CTO di Cloudera, ha usato il termine "luci spente"  per descrivere le persone che lavoravano su Ceph. Oggi, ci sono organizzazioni e iniziative come Massachusetts Open Cloud che sfruttano lo storage di oggetti Ceph nel core, fungendo sia da data lake che come parte di un data warehouse disaccoppiato..”

E qui si giunge al nocciolo della questione, come rendere economica una soluzione simile?

Ceph è nato per aggregare risorse, dischi di diversa natura in pool gestiti in modo differente, quindi non solo ssd o nvme quando il dato non lo richiede, ma anche rotativi di grandi dimensioni.

Si sposta il focus dall’esigenza di prestazione e di sicurezza, dalla caratteristica hardware spinta al numero di elementi hardware presenti.

Con Ceph in pratica più nodi ci sono meglio è, da lì derivano prestazioni e affidabilità superiori.

Quindi è possibile spingersi fino a valutare l’utilizzo di server refurbished in taluni casi e sicuramente il fatto che sia un prodotto open source senza necessità di licenze da applicare a seconda delle macchine sulle quali il software va ad operare lo rende ancora più interessante.

Cosa si può fare lo abbiamo raccontato in articoli precedenti  citando illustri utilizzatori di Ceph ma anche dal link citato all’inizio di questo contributo si può estrapolare quanto segue:

“..L’archiviazione delle funzionalità offline può spingere molti sistemi di archiviazione al limite e per assicurarci che sia all'altezza del compito, abbiamo superato i limiti di Ceph (throughput aggregato raggiunto in lettura: 79.6 GiB/s). Nel febbraio del 2020, abbiamo caricato un cluster Ceph a 7 nodi con 1 miliardo di oggetti e , a settembre, avevamo ridimensionato i nostri sforzi di test per archiviare 10 miliardi di oggetti in un cluster Ceph a 6 nodi. Ceph utilizza il posizionamento algoritmico, quindi il numero di oggetti che il cluster è in grado di memorizzare è relativo al numero di nodi. Scalando fino a centinaia di nodi e utilizzando formati come Parquet e TFRecord, Ceph è in grado di proteggere e fornire un accesso ad alta velocità a trilioni di oggetti e funzionalità..”

Dunque per concludere la scelta di questa tecnologia può essere decisiva per chi ha la necessità di realizzare un cluster di storage dedicati alla gestione di grandi quantità di dati, ma sorprendentemente anche richieste più modeste, a partire da un numero minimo di 4 nodi, sono ormai perfettamente in linea con architetture Ceph (anche in configurazione di iperconvergenza), che è dunque diventato “una soluzione hi-tech” da tenere in grande considerazione per quasi ogni esigenza.

Enterprise OSS Staff

Migrazione Nextcloud

Il 16 di Dicembre è apparso sul blog di Nextcloud un articolo che senza tanti peli sulla lingua “dichiara guerra" alle soluzioni cloud della Silicon Valley.

Non è un segreto che Nextcloud si ponga come alternativa ai suoi più blasonati competitor americani come piattaforma collaborativa in cloud.

A differenza degli altri il prodotto tedesco è open source e permette la realizzazione di un cloud completamente privato e naturalmente non sono due caratteristiche da poco.

Ma per la prima volta vengono forniti degli strumenti per migrare nel vero senso della parola i dati in pochi click.

Di seguito l’articolo in questione.

https://nextcloud.com/blog/easy-migration-to-nextcloud-from-insecure-and-privacy-unfriendly-platforms-now-available/

Nextcloud ha a cuore la privacy e la sovranità dei dati

"Chi possiede e controlla i nostri documenti, le foto, i registri delle chat e gli elementi del calendario è importante e pensiamo che dovresti essere tu. 

Esistono già milioni di utenti che fanno affidamento sul proprio server Nextcloud personale o di un provider che offra un hosting Nextcloud affidabile per i loro dati.

Per semplificare la vita ai suoi utenti e rendere più semplice l’abbandono di piattaforme chiuse, insicure e non in linea con le regole sulla privacy, Nextcloud annuncia oggi una serie di strumenti di migrazione. 

Questi tools aiuteranno gli utenti di Google, Microsoft e altri servizi a spostare i propri dati in Nextcloud con pochi click."

Strumenti di migrazione

"Attualmente sono disponibili i seguenti strumenti di migrazione."

Migrazione da Google

"Il nostro strumento di migrazione da Google può importare calendari, contatti, foto, file da Drive e Google Docs in Nextcloud. 

I documenti possono essere esportati come file Open Document o OOXML (formato Microsoft Office). 

Entrambi possono essere modificati con le nostre soluzioni di editing integrate. 

Lo stesso avverrà per gli appuntamenti in calendario e per i contatti che verranno importati nelle app omonime dedicate ed integrate in Nextcloud.

Per quelli di voi che migrano da Google Foto, abbiamo due suggerimenti. 

1.Innanzitutto, per vedere dove sono state scattate le tue immagini, installa l'app Nextcloud Maps. 

2.E per il riconoscimento facciale, la nostra meravigliosa comunità ha sviluppato l'app di riconoscimento facciale!

Con questa migrazione, ottieni quindi lo spostamento della maggior parte dei dati nelle app Nextcloud equivalenti in modo da poter continuare a lavorare, e senza più regalare i tuoi dati a Google!

Per poter eseguire la migrazione dei dati, l'amministratore deve configurare le credenziali OAuth con Google per il proprio server. 

Sfortunatamente non possiamo renderlo più semplice di come abbiamo fatto, per ogni utente si deve operare separatamente. 

L'alternativa sarebbe per noi registrare un server centrale e inviare tutti i dati dei nostri utenti attraverso di esso, ma questo, per ovvi motivi di privacy, non è qualcosa che vogliamo fare."

Migrazione da Dropbox

"Questo strumento ti consentirà di importare i tuoi documenti e altri file da Dropbox a Nextcloud Files. 

È facile connettersi tramite OAuth, non richiede alcuna configurazione speciale da parte dell'amministratore di sistema. 

Come con lo strumento di migrazione da Google, i tuoi file con la loro struttura di directory vengono completamente preservati durante l'importazione."

Migrazione da OneDrive

"Anche lo strumento di migrazione da OneDrive si concentra sullo spostamento di file e documenti. 

Come per la migrazione da Google, è necessario un amministratore per configurare OAuth con Microsoft. 

La struttura di file e directory viene mantenuta durante l'importazione e gli aggiornamenti futuri per aggiungere calendario, contatti e altri dati sono sulla nostra tabella di marcia."

Migrazione da OwnCloud

"Oltre a creare strumenti di migrazione per le piattaforme cloud pubbliche di cui sopra, abbiamo anche aggiornato la nostra migrazione da OwnCloud. 

Negli ultimi anni, il divario tra Nextcloud e OwnCloud è cresciuto molto, il che ha complicato la migrazione e recentemente abbiamo ricevuto alcune domande a riguardo. 

Quindi, per coloro che sono ancora su un server OwnCloud, abbiamo aggiornato la procedura per consentire la migrazione da OwnCloud 10.5 direttamente a Nextcloud 20.0.4." 

Abbiamo raccontato questo in un nostro recente articolo

https://www.enterpriseoss.com/news/nextcloud-vs-owncloud/

"Abbiamo raccontato di come per Google e OneDrive, gli amministratori debbano seguire alcuni passaggi per assicurarsi che i server Google e Microsoft accettino la richiesta di autenticazione degli utenti. 

Questo processo è descritto nelle nostre impostazioni di amministratore. 

Naturalmente un feedback su questo sarebbe il benvenuto! Abbiamo cercato di rendere il tutto il più semplice possibile, ma sfortunatamente queste imprese non sono molto in sintonia con il mondo open e non possiamo sostituirci in tutto a te."

Torna padrone dei tuoi dati

"La sovranità dei dati, il possesso e il controllo dei propri documenti privati, foto, registri delle chat ed elementi del calendario, è una motivazione chiave per molti utenti di Nextcloud. 

Siamo entusiasti di avere l'opportunità di renderti più facile raggiungere questo obiettivo e non vediamo l'ora di vedere cosa farai con questi nuovi strumenti!

La migrazione viene eseguita dietro le quinte, importando i file e altri dati in background. 

Continueremo ad aggiungere e migliorare questi strumenti, per favore, dacci il tuo feedback e se sei uno sviluppatore di software, valuta la possibilità di contribuire a questi strumenti di migrazione per espandere le loro capacità e sviluppare più modi per consentire a milioni di persone di riprendere il controllo dei propri dati!

Se non sei pronto per la migrazione, puoi ovviamente integrare il tuo Nextcloud con servizi esterni. L'app store include varie interfacce per agganciare archivi esterni tra cui Dropbox , OneDrive e Google Drive

Questi ti consentono di accedere ai tuoi file su questi cloud esterni senza interruzioni, direttamente dall'interno di Nextcloud. 

Ti sarà consentito dunque modificare, condividere, commentare e lavorare con tutti i tuoi file, indipendentemente da dove siano archiviati.

Leggi il nostro comunicato stampa per ulteriori informazioni sulle nostre nuove opzioni di migrazione."

© 2022 All rights reserved