Si può diventare un architetto di Big Data di successo senza apprendere la Data Science? Qual è la differenza tra architetto di Big Data e scienziato di dati?


Risposta 1:

Grazie per le molteplici A2A! :)

Questa è la mia esperienza personale in merito a questa questione.

In Miniclip abbiamo un team di data science e un team di ingegneria dei dati. Il team di ingegneri dei dati gestisce tutte le informazioni sui big data. Con il lavoro il team di data science potrebbe farlo, ma lo faremmo peggio e più lentamente ... non lo vogliamo! :)

Il team di ingegneria dei dati non ha davvero bisogno di approfondire le specifiche del dominio nel modo in cui va il team di data science. Tuttavia conoscono un po 'di apprendimento automatico e in progetti di dati automatizzati più grandi lavoriamo insieme.

Quindi, secondo me, puoi diventare un architetto / ingegnere di big data di successo senza la scienza dei dati, il che significa, senza il dominio / conoscenza algoritmica che le aziende dipendono dai data scientist. Tuttavia, sarai un ingegnere di dati molto migliore se ci metterai le mani dentro.


Risposta 2:

D'accordo con Marcin. I data scientist possono sfruttare l'infrastruttura dei Big data di un architetto di Big Data. IMO, alcune delle considerazioni chiave che un architetto di Big Data dovrebbe conoscere sono le seguenti, di cui l'analisi dei dati / scienza fa parte (punto 3 di seguito):

1) Inserimento dati - batch e streaming

2) Archiviazione dei dati - Archiviazione distribuita, NoSQL

3) Elaborazione e analisi ** - Elaborazione batch, elaborazione stream, analisi. Qui, l'architetto di Big Data dovrebbe almeno conoscere gli strumenti di analisi disponibili / API per essere in grado di consigliarli e includerli nell'infrastruttura di Big Data (basata anche sul caso di utilizzo aziendale e sulle preferenze dei data scientist). Pochi dei fattori da considerare in uno strumento per abilitare uno scienziato dei dati potrebbero essere: tipi di algoritmi disponibili, supporto della lingua madre, connettività con l'ambiente Big Data, capacità di analisi dei dati, profilazione dei dati, ecc.

4) Consumo - consumo batch o flusso

5) Necessità hardware per vari componenti dell'ambiente distribuito Big data

6) Esigenze operative dell'ambiente Big Data


Risposta 3:

D'accordo con Marcin. I data scientist possono sfruttare l'infrastruttura dei Big data di un architetto di Big Data. IMO, alcune delle considerazioni chiave che un architetto di Big Data dovrebbe conoscere sono le seguenti, di cui l'analisi dei dati / scienza fa parte (punto 3 di seguito):

1) Inserimento dati - batch e streaming

2) Archiviazione dei dati - Archiviazione distribuita, NoSQL

3) Elaborazione e analisi ** - Elaborazione batch, elaborazione stream, analisi. Qui, l'architetto di Big Data dovrebbe almeno conoscere gli strumenti di analisi disponibili / API per essere in grado di consigliarli e includerli nell'infrastruttura di Big Data (basata anche sul caso di utilizzo aziendale e sulle preferenze dei data scientist). Pochi dei fattori da considerare in uno strumento per abilitare uno scienziato dei dati potrebbero essere: tipi di algoritmi disponibili, supporto della lingua madre, connettività con l'ambiente Big Data, capacità di analisi dei dati, profilazione dei dati, ecc.

4) Consumo - consumo batch o flusso

5) Necessità hardware per vari componenti dell'ambiente distribuito Big data

6) Esigenze operative dell'ambiente Big Data