Große Datenprojekte: Wird die Hardware-Infrastruktur übersehen?

Die meisten Gespräche über große Daten drehen sich um Geschäftsfälle, halten jedes Bit der Informationen möglich und entdecken Spiel ändern Einblicke.

Social Data LinkedIn stellt seine neue Blogging-Plattform, Big Data Analytics, ist das Alter von Big OLAP, Big Data Analytics, DataRobot zielt auf die Automatisierung von Low-hanging Obst der Datenwissenschaft, Big Data Analytics, MapR Gründer John Schroeder Schritte, COO zu ersetzen

Doch abgesehen von einigen Umwegen in die Lagerung wird die eigentliche Infrastruktur unter großen Datenanwendungen oft übersehen. Es sollte nicht sein.

Ich fing mit Gary Tyreman, Univa CEO, um Hardware-Infrastruktur und große Daten sprechen. Tyremans Theorie ist, dass große Daten zu mehr Hochleistungscomputing (HPC) im Unternehmen führen werden. Univa ist ein Unternehmen, das Grid Engine entwickelt, HPC-Software, die ursprünglich von Sun Microsystems entwickelt wurde.

Grid Engine-Code wurde von Sun im Jahr 2001 veröffentlicht und wurde in mehr als 10.000 Rechenzentren verwendet, wenn Oracle kaufte das Unternehmen im Januar 2010. Ende 2010 schloss Oracle Grid Engine Open Source Gemeinschaft und verwundete das HPC-Geschäft Sun erstellt. Im Januar 2011 engagierte Univa das Kern-Grid Engine-Entwicklungsteam und entwickelte es. Jetzt konkurriert Univa mit Oracle’s Grid Engine.

T-Mobile, Christine Twiford, Archimedes ‘Katrina Montinola, Michael Cavaretta von Ford, Nicholas Skytland von der NASA, IBM James Kobielus

Univa betritt den großen Datenmarkt, da seine Kunden um Hilfe bitten. Univa entwickelte die Architektur, die Archimedes, ein TechLines-Panelist, für seine Hadoop-Workloads nutzt.

Hier sind die Höhepunkte meiner Konversation mit Tyreman

Sind Hardwareprobleme in all dem großen Datengespräch übersehen? “Ich weiß nicht, ob sie die Herausforderungen vergessen oder einfach nicht schätzen”, sagte Tyreman. “Hadoop-Knoten heute sind 10 oder weniger, so ist es nicht schwer, um es zu funktionieren. Unternehmen sind unterschätzen, wie viel es braucht, um in die Produktion rollen und es läuft.” In Kürze gibt es einen Sprung von einem Hadoop Piloten zu tatsächlich Skalierung es.

Was ist die Lösung? Tyreman sagte, dass Cluster heute sind ein Weg, um große Datenumgebungen gesetzt. Die Zeit muss eingestellt werden, um die Software hinter der Infrastruktur zu konfigurieren, die Speicher- und Netzwerkeinstellungen festzulegen. “Wenn diese Konfigurationen zwei Tage dauern, ist es keine große Sache, aber dann wird es in die Produktion gerollt und es gibt mehr Komplikationen”, sagte er.

Warum ist Hardware keine Rücksichtnahme? Zu diesem Zeitpunkt konzentrieren sich Unternehmen in erster Linie auf das Ergebnis großer Daten und was getan werden kann. Unternehmen müssen sich auf das Ergebnis sowie das, was sie wissen wollen, konzentrieren. Auch bestehende Business-Intelligence-Tools müssen berücksichtigt werden.

Die Firmen, die das große Datenspiel unten zuerst erhalten, sind die, die bereits in Hochleistungscomputer investiert haben. “Wenn CIOs an den Punkt kommen, an dem sie tatsächlich entscheiden müssen, wo große Dateninfrastrukturen gehen, müssen sie Hardware berücksichtigen”, sagte Tyreman. Unternehmen werden mit Oracle, HP, IBM und Dell sprechen, um das beste Angebot zu erhalten. Die Speicherkosten werden knifflig sein. Große Daten benötigen mehr als ein paar “beefy Laufwerke”, da Datenwissenschaftler Packrats sein wollen.

Was sehen Sie auf dem Feld? Tyreman sagte, dass Kunden zu seinem Unternehmen für Rat gekommen sind. “Wenn Kunden eine Investition in HPC haben, ist das, was sie nutzen,” sagte er. “Der Grund ist nicht die Hardware, sondern operative Expertise.” Unternehmen müssen herausfinden, wie man Daten von Speichersystemen wie NetApp und EMC zu einem Hadoop-Framework und wieder zurück bekommt.

Sind Geräte eine Heilung? Appliances lösen die anfänglichen Probleme mit Setup und Konfiguration, aber nicht die Kernfragen mit Operationen auf einem laufenden Geschäft. Ein Server, der auf große Daten fokussiert ist, funktioniert nicht so, wie er für ERP ausgeschnitten wurde.

LinkedIn stellt seine neue Blogging-Plattform vor

Ist dies das Alter von Big OLAP?

DataRobot zielt auf die Automatisierung von tiefgreifenden Datenwissenschaften ab

MapR-Gründer John Schroeder geht nach unten, COO zu ersetzen