¿Por qué la nueva computadora Met Office es un Cray?

Soporte y usabilidad.

No puede admitir un clúster construido en casa que haga 16PFLOP. Quiero decir, puedes, pero, ¿a quién llamas cuando cae boca abajo en el barro? Puede usar una capa en su área de tecnología, pero ¿qué sucede cuando su capa no cubre los problemas que tiene?

La confiabilidad no es solo la confiabilidad de los componentes y la estabilidad del sistema operativo (hardware básico y alguna base extendida del sistema operativo Linux, por ejemplo). Depende en gran medida de una entidad de soporte con un interés personal en hacer que sus sistemas sean confiables, lo que, en la mayoría de los casos, se asigna directamente a los requisitos contractuales de la organización de soporte para garantizar la funcionalidad del sistema del cliente. ¿Entiendes profundamente cómo funcionan todos estos componentes juntos? ¿Tiene acceso a los desarrolladores, directamente, que manejan problemas de funcionalidad, seguridad y compatibilidad? Si no lo hace, ¿cuánto tiempo pasará antes de que encuentre un problema que no tiene los recursos para resolver?

¿Sabes lo que es realmente caro? Un sistema que no está haciendo ningún trabajo. Entonces, mientras que usted y su equipo de sistemas de Monster-swilling están tratando de localizar un problema oscuro con su clúster construido en casa, sus usuarios muy caros no pueden producir desde su sistema. Y ningún tiempo de producción tiene un efecto de goteo en la rentabilidad de su empresa (o, de manera similar, en la capacidad de su organización para avanzar en la investigación).

Esto deja usabilidad. Suponga que hay varios códigos disponibles para varias GPU paralelas y clústeres híbridos. Sin embargo, cuando tiene un sistema que es un producto estandarizado y compatible, también tiene una base de productores de software que están construyendo específicamente para su plataforma. Esto significa que los códigos más populares y los códigos más probados están disponibles para su sistema (y esos códigos también son compatibles con sus respectivas compañías, lo que significa que tampoco depende de usted arreglar eso usted mismo). Esto hace que las capacidades de su sistema sean explotadas más fácilmente por sus clientes (siempre veré a mis usuarios como clientes, incluso si realmente son solo otros en la misma compañía), lo que hace que el valor del gasto se realice más fácilmente.

Tal vez podría hacerlo por menos usando GPU paralizadas, pero podría reflejar el rendimiento de 384 Xeon E5 integradas por gabinete con 256 MB por núcleo con flujo impecable y redundancias increíbles que se ejecutan en un kernel de Linux personalizado y un rendimiento de red que básicamente no ¿Existe en cualquier otro lugar del mundo y apoya a este monstruo las 24 horas del día, los 7 días de la semana, para cualquier aplicación ridícula en la que sus increíbles y diversos clientes pongan estas cosas en práctica?

Si es así, definitivamente deberías convertirte en un competidor de Cray, porque no hay tanta competencia a su nivel y probablemente intentarían comprarte por mucho dinero en poco tiempo. Solo digo.

¿Cuántas GPU necesitarías para 16 petaflop? ¿Dónde los va a colocar y cómo va a alimentarlos y enfriarlos? Y como la respuesta de Erik Fair a ¿Por qué la nueva computadora Met Office es un Cray? mencionado, ¿cómo vas a conectarlos en red? Una supercomputadora es mucho más que solo comprar los chips.

Como mencionas las GPU: un flop de GPU no es un flop de uso general. Es probable que Cray sea mucho más fácil de programar que el mismo número teórico de flops en las GPU.

Interconexión y organización del sistema. Y atención al cliente.

Relativamente, el hardware es fácil. Conectarlo todo y luego hacer que sea realmente útil (es decir, software) es más difícil.

Dejé el Met. oficina hace 45 años, pero al considerar las respuestas, tenga en cuenta que siempre han utilizado los mainframes más potentes conectados en una red de la OMM.