Google ha anunciado que va a hacer un marco de código abierto MapReduce para permitir a los usuarios ejecutar nativo de C y C ++ código en sus entornos de Hadoop. Hadoop puede sufrir de problemas de rendimiento debido a ser escrito en Java por lo que este marco vendrá como una buena noticia.
'MR4C' (MapReduce para C) fue desarrollado en Skybox de imaginería para uso ciencia a gran escala de procesamiento de imágenes de satélite y datos geoespaciales. Google encontró Hadoop una potente solución para el manejo de datos escalables gracias a sus capacidades de seguimiento de trabajo y gestión de clústeres, pero quería ser capaz de aprovechar las robustas bibliotecas de procesamiento de imágenes escritas en C y C ++.
Las empresas han construido sus propios sistemas propietarios para lograr esto, pero MR4C ofrece una solución integral para ahorrar tiempo en el trabajo con grandes conjuntos de datos. El marco se construye en torno a algunos conceptos simples que Google explica en su blog:
Los algoritmos se almacenan en objetos compartidos nativos que acceden a datos desde el sistema de archivos local o cualquier identificador uniforme de recursos (URI), mientras que los conjuntos de datos de entrada / salida, parámetros de tiempo de ejecución, y ninguna biblioteca externa se configuran mediante JavaScript Object Notation (JSON) archivos. Cartógrafos división y asignación de recursos se pueden configurar con las herramientas basadas en Hadoop hilo o en el nivel de clúster para MRv1.
Los flujos de trabajo de múltiples algoritmos pueden ser ensartados utilizando una configuración generada automáticamente. Hay devoluciones de llamada en lugar de la tala y el progreso de informes que se pueden ver utilizando la interfaz de Hadoop JobTracker. Su flujo de trabajo puede ser construido y probado en una máquina local usando exactamente la misma interfaz empleada en el clúster de destino.
MR4C no es la primera vez que Google ha optado por utilizar código nativo C ++ para Hadoop. El (alternativa interna de sistema de archivos distribuido de Hadoop) Sistema Quantcast Archivo utilizan también está escrito en C ++ debido a sus ventajas de rendimiento. Facebook utiliza una ideología similar con su sistema de "HipHop 'que convierte SQL para C ++ antes de ejecutarlo.
Spark Apache, un marco de procesamiento de datos más rápido que MapReduce, está viendo mucho interés pero no admite C / C ++ de forma nativa. Sin embargo, sí admite Escala, Python y Java, por lo que será interesante ver qué marco gana la mayor tracción.
'MR4C' (MapReduce para C) fue desarrollado en Skybox de imaginería para uso ciencia a gran escala de procesamiento de imágenes de satélite y datos geoespaciales. Google encontró Hadoop una potente solución para el manejo de datos escalables gracias a sus capacidades de seguimiento de trabajo y gestión de clústeres, pero quería ser capaz de aprovechar las robustas bibliotecas de procesamiento de imágenes escritas en C y C ++.
Las empresas han construido sus propios sistemas propietarios para lograr esto, pero MR4C ofrece una solución integral para ahorrar tiempo en el trabajo con grandes conjuntos de datos. El marco se construye en torno a algunos conceptos simples que Google explica en su blog:
Los algoritmos se almacenan en objetos compartidos nativos que acceden a datos desde el sistema de archivos local o cualquier identificador uniforme de recursos (URI), mientras que los conjuntos de datos de entrada / salida, parámetros de tiempo de ejecución, y ninguna biblioteca externa se configuran mediante JavaScript Object Notation (JSON) archivos. Cartógrafos división y asignación de recursos se pueden configurar con las herramientas basadas en Hadoop hilo o en el nivel de clúster para MRv1.
Los flujos de trabajo de múltiples algoritmos pueden ser ensartados utilizando una configuración generada automáticamente. Hay devoluciones de llamada en lugar de la tala y el progreso de informes que se pueden ver utilizando la interfaz de Hadoop JobTracker. Su flujo de trabajo puede ser construido y probado en una máquina local usando exactamente la misma interfaz empleada en el clúster de destino.
MR4C no es la primera vez que Google ha optado por utilizar código nativo C ++ para Hadoop. El (alternativa interna de sistema de archivos distribuido de Hadoop) Sistema Quantcast Archivo utilizan también está escrito en C ++ debido a sus ventajas de rendimiento. Facebook utiliza una ideología similar con su sistema de "HipHop 'que convierte SQL para C ++ antes de ejecutarlo.
Spark Apache, un marco de procesamiento de datos más rápido que MapReduce, está viendo mucho interés pero no admite C / C ++ de forma nativa. Sin embargo, sí admite Escala, Python y Java, por lo que será interesante ver qué marco gana la mayor tracción.
0 comentarios:
Publicar un comentario