ORC (Optimized Row Columnar) es un formato de archivo columnar autodescriptivo y consciente de los tipos de datos, diseñado específicamente para cargas de trabajo en Hadoop. Está optimizado para el procesamiento y almacenamiento de datos a gran escala, ofreciendo mejoras significativas en el rendimiento y la eficiencia del almacenamiento en comparación con los formatos tradicionales basados en filas, como CSV o archivos de texto. Los archivos ORC almacenan los datos en un formato columnar, lo que permite la recuperación eficiente de columnas específicas sin necesidad de leer la fila completa. Esto resulta particularmente beneficioso para consultas analíticas que solo requieren un subconjunto de los datos. El formato también admite diversas técnicas de compresión (por ejemplo, Zlib, Snappy, LZO) para reducir el espacio de almacenamiento y la sobrecarga de E/S. Además, los archivos ORC incluyen metadatos, como estadísticas sobre los datos dentro de cada columna, lo que permite a los optimizadores de consultas omitir bloques de datos irrelevantes y mejorar aún más el rendimiento de las consultas. ORC es ampliamente utilizado en ecosistemas de Big Data como Apache Hive, Apache Spark y Presto para almacenar y procesar grandes conjuntos de datos.