ORC(Optimized Row Columnar,优化行列式)是一种为 Hadoop 工作负载设计的自描述、类型感知的列式存储文件格式。它针对大规模数据处理和存储进行了优化,与 CSV 或文本文件等传统的行式存储格式相比,在性能和存储效率方面有显著提升。ORC 文件以列式格式存储数据,这使得系统能够高效地检索特定列,而无需读取整行数据,这对于仅需要数据子集的分析型查询特别有利。该格式还支持多种压缩技术(如 Zlib、Snappy、LZO),以减少存储空间和 I/O 开销。此外,ORC 文件包含丰富的元数据,例如每列数据的统计信息(如最小值、最大值和总和),使查询优化器能够跳过无关的数据块,从而进一步提高查询性能。ORC 目前被广泛应用于 Apache Hive、Apache Spark 和 Presto 等大数据生态系统中,是存储和处理大规模数据集的核心格式之一。