Формат Apache Arrow IPC Stream (.arrow) — это бинарный формат файлов, разработанный для эффективной передачи и хранения данных, особенно в экосистеме Apache Arrow. Это колоночный формат памяти, что означает, что данные организованы по столбцам, а не по строкам, что крайне выгодно для аналитических рабочих нагрузок. Этот формат обеспечивает обмен данными с нулевым копированием (zero-copy data sharing) между процессами и системами, значительно снижая накладные расходы и повышая производительность. Потоки Arrow IPC обычно используются для передачи больших наборов данных между приложениями, поддерживающими формат Arrow, такими как движки обработки данных, базы данных и фреймворки машинного обучения. Формат включает метаданные, описывающие схему данных, что позволяет осуществлять самоописываемый обмен данными. Он оптимизирован для быстрой сериализации и десериализации, что делает его идеальным для обработки данных в реальном времени и высокопроизводительных вычислений. Формат не зависит от языка (language-agnostic), с реализациями, доступными на различных языках программирования, включая Python, Java, C++ и R. Расширение файла .arrow обычно представляет поток данных Arrow, который может быть одной партией (batch) или последовательностью партий, представляющих больший набор данных. Формат спроектирован как расширяемый и поддерживает различные типы данных и кодировки.