Home » МАРКЕТИНГ » [Перевод] Руководство по столбчатым форматам файлов в Spark и Hadoop для начинающих

[Перевод] Руководство по столбчатым форматам файлов в Spark и Hadoop для начинающих

Что из себя представляет «столбчатый формат файла»?

Этот термин часто используется, но я не уверен, что всем до конца ясно, что он означает на практике.

Определение из учебника гласит, что столбчатые (колоночные, многоколоночные, columnar) форматы файлов хранят данные по столбцам, а не по строкам. CSV, TSV, JSON и Avro — традиционные строковые форматы файлов. Файл Parquet и ORC — это столбчатые форматы файлов.

Давайте проиллюстрируем различия между этими двумя концепциями, используя примеры некоторых данных и простой наглядный столбчатый формат файла, который я только что придумал.

Читать далее
Источник

Leave a Reply