Шпаргалка по форматам файлов с данными в python

Python понимает все популярные форматы файлов. Кроме того, у каждой библиотеки есть свой, «теплый ламповый», формат. Синтаксис, разумеется, у каждого формата сугубо индивидуален. Я собрал все функции для работы с файлами разных форматов на один лист A4, с приложением в виде примера использования в jupyter notebook.

Я условно разделил форматы на три блока по способу использования. Как известно, файлы нужны для обмена информацией: между людьми, между программами (первый блок), между компьютером и сетью (второй) и «save game» – между одной и той же программой в разные моменты времени (третий блок).
Вкратце о каждом блоке:

1) Универсальные форматы:

.csv – текстовый, значения, разделённые по идее запятыми (comma separated), но например, русский эксель предпочитает разделять точками с запятыми, поскольку в русской локали запятая уже используется – в качестве десятичного разделителя;
.raw – бинарный формат для тех, кто не любит форматы файлов. Тип данных и, если данные многомерные, соответствующие размеры должны передаваться отдельно, в файле только сами данные;
.xls/.xlsx – старый бинарный (ограничение в 65k строк) и новый xml’ный форматы экселя;
.mat – это на самом деле тоже два формата (оба бинарные): старый проприетарный и новый на основе hdf5. Питон умеет работать с обоими (через библиотеки).

2) «Сетевые» форматы:

.json – текстовый, выглядит как словарь в питоне, но кавычки можно использовать только двойные;
.xml – текстовый, похож на html.

3) Нативные питоновские форматы:

.pkl – бинарный формат, в него умеют сохраняться все встроенные питоновские объекты. Пользовательские классы тоже умеют, а если питон сохраняет как-то не так, можно ему помочь через магические методы. Поддерживает дописывание в конец существующего файла (appending).
.npy и .npz – в numpy аж целых два своих формата (оба бинарные). Появились как реакция на потерю обратной совместимости у pkl в момент перехода python v2->v3. Накладные расходы минимальные (~ на 100 байт больше, чем соответствующий raw; pkl, впрочем, немногим больше: на ~150 байт больше raw). В .npy можно сохранить только один массив, а в npz – сразу несколько, причём достать их оттуда впоследствии можно по имени.
.h5 – бинарный формат hdf5. Примечателен тем, что в нем можно хранить целую иерархическую структуру данных, это практически файловая система в одном файле. Кроме того, его можно открыть в matlab без конвертации. Минусы: a) небольшие файлы занимают неоправданно много места (например, 300 байт pkl vs 3.1 Мb у h5),
b) много багов, c) есть дописывание в существующий файл, но если при этом случится ошибка (а так бывает), данные из него достать будет проблематично.
Здесь детальный разбор плюсов и минусов hdf5, вкратце – хороший формат для обмена данными, плохой – для использования в качестве файловой системы (например, нельзя стереть массив, только скопировать файл без него).
.parquet – бинарный формат для big data. Apache Parquet не является нативным питоновским форматом, но неплохо интегрирован в pandas. Можно сжимать/разжимать «на лету» (rle, gzip, dictionary encoding); сжимает чуть лучше Apache Avro. В отличие от avro, где данные хранятся построчно (как бы C order), в parquet данные хранятся столбец-за-столбцом (как бы fortran order). Благодаря этому можно эффективно работать с таблицами с большим количеством столбцов.
в jupyter решили не изобретать велосипед –%store сохраняет в формат .pkl, только почему-то без расширения.

Сам сheatsheet:

– в формате pdf – в формате png:

Пример использования всех функций с диаграммы: html с оглавлением и ipynb-исходником



		Шпаргалка по форматам файлов с данными в python
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-01-07 03:05 разработка по Python понимает все популярные форматы файлов. Кроме того, у каждой библиотеки есть свой, «теплый ламповый», формат. Синтаксис, разумеется, у каждого формата сугубо индивидуален. Я собрал все функции для работы с файлами разных форматов на один лист A4, с приложением в виде примера использования в jupyter notebook. Я условно разделил форматы на три блока по способу использования. Как известно, файлы нужны для обмена информацией: между людьми, между программами (первый блок), между компьютером и сетью (второй) и «save game» – между одной и той же программой в разные моменты времени (третий блок). Вкратце о каждом блоке: 1) Универсальные форматы: .csv – текстовый, значения, разделённые по идее запятыми (comma separated), но например, русский эксель предпочитает разделять точками с запятыми, поскольку в русской локали запятая уже используется – в качестве десятичного разделителя; .raw – бинарный формат для тех, кто не любит форматы файлов. Тип данных и, если данные многомерные, соответствующие размеры должны передаваться отдельно, в файле только сами данные; .xls/.xlsx – старый бинарный (ограничение в 65k строк) и новый xml’ный форматы экселя; .mat – это на самом деле тоже два формата (оба бинарные): старый проприетарный и новый на основе hdf5. Питон умеет работать с обоими (через библиотеки). 2) «Сетевые» форматы: .json – текстовый, выглядит как словарь в питоне, но кавычки можно использовать только двойные; .xml – текстовый, похож на html. 3) Нативные питоновские форматы: .pkl – бинарный формат, в него умеют сохраняться все встроенные питоновские объекты. Пользовательские классы тоже умеют, а если питон сохраняет как-то не так, можно ему помочь через магические методы. Поддерживает дописывание в конец существующего файла (appending). .npy и .npz – в numpy аж целых два своих формата (оба бинарные). Появились как реакция на потерю обратной совместимости у pkl в момент перехода python v2->v3. Накладные расходы минимальные (~ на 100 байт больше, чем соответствующий raw; pkl, впрочем, немногим больше: на ~150 байт больше raw). В .npy можно сохранить только один массив, а в npz – сразу несколько, причём достать их оттуда впоследствии можно по имени. .h5 – бинарный формат hdf5. Примечателен тем, что в нем можно хранить целую иерархическую структуру данных, это практически файловая система в одном файле. Кроме того, его можно открыть в matlab без конвертации. Минусы: a) небольшие файлы занимают неоправданно много места (например, 300 байт pkl vs 3.1 Мb у h5), b) много багов, c) есть дописывание в существующий файл, но если при этом случится ошибка (а так бывает), данные из него достать будет проблематично. Здесь детальный разбор плюсов и минусов hdf5, вкратце – хороший формат для обмена данными, плохой – для использования в качестве файловой системы (например, нельзя стереть массив, только скопировать файл без него). .parquet – бинарный формат для big data. Apache Parquet не является нативным питоновским форматом, но неплохо интегрирован в pandas. Можно сжимать/разжимать «на лету» (rle, gzip, dictionary encoding); сжимает чуть лучше Apache Avro. В отличие от avro, где данные хранятся построчно (как бы C order), в parquet данные хранятся столбец-за-столбцом (как бы fortran order). Благодаря этому можно эффективно работать с таблицами с большим количеством столбцов. в jupyter решили не изобретать велосипед –%store сохраняет в формат .pkl, только почему-то без расширения. Сам сheatsheet: – в формате pdf – в формате png: Пример использования всех функций с диаграммы: html с оглавлением и ipynb-исходником Телеграм: t.me/ainewsline Источник: habr.com Комментарии:

Шпаргалка по форматам файлов с данными в python

Комментарии: