Практическое введение в основные библиотеки и фреймворки Python [Мурат Дурмус] (pdf) читать постранично, страница - 3
Книга в формате pdf! Изображения и текст могут не отображаться!
[Настройки текста] [Cбросить фильтры]
- 1
- 2
- 3
- 4
- 5
- . . .
- последняя (36) »
•
Python стал одним из самых популярных
языков программирования в мире, который
используется
для
самых
разных
приложений, таких как веб-разработка,
научные вычисления, анализ данных и
машинное обучение.
•
Популярность Python обусловлена его
простотой,
удобочитаемостью
и
универсальностью, а также большим и
активным сообществом разработчиков,
которые вносят свой вклад в язык и его
экосистему библиотек и инструментов.
ix
PANDAS
НАУКА О ДАННЫХ
Наука о данных — это междисциплинарная область,
которая включает в себя извлечение, анализ и
интерпретацию больших и сложных наборов данных.
Она сочетает в себе элементы статистики,
компьютерных наук и знаний в предметной области
для извлечения идей и знаний из данных.
Специалисты по данным используют различные
инструменты и методы для сбора, обработки и
анализа данных, включая статистический анализ,
машинное обучение, интеллектуальный анализ
данных и визуализацию данных. Они работают с
большими и сложными наборами данных, чтобы
выявить закономерности, взаимосвязи и идеи,
которые могут помочь в принятии решений и
повысить ценность бизнеса.
Наука о данных применяется в различных областях,
включая бизнес, здравоохранение, финансы и
социальные науки. Она информирует о различных
решениях, от разработки продукта до маркетинга и
принятия политических решений.
PANDAS
PANDAS
Python Pandas — это библиотека для обработки и
анализа данных с открытым исходным кодом для
языка программирования Python. Она предоставляет
набор структур данных для эффективного хранения
больших наборов данных и управления ими, а также
различные инструменты для анализа, парсинга и
предварительной обработки данных.
Некоторые из ключевых структур данных в Pandas
включают Series, что представляет собой одномерный
объект, похожий на массив, который может
содержать данные любого типа; и DataFrame,
представляющий собой двумерную табличную
структуру данных со строками и столбцами, которую
можно рассматривать как электронную таблицу или
таблицу SQL.
Pandas также предоставляет ряд функций и методов
обработки данных, таких как фильтрация, сортировка,
слияние, группировка и агрегирование данных. Она
также поддерживает инструменты визуализации
данных,
которые
позволяют
пользователям
отображать и визуализировать данные различными
способами.
Она широко используется в анализе данных и науке о
данных и считается одним из основных инструментов
для работы с данными в Python. Pandas также часто
используется в сочетании с другими популярными
библиотеками данных, такими как NumPy, Matplotlib и
SciPy.
ix
PANDAS
Пример того, как вы можете использовать Pandas для
чтения файла CSV, обработки данных и вывода их в
новый файл:
import pandas as pd
# Read in the CSV file
data = pd.read_csv('my_data.csv')
# Print the first few rows of the data
print(data.head()
)
# Filter the data to include only rows where
the 'score' column is greater than 90
filtered_data = data[data['score'] > 90]
# Create a new column that calculates the
average of the 'score' and 'time' columns
filtered_data['average'] =
(filtered_data['score'] +
filtered_data['time']) / 2
# Output the filtered data to a new CSV file
filtered_data.to_csv('my_filtered_data.csv',
index=False)
В этом примере мы сначала импортируем библиотеку
Pandas, используя import pandas as pd. Затем мы
читаем файл CSV с именем my_data.csv, используя
функцию pd.read_csv(), которая создает объект
DataFrame. Затем мы используем метод head()для
вывода первых нескольких строк данных.
Затем мы фильтруем данные, чтобы включить только
строки, в которых столбец 'score' больше 90,
используя логическое индексирование. Затем мы
создаем новый столбец под названием 'average',
PANDAS
который вычисляет среднее значение столбцов 'score'
и 'time', используя основные арифметические
операции.
Наконец, мы используем метод to_csv() для вывода
отфильтрованных данных в новый CSV-файл с именем
my_filtered_data.csv с параметром index=False,
указывающим, что мы не хотим включать индекс
DataFrame в качестве столбца в выходной файл.
ix
PANDAS
За и против
За:
•
Простая
в
использовании
и
очень
универсальная библиотека для обработки и
анализа данных.
•
Предоставляет мощные инструменты для
обработки больших наборов данных, включая
быстрое
индексирование,
фильтрацию,
группировку и операции слияния.
•
Поддерживает широкий спектр форматов
ввода и вывода, включая CSV, Excel, базы
данных SQL и JSON.
•
Предлагает богатый набор инструментов
визуализации данных, включая линейные
графики, точечные диаграммы, гистограммы
и многое другое.
•
Имеет большое и активное сообщество
пользователей и разработчиков, а это
означает, что доступно множество онлайнресурсов и поддержки.
•
Может использоваться вместе с другими
популярными библиотеками данных, такими
как NumPy, SciPy и Matplotlib.
Против:
•
Pandas может использовать большой объем
памяти при работе с очень
- 1
- 2
- 3
- 4
- 5
- . . .
- последняя (36) »
Последние комментарии
1 час 59 минут назад
2 часов 18 минут назад
2 часов 27 минут назад
2 часов 28 минут назад
2 часов 31 минут назад
2 часов 48 минут назад