Современный скрапинг веб-сайтов с помощью Python [Райан Митчелл] (pdf) читать постранично, страница - 3
Книга в формате pdf! Изображения и текст могут не отображаться!
[Настройки текста] [Cбросить фильтры]
- 1
- 2
- 3
- 4
- 5
- . . .
- последняя (79) »
изображений, анализ данных и другие инструменты. В данной
книге я постараюсь охватить все эти и другие темы с точки
зрения сбора данных. Это не значит, что здесь они будут
раскрыты полностью, однако я намерена раскрыть их
достаточно подробно, чтобы вы начали писать веб-скраперы!
В части I подробно рассматриваются веб-скрапинг и вебкраулинг. Особое внимание уделяется нескольким полезным
библиотекам. Часть I вполне может служить подробным
справочником по этим библиотекам и методикам (за
некоторыми исключениями; по ним будут предоставлены
дополнительные ссылки). Приемы, описанные в первой части
книги, полезны всем, кто пишет веб-скраперы независимо от
их конкретной цели и области приложения.
В части II раскрыты дополнительные темы, также полезные
при написании веб-скраперов, но не всегда и не любых. К
сожалению, данные темы слишком широки и их нельзя
уместить в одной главе. Поэтому я буду часто ссылаться на
другие ресурсы, где вы найдете дополнительную информацию.
Структура этой книги позволяет легко переходить от одной
главы к другой, чтобы найти описание только веб-скрапинга
или другую нужную вам информацию. Если концепция или
фрагмент кода основывается на чем-то, о чем говорилось в
предыдущей главе, то я явно ссылаюсь на раздел, в котором это
было рассмотрено.
Условные обозначения
В этой книге используются следующие условные обозначения.
Курсив
Курсивом выделены новые термины и важные слова.
Моноширинный шрифт
Используется для листингов программ, а также внутри
абзацев, чтобы обратиться к элементам программы вроде
переменных, функций, баз данных, типов данных, переменных
среды, инструкций и ключевых слов, имен и расширений
файлов.
Моноширинный жирный шрифт
Показывает команды или другой текст,
пользователь должен ввести самостоятельно.
Моноширинный курсивный шрифт
который
Показывает текст, который должен быть заменен
значениями, введенными пользователем, или значениями,
определяемыми контекстом.
Шрифт без засечек
Используется для обозначения URL, адресов электронной
почты, названий кнопок, каталогов.
Этот рисунок указывает на совет или предложение.
Такой рисунок указывает на общее замечание.
Этот рисунок указывает на предупреждение.
Использование примеров кода
Дополнительный материал (примеры кода, упражнения и т.д.)
можно скачать по адресу https://github.com/REMitchell/pythonscraping.
Эта книга призвана помочь вам выполнять свою работу.
Если какой-нибудь из приведенных примеров будет полезен
для вас, то вы можете использовать его в своих программах и
документации. Вам не нужно обращаться к нам за
разрешением, если только вы не воспроизводите значительную
часть кода. Так, для написания программы, в которой
задействованы несколько фрагментов кода из данной книги, не
требуется
разрешения.
А
вот
для
продажи
или
распространения компакт-дисков с примерами из книг O’Reilly
— требуется. Для ответа на вопрос с помощью этой книги и
примера кода разрешение не нужно. Однако на включение
значительного количества примеров кода из книги в
документацию вашего продукта требуется разрешение.
Мы ценим ссылки на эту книгу, но не требуем их. Как
правило, такая ссылка включает в себя название, автора,
издателя и ISBN. Например: «Митчелл Райан. Современный
скрапинг веб-сайтов с помощью Python. — СПб.: Питер, 2021. —
978-5-4461-1693-5».
Если вы считаете, что использование вами примеров кода
выходит
за
рамки
правомерного
применения
или
предоставленных выше разрешений, то обратитесь к нам по
адресу permissions@oreilly.com.
К сожалению, бумажные книги трудно поддерживать в
актуальном состоянии. В случае веб-скрапинга это создает
дополнительную проблему, так как многие библиотеки и
сайты, на которые ссылается данная книга и от которых часто
зависит код, изменяются, из-за чего примеры кода могут
перестать работать или приводить к неожиданным
результатам. Если вы захотите выполнить примеры кода, то не
копируйте их непосредственно из книги, а скачайте из
репозитория GitHub. Мы — и я, и читатели этой книги, которые
решили внести свой вклад и поделиться своими примерами
(включая, возможно, вас!), — постараемся поддерживать
хранилище в актуальном состоянии, вовремя внося
необходимые изменения и примечания.
Помимо примеров кода, в этой книге часто приводятся
команды терминала, демонстрирующие установку и запуск
программного обеспечения. Как правило, эти команды
предназначены для операционных систем на основе Linux, но
большинство из них применимы и в Windows с правильно
настроенной средой Python и установленным pip. В отношении
тех случаев, когда это не так, я предоставила инструкции для
всех основных операционных систем или внешние ссылки для
пользователей Windows, чтобы облегчить
- 1
- 2
- 3
- 4
- 5
- . . .
- последняя (79) »
Последние комментарии
2 часов 9 минут назад
9 часов 18 минут назад
10 часов 25 минут назад
11 часов 31 минут назад
11 часов 53 минут назад
11 часов 59 минут назад