Современный скрапинг веб-сайтов с помощью Python [Райан Митчелл] (pdf) читать постранично
Книга в формате pdf! Изображения и текст могут не отображаться!
[Настройки текста] [Cбросить фильтры]
- 1
- 2
- 3
- . . .
- последняя (79) »
Современный скрапинг веб-сайтов с помощью Python. 2-е межд.
издание
2021
Научный редактор С. Бычковский
Переводчик Е. Сандицкая
Литературный редактор Н. Хлебина
Художник В. Мостипан
Корректоры Н. Гринчик, Е. Павлович, Е. Рафалюк-Бузовская
Райан Митчелл
Современный скрапинг веб-сайтов с помощью Python. 2-е
межд. издание . — СПб.: Питер, 2021.
ISBN 978-5-4461-1693-5
© ООО Издательство "Питер", 2021
Все права защищены. Никакая часть данной книги не может
быть воспроизведена в какой бы то ни было форме без
письменного разрешения владельцев авторских прав.
Введение
Если
человек
не
слишком
хорошо
знаком
с
программированием, оно ему может показаться чем-то вроде
волшебства. Но если программирование — волшебство, то вебскрапинг — это очень сильное колдунство: написав простую
автоматизированную программу, можно отправлять запросы
на веб-серверы, запрашивать с них данные, а затем
анализировать их и извлекать необходимую информацию.
Работая инженером-программистом, я обнаружила, что
веб-скрапинг
—
одна
из
немногих
областей
программирования, восхищающая как разработчиков, так и
обычных людей. Умение легко написать простой бот, который
бы собирал данные и передавал их через терминал или
сохранял в базе данных, не перестает повергать в некий трепет
от осознания своих возможностей, независимо от того, сколько
раз вам приходилось делать это раньше.
К сожалению, общаясь с другими программистами на тему
веб-скрапинга, я обнаружила, что не все хорошо понимают
суть метода. Одни считают его не вполне законным (и они
ошибаются), другие не умеют обрабатывать страницы,
содержащие много кода JavaScript или требующие регистрации.
Многие не знают, как начать крупный проект по скрапингу или
даже где искать нужные данные. Книга призвана ответить на
многие из этих вопросов, развеять ошибочные представления о
веб-скрапинге, а также предоставить исчерпывающее
руководство по решению его наиболее распространенных
задач.
Веб-скрапинг — обширная и быстро развивающаяся
область, поэтому я постаралась представить здесь не только
общие принципы, но и конкретные примеры, охватывающие
практически все способы сбора данных, с которыми вы,
вероятно, столкнетесь. В книге приводятся примеры кода,
демонстрирующие эти принципы и позволяющие проверить их
на практике. Сами примеры можно использовать и изменять
как с указанием авторства, так и без него (хотя благодарности
всегда приветствуются). Все примеры кода доступны на GitHub
(http://www.pythonscraping.com/code/),
где
их
можно
просмотреть и скачать.
Что такое веб-скрапинг
Автоматизированный сбор данных в Интернете почти так же
стар, как и сам Интернет. Несмотря на то что термин «вебскрапинг» не является новым, еще несколько лет назад эту
методику чаще называли анализом интерфейсных данных,
интеллектуальным анализом данных, сбором веб-данных и т.п.
Похоже, что наконец-то все пришли к единому мнению и
предпочли называть это веб-скрапингом, поэтому я буду
использовать данный термин на протяжении всей книги, хотя
специализированные программы, которые просматривают
несколько веб-страниц, я буду называть веб-краулерами, а
программы, предназначенные для собственно веб-скрапинга,
— ботами.
Теоретически веб-скрапинг — это сбор данных с
использованием любых средств, за исключением программ,
взаимодействующих с API. Обычно для этого пишут
автоматизированную программу, которая обращается к вебсерверу, запрашивает данные (как правило, в формате HTML
или в других форматах веб-страниц), а затем анализирует эти
данные и извлекает оттуда полезную информацию.
На практике веб-скрапинг включает в себя широкий спектр
методов и технологий программирования, таких как анализ
данных, синтаксический анализ естественных языков и
информационная безопасность. Именно потому, что эта
область столь широка, в части I данной книги будут
рассмотрены фундаментальные основы веб-скрапинга и вебкраулинга, а в части II — более углубленные темы. Я
рекомендую внимательно изучить первую часть и погружаться
в более специализированные разделы второй части по мере
необходимости.
Почему это называется веб-скрапингом
Получать доступ к Интернету только через браузер — значит
упускать массу возможностей. Браузеры (кроме прочего)
удобны для выполнения скриптов JavaScript, вывода
изображений и представления объектов в понятной для
человека форме, однако веб-скраперы гораздо лучше
справляются с быстрым сбором и обработкой больших объемов
данных. Вместо того чтобы просматривать страницу за
страницей на экране монитора, можно читать сразу целые
базы данных, в которых хранятся тысячи и даже миллионы
страниц.
Кроме того, веб-скраперы позволяют заглядывать в места,
недоступные обычным поисковым системам. Так, при поиске в
Google «самых дешевых рейсов в
- 1
- 2
- 3
- . . .
- последняя (79) »
Последние комментарии
10 часов 4 минут назад
14 часов 18 минут назад
16 часов 37 минут назад
18 часов 26 минут назад
1 день 12 минут назад
1 день 17 минут назад