Книги / Компьютерная литература / Разработка ПО / Web-дизайн. Web-мастеринг. Разработка web-приложений

Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета

Митчелл Райан

Код товара: 2433834

(0 оценок)Оценить

ОтзывНаписать отзыв

ВопросЗадать вопрос

1 / 3

PDF

1 / 3

-37%

1 213

1 925

Доставим в

г. Москва

Планируемая дата

21 апреля (Вс)

Курьером

бесплатно от 3 500 ₽

В пункт выдачи

от 77 ₽

бесплатно от 2 000 ₽

Точная стоимость доставки рассчитывается при оформлении заказа

Издательство:

Оригинальное название:

Web Scraping with Python. Collecting Data From the Modern Web

Год издания:

Редактор:

Мовчан Д. А.

Переводчик:

Груздев Артем Владимирович

Отмечено тегами

O`Reilly

Описание

Характеристики

Изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета и любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API, чтобы одновременно собрать и обработать данные с тысяч или даже миллионов веб-страниц.
Идеально подходящая для программистов, специалистов по безопасности и веб-адмнппстраторов, знакомых с языком Python, эта книга знакомит не только с основными принципами работы веб-скраперов, но и углубляется и более сложные темы, такие как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике.

количество томов

количество страниц

280 стр.

переплет

Мягкая обложка

размеры

205x142x14 мм

страна изготовления

Россия

цвет

Белый

тип бумаги

офсетная (60-220 г/м2)

тип крепления

клеевое (КБС - клеевое бесшовное соединение)

наличие иллюстраций

рисунки

тип иллюстраций

черно-белые

формат

60x88/16 (140x205 мм)

ISBN

978-5-97060-223-2

тираж

200 экз.

стандарт

20 шт.

возрастная категория

18+ (нет данных)

вес

295 г

код в Майшоп

2433834

язык

русский

Содержание

Предисловие
Вступление
ЧАСТЬ I. ПОСТРОЕНИЕ СКРАПЕРОВ
Глава 1. Ваш первый скрапер
Соединение с Интернетом
Введение в BeautifulSoup
Установка BeautifulSoup
Запуск BeautifulSoup
Как обеспечить надежный скрапинг
Глава 2. Продвинутый парсинг HTML
Вам не всегда нужен молоток
Еще одно применение BeautifulSoup
find() и findAll()..
Другие объекты BeautifulSoup
Навигация по дереву синтаксического разбора
Работа с дочерними элементами и элементами-
потомками
Работа с одноуровневыми элементами
Работа с родительскими элементами
Регулярные выражения
Регулярные выражения и BeautifulSoup
Работа с атрибутами
Лямбда-выражения
За рамками BeautifulSoup
Глава 3. Запуск краулера
Обход отдельного домена
Краулинг всего сайта
Сбор данных по всему сайту
Краулинг Интернета
Краулинг с помощью Scrapy
Глава 4. Использование API
Как работают API
Общепринятые соглашения
Методы
Аутентификация
Ответы
Вызовы API
Echo Nest
Несколько примеров
Twitter
Приступаем к работе
Несколько примеров
Google API
Приступаем к работе
Несколько примеров
Парсинг J SON-данных
Возвращаем все это домой
Подробнее о применении API
Глава 5. Хранение данных
Медиафайлы
Сохранение данных в формате CSV
MySQL
Установка MySQL
Некоторые основные команды
Интеграция с Python
Методы работы с базами данных и эффективная
практика
"Шесть шагов" в MySQL
Электронная почта
Глава 6. Чтение документов
Кодировка документа
Текст
Кодировка текста и глобальный Интернет
CSV
Чтение CSV-файлов
PDF
Microsoft Word и .docx
ЧАСТЬ II. ПРОДВИНУТЫЙ СКРАПИНГ
Глава 7. Очистка данных
Очистка данных на этапе создания кода
Нормализация данных
Очистка данных постфактум
OpenRefine
Глава 8. Чтение и запись естественных языков
Аннотирование данных
Марковские модели
Шесть шагов Википедии: заключительная часть
Natural Language Toolkit
Установка и настройка
Статистический анализ с помощью NLTK
Лексикографический анализ с помощью NLTK
Дополнительные ресурсы
Глава 9. Краулинг сайтов, использующих веб-
формы
Библиотека requests
Отправка простой формы
Радиокнопки, флажки и другие элементы ввода
данных
Отправка файлов и изображений
Работа с логинами и cookies
Базовая НТТР-аутентификация
Другие проблемы при работе с формами
Глава 10. Скрапинг JavaScript-кода
Краткое введение в JavaScript
Распространенные библиотеки JavaScript
Ajax и динамический HTML
Выполнение JavaScript в Python с помощью
библиотеки
Selenium
Обработка редиректов
Глава 11. Обработка изображений и распознавание
текста
Обзор библиотек
Pillow
Tesseract
NumPy
Обработка хорошо отформатированного текста
Скрапинг текста с изображений, размещенных на
веб-сайтах
Чтение САРТСНА и обучение Tesseract
Обучение Tesseract
Извлечение САРТСЫА и отправка результатов
распознавания
Глава 12. Обход ловушек в ходе скрапинга
Обратите внимание на этический аспект
Учимся выглядеть как человек
Настройте заголовки
Обработка cookies
Время решает все
Общие функции безопасности, используемые веб-
формами
Значения полей скрытого ввода
Обходим "горшочки с медом"
Проверяем скрапер на "человечность"
Глава 13. Тестирование вашего сайта с помощью
скраперов
Введение в тестирование
Что такое модульные тесты?
Питоновский модуль unittest
Тестирование Википедии
Тестирование с помощью Selenium
Взаимодействие с сайтом...
Unittest или Selenium?
Глава 14. Скрапинг с помощью удаленных
серверов
Зачем использовать удаленные серверы?
Как избежать блокировки IP-адреса
Переносимость и расширяемость
Тог
PySocks
Удаленный хостинг
Запуск с аккаунта веб-хостинга
Запуск из облака
Дополнительные ресурсы
Заглянем в будущее
Приложение А. Кратко о том, как работает Python
Установка и "Hello, World!"
Приложение В. Кратко о том, как работает
Интернет
Приложение С. Правовые и этические аспекты
веб-скрапинга
Товарные знаки, авторские права, патенты, о
боже!
Авторское право
Посягательство на движимое имущество
Закон о компьютерном мошенничестве и
злоупотреблении
robots.txt и Пользовательское соглашение
Три нашумевших случая в практике
веб-скранинга
eBay против Bidder's Edge и посягательство на
движимое
имущество
США против Орнхаймера и Закон о компьютерном
мошенничестве и злоупотреблении
Филд против Google: авторское право и robots.txt
Об авторе
Колофон
Предметный указатель

Отзывы

Вопросы

Поделитесь своим мнением об этом товаре с другими покупателями — будьте первыми!

Дарим бонусы за отзывы!

За какие отзывы можно получить бонусы?

За уникальные, информативные отзывы, прошедшие модерацию

Как получить больше бонусов за отзыв?

Публикуйте фото или видео к отзыву
Пишите отзывы на товары с меткой "Бонусы за отзыв"

Правила начисления бонусов

Задайте вопрос, чтобы узнать больше о товаре

Если вы обнаружили ошибку в описании товара «Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета» (авторы: Митчелл Райан), то выделите её мышкой и нажмите Ctrl+Enter. Спасибо, что помогаете нам стать лучше!