Offline Explorer Pro

Извлечение данных

Что такое извлечение данных?

Извлечение данных - это обработка данных для извлечения информации. Примеры включают:

  • Обработка web-сайта для извлечения каталога продуктов и информации о стоимости, которая может использоваться для сравнения цен разных поставщиков.

  • Обработка web-сайтов для извлечения адресов электронной почты и URL.

  • Сбор данных с web-сайта для Ваших собственных нужд.

Извлечённые данные представляются в удобном виде для загрузки в базу данных и дальнейшего анализа.

Как это работает в Offline Explorer Pro?

Если Вы нуждаетесь в извлечении данных из web-сайта, Вы должны создать Проект и загрузить нужный сайт на Ваш жёсткий диск. Когда загрузка завершена, Вы должны выделить Проект и далее выбрать Извлечение данных на Ленте - вкладка Инструменты. Offline Explorer Pro будет использовать внешнюю утилиту - TextPipe - для обработки загруженного web-сайта.

Чем может помочь TextPipe?

TextPipe может использоваться для генерации извлечения данных из любого источника, включая web-сайты. TextPipe также может применяться для выполнения очистки данных или любой дополнительной обработки, например.

  • добавление записи в заголовок (например, обеспечение столбцов заголовками для .CSV-файлов)

  • удаление ненужных данных

  • замена определённого текста

  • преобразование переводов строк в DOS/Unix/Mac

  • развёртка вкладок

  • преобразование регистра букв в прописные

  • преобразование из EBCDIC в ASCII

  • удаление пустых мест

  • удаление столбцов, строк или полей

  • удаление дублирующихся записей

  • сортировка

  • извлечение email-адресов из определённых полей

  • сброс записей, соответствующих образцу

  • и многое другое.

Вы можете найти дополнительную информацию о TextPipe на web-сайте: http://www.datamystic.com/offlineexplorer.html

Вы можете загрузить TextPipe отсюда: http://www.datamystic.com/textpipepro.exe

Вы также можете автоматически запустить TextPipe, когда загрузка Проекта завершена. Просто добавьте следующую строку в поле URL Проекта:

TextPipe=c:\path\filter_filename.fll

Для выхода из TextPipe после обработки загруженных файлов добавьте ;/Q в конец:

TextPipe=c:\path\filter_filename.fll;/Q