 | 9-04-2010, 12:14, прочитали: 2611 раз, раздел: Портфолио |
Требовалось провести сбор полной базы данных по сайтам Российских, Казахских, Украинских, Беларусских, Узбекских, Китайских компаний, путём парсинга html данных. Требовалось получить адреса электронной почты, телефоны, факсы и т.д. Но на большинстве сайтах email адреса и телефоны были представлены как картинка (captcha) специально для того чтобы боты не собирали информацию о фирмах (специально от таких как я :)), поэтому был разработан алгоритм разбора изображений и получения исходного текста из них с вероятностью определения текста в 98%. В итоге по всем странам было обработано около 11 милионов компаний (только в Китае было 8 милионов записей), на выходе получилась база в 600 тысяч уникальных email адресов. Все фирмы были распределены по своим собственным категориям. Также необходимо было сделать модуль для рассылки самих писем по полученным адресам. Для того чтобы не попасть в спам-листы требовалось сделать рассылку писем по очередям, по крону. Можно рассылать письма как по отдельной категории, так и по отдельной стране, а также задавать интервал отправки и кол-во писем отправляемое за 1 раз. Ведётся лог отправки и лог переходов из писем, есть возможность просматривать логи по фильтрам (по стране или за определённую дату)
Сайт: http://omniteria.com/
Движок: ARTofCMS
Бюджет: 800$
Затрачено часов: 20
Это может вас заинтересовать:
Комментариев оставленно: 0 Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии в данной новости.
|
|