Собрать e-mail адреса с сайтов

Версия для печатиВерсия для печати

Для сбора e-mail адресов с различных сайтов и сервисов существует много различных программ. Требуется простая и бесплатная программа с набором необходимого функционала.

Для такой операции вполне подходит свободно распространяемая утилита wget http://www.gnu.org/software/wget/. Программа является базовым компонентом практически всех дистрибутивов Linux.

В Linux Gentoo она устанавливается стандартным способом

emerge wget

Пользователи Windows-систем также могут скачать программу по вышеуказанной ссылке, программа не требует инсталляции.

Упражняться будем на сервисе ответов mail.ru, пользовательские мыльники на нем добываются с легкостью. Это не единственный сервис с такой политикой, можете пробовать другие.

Итак, запускаем программу со следующими параметрами

wget -q -O - http://otvet.mail.ru/open/?pg={1..100} | grep -ioE '\b[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b' | sort -ui >> ./otveti_email.txt

Программа обойдет 100 страниц с ответами и соберет e-mail адреса в файл otveti_email.txt, переменные можно увеличить.

Комментарии

где взять файл greb?

grep — утилита командной строки, которая находит на вводе строки, отвечающие заданному регулярному выражению, и выводит их, если вывод не отменён специальным ключом.

Grep для Windows здесь http://gnuwin32.sourceforge.net/packages/grep.htm

В Linux программа стандартно присутствует.

В Gentoo:

sys-apps/grep
Available versions: 2.16 ~2.20 {nls pcre static}
Installed versions: 2.16(08:59:46 04.05.2014)(nls pcre -static)
Homepage: http://www.gnu.org/software/grep/
Description: GNU regular expression matcher