Искатель электронной почты на Python
Привет. У нас есть код на Python. Этот код является частью более крупного кода. Этот код сначала получает URL-адрес от пользователя, а затем выполняет поиск на глубине 2 в URL-адресе, полученном от пользователя, и извлекает адреса электронной почты. Цель состоит в том, чтобы не иметь ограничений по глубине и искать все поддомены и ссылки в полученном URL-адресе без каких-либо ограничений. Пожалуйста, направьте меня и дайте мне измененный код.
Что я уже пробовал:
деф extractUrl(URL-адрес):
печать ("Поиск, пожалуйста, подождите...")
print ("эта операция может занять несколько минут")
пробовать:
количество = 0
на listurl = []
Конн = urllib.запрос.urlоткрыть(URL-адрес)
HTML-код = соед.читать().декодирования('кодировка UTF-8')
письма = ре.метод findAll(Р"[А-Яа-З0-9._%+-]+@[А-з-З0-9.-]+\.[А-Яа-я]{2,4}", в формате HTML)
печать ("поиск в" + url)
для электронной почты в электронных письмах:
если (электронная почта не в listUrl):
количество += 1
печать(стр(счет) + " - " + электронной почты)
на listurl.добавить(по электронной почте)
суп = BeautifulSoup(html, "lxml")
ссылки = суп.find_all('а')
для тега в ссылках:
link = tag.get('href', None)
если ссылка не является никакой:
пробовать:
печать ("поиск в" + ссылка)
if(link[0:4] == 'http'):
f = urllib.request.urlopen(ссылка)
s = f.read().decode('utf-8')
письма = ре.метод findAll(Р"[А-Яа-З0-9._%+-]+@[А-з-З0-9.-]+\.[А-Яа-я]{2,4}", с)
для электронной почты в электронных письмах:
если (электронная почта не в listUrl):
количество += 1
печать(стр(счет) + " - " + электронной почты)
на listurl.добавить(по электронной почте)
if(searchEmail("EmailCrawler.db", email, "Specific Search") == 0):
insertEmail("EmailCrawler.db", электронная почта, "специальный поиск", url)