Как свернуться или сделать веб-страницу?

Я хотел бы создать ночное задание cron, которое будет извлекать страницу стека переполнения и отличать ее от страницы предыдущего дня, чтобы я мог видеть сводку изменений моих вопросов, ответов, рейтинга и т. Д.

К сожалению, я не смог получить правильный набор файлов cookie и т. Д., Чтобы сделать эту работу. Есть идеи?

Кроме того, когда бета будет завершена, будет ли моя страница состояния доступна без входа в систему?

5.08.2008 20:38:59
5 ОТВЕТОВ
РЕШЕНИЕ

Ваша страница состояния теперь доступна без входа в систему (нажмите « Выйти» и попробуйте). Когда бета-cookie отключен, между вами и вашей страницей статуса ничего не будет.

Для wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
9
23.05.2017 11:46:21

Хорошая идея :)

Я полагаю, вы использовали Wget's

--load-cookies (filename)

может немного помочь, но может быть проще использовать что-то вроде Mechanize (в Perl или python), чтобы более полно имитировать браузер и получить хорошего паука.

3
5.08.2008 20:43:31

Я не мог понять, как заставить cookie-файлы работать, но я смог получить доступ к своей странице статуса в браузере, когда я вышел из системы, поэтому я предполагаю, что это сработает, когда stackoverflow станет общедоступным.

Это интересная идея, но разве вы не поднимете различия в базовом HTML-коде? У вас есть стратегия, чтобы избежать различий в HTML, а не фактического содержания?

2
5.08.2008 20:46:22
Если бы у меня было время, я бы написал скрипт Beautiful Soup (или что-то лучше?), Чтобы аккуратно очистить данные, но сейчас я просто вырезаю нужные мне строки текста.
Mark Harrison 5.08.2008 21:06:36

И вот что работает ...

curl -s --cookie soba=. http://stackoverflow.com/users
2
5.08.2008 21:22:42

От Марка Харрисона

И вот что работает ...

curl -s --cookie soba =. https://stackoverflow.com/users

И для Wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
6
23.05.2017 11:54:02