-
Notifications
You must be signed in to change notification settings - Fork 0
First start
vans239 edited this page Jul 21, 2011
·
9 revisions
Welcome to the Yandex-Similar-Search wiki!
- Должен быть запущен mysql сервер.
- Все настройки указываются в файле project.properties
DB Info
jdbc.driver - драйвер базы данных
jdbc.url - адрес базы данных, а также кодировка
jdbc.user - логин
jdbc.password - пароль
WebHarvest Info
webharvest.file - адрес файла конфигурации
!webharvest.url - оставить, если указан config.xml
webharvest.url - оставить, если указан config2.xml
webharvest.path - рабочая папка web-harvest
webharvest.proxy - прокси
webharvest.start - номер страницы, с которой начинается скачивание
webharvest.count - примерное количество машин
PdfWriter Info
writer.file - выходной файл
Other
isScrape - скачивать ли заново машины с сайта. (false - использовать данные из базы данных)
- Поиск производится по страницам "http://auto.yandex.ru/search.xml?cluster_id=xxxxxxxx".
- Таблица Car
create table Car
(
carId int(11) not Null AUTO_INCREMENT,
model varchar(100) NOT NULL,
year int(11) NOT NULL,
price int(11) NOT NULL,
imgUrl VARCHAR(200),
retailer VARCHAR(100),
info VARCHAR(1000),
mileage int(11),
engineCap DOUBLE, city VARCHAR(100),
dateSale Date,
carYandexId VARCHAR(100) NOT NULL,
image blob,
similarCarYandexId VARCHAR(100),
PRIMARY KEY(carId),
UNIQUE (carYandexId)
) DEFAULT CHARSET=utf8;
Подготовка проекта:
- Добавить все библиотеки из папки libs в проект.
- Запустить
Important!
- Использовать большие промежутки не рекомендуется без прокси.
- Web-harvest
-
itext
4 Для быстрой проверки результатов удобно использовать sql запрос: "SELECT carYandexId, similarCarYandexId, model, year, price, mileage, datesale From Car ORDER by similarCarYandexId;"