First start

Welcome to the Yandex-Similar-Search wiki!

Должен быть запущен mysql сервер.
Все настройки указываются в файле project.properties

DB Info jdbc.driver - драйвер базы данных
jdbc.url - адрес базы данных, а также кодировка
jdbc.user - логин
jdbc.password - пароль
WebHarvest Info
webharvest.file - адрес файла конфигурации !webharvest.url - оставить, если указан config.xml webharvest.url - оставить, если указан config2.xml

webharvest.path - рабочая папка web-harvest
webharvest.proxy - прокси
webharvest.start - номер страницы, с которой начинается скачивание
webharvest.count - примерное количество машин
PdfWriter Info
writer.file - выходной файл
Other isScrape - скачивать ли заново машины с сайта. (false - использовать данные из базы данных)

Поиск производится по страницам "http://auto.yandex.ru/search.xml?cluster_id=xxxxxxxx".
Таблица Car create table Car
(
carId int(11) not Null AUTO_INCREMENT,
model varchar(100) NOT NULL,
year int(11) NOT NULL,
price int(11) NOT NULL,
imgUrl VARCHAR(200),
retailer VARCHAR(100),
info VARCHAR(1000),
mileage int(11),
engineCap DOUBLE, city VARCHAR(100),
dateSale Date,
carYandexId VARCHAR(100) NOT NULL,
image blob,
similarCarYandexId VARCHAR(100),
PRIMARY KEY(carId),
UNIQUE (carYandexId)
) DEFAULT CHARSET=utf8;

Подготовка проекта:

Добавить все библиотеки из папки libs в проект.
Запустить

Important!

Использовать большие промежутки не рекомендуется без прокси.
Web-harvest
itext
4 Для быстрой проверки результатов удобно использовать sql запрос: "SELECT carYandexId, similarCarYandexId, model, year, price, mileage, datesale From Car ORDER by similarCarYandexId;"

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

First start

Clone this wiki locally