Используйте Google-api/mediawiki-api для получения информации
В настоящее время я работаю над университетским проектом по теме "поисковая система". Для этого нам был предоставлен доступ к базе данных научных публикаций (http://dblp.uni-trier.de)
Это XML-файл размером 2 ГБ, который выглядит примерно так:
<article key="GottlobSR96"> <author>Georg Gottlob</author> <author>Michael Schrefl</author> <author>Brigitte Röck</author> <title>Extending Object-Oriented Systems with Roles.</title> <pages>268-296</pages> <year>1996</year> <volume>14</volume> <journal>TOIS</journal> <number>3</number> <url>db/journals/tois/tois14.html#GottlobSR96</url> </article>
Как видите, тег "статья"содержит различную информацию, такую как автор,название статьи,год публикации. Теперь моя задача-реализовать Java-решение, которое принимает поисковые запросы различных категорий (автор,университет, название) в качестве входных данных и предоставляет пользователю дополнительную информацию.
Например, если вы введете имя профессора, он должен вернуть такие данные, как дата его рождения, университет, в котором он работает, количество публикаций и т. д..
Я предполагаю, что это будет работать с помощью google api, чтобы найти запись для человека на домашней странице университета, а затем каким-то образом проанализировать страницу, чтобы найти необходимую информацию. Для университетов должна быть страница Википедии.
Я никогда не работал над проектом такого масштаба, поэтому на самом деле не имею ни малейшего представления о том, как реализовать иностранные API/библиотеки и т. д. в свой собственный код. Так что я думаю мой вопрос таков:
Как получить конкретную информацию на основе google-поиска? Может быть, через Википедию или как-то иначе.
Что я уже пробовал:
Я попытался найти информацию об университетах через mediawiki-api, но не могу понять, как получить необходимые данные.