Hitech logo

Интернет будущего

«Граф знаний» Diffbot работает быстрее и точнее, чем Google

TODO:
Георгий Голованов31 августа 2018 г., 12:10

Калифорнийский стартап Diffbot структурирует разрозненную информацию из интернета. Свою систему создатели называют «первой исчерпывающей картой человеческих знаний». И в ней уже больше фактов, чем в Google Knowledge Graph.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Если вы набираете в поисковой строке Google имя актера, название торговой марки или товара, иногда справа появляется карточка с информацией, которую подбирает так называемый Knowledge Graph — база данных, которая улучшает результаты поиска. Большая часть из 1,6 млрд фактов этого «графа знаний» предоставляется командами специалистов, которые регулярно прочесывают миллионы вебсайтов в поисках ответов на самые популярные вопросы пользователей.

Но основатель компании Diffbot Майк Тун уверен, что то же самое можно сделать лучше, чем Google. Задача его стартапа — структурировать разрозненные сетевые данные, то есть по сути автоматически изслекать знания из документов.

«Мы пытаемся построить первую исчерпывающую карту человеческих знаний, анализируя каждую страницу интернета», — говорит Тун в интервью VentureBeat.

Компания Diftbot выросла из научного проекта, над которым Тун трудился в течение пяти лет в Стэнфорде. Алгоритм сочетает компьютерное зрение и обработку естественного языка. Бот компании способен проанализировать форму и структуру практически любой веб-страницы — около 90% страниц примерно 20 типов.

Тун называет свой продукт «знание как услуга». По его мнению, здесь есть где развернуться его бизнесу — 30% рабочего времени сотрудники, собирающие данные, тратят на поиск фактов. Горизонтальный граф знаний мог бы выполнять эту работу за них.

Данные, которые собирает бот стартапа, наполняют огромную базу данных Diffbot Knowledge Graph, которая состоит из свыше триллиона фактов и 10 млрд наименований.

Каждый месяц добавляется по 130 млн новых данных. Основные категории: люди (профессиональные навыки, опыт работы, образование, профили в соцсетях), компании, места (топографические данные, адреса, зоны), статьи, обсуждения, изображения.

По запросу база выдает, например, досье на всех сотрудников интересующей компании с указанием должностей, навыков, образованием и профилями в социальных сетях — и все в одном месте. По словам Туна, их граф не только более полный, чем вручную собранная база Google Knowledge Graph, но и более точная. Бот стартапа регулярно обновляет информацию, а его алгоритмы достаточно умны, чтобы пропускать сайты с логически недостоверными фактами.

Свой «граф знаний» появился и у виртуального помощника Alexa. Теперь она действительно сможет постоянно учиться, добавляя новую для себя информацию в базу данных. Возможно, так Amazon сократит интеллектуальный разрыв между Alexa и Google Home.