Сэр Тим Бернерс-Ли (Tim Berners-Lee), широко известный создатель технологий World Wide Web (WWW), дал определение следующего этапа в развитии «Всемирной паутины». По его мнению, его следует назвать Giant Global Graph (GGG, «Гигантский глобальный граф»).
В своем блоге Тим Бернерс-Ли пишет, что GGG следует отделить от двух предыдущих, более низких уровней — Net (Cети) и Web (Паутины). Сеть связывает компьютеры, а Паутина - документы. Граф, по словам Бернерса-Ли, связывает, в первую очередь, людей с другими людьми, предоставляя им сервисы более высокого качества благодаря семантическим технологиям. Граф в математике — это совокупность объектов (вершин графа) со связями между ними (ребрами графа). В строго математическом смысле слова, и Сеть, и Паутина также являются графами.
Тим Бернерс-Ли упоминает о концепции социального графа, предложенной Брэдом Фицпатриком (Brad Fitzpatrick), основателем социальной сети LiveJournal, а ныне — сотрудником Google. По мнению Брэда Фицпатрика, пользователи интернета устали от необходимости регистрироваться и декларировать круг своих связей на каждом новом сайте. Решением проблемы могло бы стать создание децентрализованного социального графа (social graph), не зависящего от какой-либо компании или организации. Фицпатрик предложил разработать некоммерческое ПО с открытым исходным кодом, для «сбора, соединения и перераспределения графов всех социальных сетей и создания единого глобального графа».
Тим Бернерс-Ли расширяет понятие «граф», данное Брэдом Фицпатриком. По его мнению, значение «глобального графа» заключается не только в связи социальных сервисов между собой и устранении необходимости дублировать информацию. Граф должен реализовать новый уровень абстракции в интернете.
Ранее переход на каждую более высокую ступень абстракции приводил к появлению принципиально новых возможностей для пользователей, указывает Бернерс-Ли. Например, по мере развития средств коммуникации между компьютерами, пользователь получил возможность «забыть» о кабелях. Программное обеспечение — это более высокий уровень абстракции по сравнению с аппаратными средствами. Его развитие позволило соединить разные типы компьютеров и в какой-то мере «не думать» об их архитектуре. Такой же эффект имели гипертекстовые технологии, давшие возможность обмениваться документами независимо от того, на каком компьютере они хранятся.
Тим Бернерс-Ли пишет о текущей разобщенности сайтов и документов на сайтах, зачастую содержащих дублирующуюся информацию. При этом «система не знает о дублировании», у нее нет возможности анализировать семантику документов. Перейти от уровня документов к следующей ступени абстракции — «знанию» машинами содержания документов — помогут технологии семантического интернета, например, RDF, OWL и SPARQL, считает основатель Всемирной паутины.
«Если какая-либо социальная сеть будет использовать общепринятый формат для выражения того, что я знаю конкретного человека, то другие сайты и программы смогут использовать эту информацию (при условии, что им это позволили) для предоставления мне лучшего сервиса», - пишет Бернерс-Ли. Таким образом, во многом понятие «Граф» в трактовке Тима Бернерса-Ли близко понятию «Семантический интернет».
Применение концепции GGG вместо WWW даст возможность лучше использовать мобильный интернет, указывает Тим Бернерс-Ли. Выход в интернет сейчас осуществляется через огромное количество различных моделей мобильных устройств, отвечающих разным стандартам. «Когда я заказываю билет на рейс самолета, меня интересует рейс, а не содержание веб-страниц сайтов туристического агентства или авиакомпании, — пишет он. — Какое бы устройство связи я не использовал, GGG даст возможность получить адекватную интегрированную информацию с разных ресурсов».
Между тем, в Рунете уже появилась поисковая система нового типа: ktotam.ru
Что это
«КтоТам» — информационно-поисковая система нового типа.
«КтоТам» позволяет извлекать и объединять знания из массивов открытой публичной информации. Знания этой системы — это люди, организации, явления и предметы окружающего нас мира.
Основным отличием от множества других поисковых систем является то, что результат поиска — это весь объем знаний доступный в одном месте, а не множество ссылок на разрозненные сайты.
Не менее важным, а порой и более полезным отличием выступает возможность поиска связей между объектами — связи между людьми, между организациями, между событиями.
Объем информации доступной в Интернете сейчас таков, что в случае поиска чего-либо, большая часть времени уходит на просмотр найденных ссылок. Требуется кардинально новый подход к поиску, который и реализован в поисковой системе «КтоТам»
«КтоТам» автоматически формирует выводы о профессии человека, его хобби, связях с другими людьми и организациями. Все выводы системы, все факты, подтверждаются конкретными источниками — публикациями в СМИ, в лентах новостей, в блогах и т.д.
«КтоТам» автоматически отслеживает упоминания людей и организаций в потоках информации и формирует свой SmartIndex — индекс, позволяющий объединять воедино весь накопившийся багаж знаний.
Возможности
Поиск людей и организаций. «КтоТам» ищет по фамилии или имени. «КтоТам» может найти людей по дополнительным характеристикам — «Иван хоккеист» и «Сидоров кассир».
«КтоТам» позволяет искать только по характеристикам, помогая найти всех олимпийских чемпионов из Санкт-Петербурга или всех политиков Краснодара.
Поисковая система может найти связи между людьми, проверяя на практике распространенную теорию шести рукопожатий.
«КтоТам» может найти человека через организацию, в которой он работал или же его коллег.
«КтоТам»позволяет искать и получать данные даже из бумажных СМИ.
Как это работает
Поисковая машина «КтоТам» обрабатывает официальную информацию из тысяч открытых источников. Это — электронные и печатные СМИ, новостные ленты и аналитика, государственные и корпоративные издания, публично доступная информация из социальных сетей и блогов.
Обработка информации ведется с учетом лингвистической и логической структуры текста, на основе уникальных алгоритмов позволяющих понимать строение текста, сравнивать и классифицировать информацию. Результатом обработки массива текста является SmartIndex представляющий из себя многоуровневый набор фактов и атрибутов о каком либо явлении.
Кроме того, SmartIndex содержит информацию про источник фактов, атрибуты, дату и множество других дополнительных сведений. Подобные индексы строятся при каждом упоминании компании Имярек или Александра Краснова и Ивана Франко.
SmartIndex удобен не только возможностью унифицировать и объединять информацию, переданную разными словами. Он позволяет в разы сократить объемы хранимых данных.
На основании SmartIndex-а строится мета поиск — позволяющий по конкретному человеку или организации отражать и объединять множество фактов, связей и атрибутов, выделенных из разных источников.
Основное направление усилий команды «КтоТам»:
- построение качественных SmartIndex-ов для лингвистически сложных предложений;
- построение качественного метаиндекса для всего объема обработанной структурированной информации;
- объединение информации про одного и того же человека из разных источников;
- недопущение объединения информации для разных людей (например однофамильцев или полных тезок).
Источники информации
Любая информация, которой оперирует поисковая система «КтоТам» находится в открытом доступе. Все выводы системы, атрибуты, связи между объектами строятся автоматически на основании обработанных текстов, при этом всегда указывается первоисточник.
Мы обрабатываем несколько тысяч совершенно разных источников информации — это ленты новостей (Регнум, РИА, ИТАР ТАСС и т.д.), новостные сайты (Лента.Ру, Вебпланета), аналитические сайты, справочники и т.д. Любой человек может проверить результаты работы системы, прочитав все необходимые материалы на сайтах первоисточниках.
Источники совершенно разные и это позволяет системе делать достаточно точные выводы.
У нас в базе содержатся SmartIndex-ы множества публикаций из архивов недоступных в Интернете — в таком случае мы можем только процитировать и указать место, из которого выделен факт. А для проверки всегда можно сходить в библиотеку или связаться с редакцией.
Кто Здесь
Добрый час, уважаемый посетитель!
Меня зовут Артем Аствацатуров, я руководитель проекта «КтоТам». Мне очень приятно представить вам этот проект — плод упорной работы нашей команды. Постараюсь быть кратким.
То, что вы видите сейчас на сайте — это бета версия поисковой системы нового типа.
Члены нашей команды долгое время работали в проектах связанных с поиском информации, с мониторингом СМИ, с лингвистическими и аналитическими моделями обработки текста. Мы обрабатывали слабоструктурированную информацию и создавали системы идентификации. За время работы у всех сложилось видение того, как можно принципиально по-новому подойти к поиску.
Систем подобных нашей еще не создано, но было бы глупо утверждать, что у нас не было ориентиров. Мы видим, как меняется мир, как меняется Интернет. Уже не первый год ведутся разговоры, что информации становится слишком много, что подход к поиску нужно менять. Сэр Тим Бернерс-Ли совсем недавно озвучил идею нового этапа развития WWW — GGG. Это еще больше подзадорило нас — вот! Именно это мы и делаем! Мы делаем то, о чем пока еще только говорят столь уважаемые люди!
И вот мы запустили проект в открытое тестирование. Что у нас есть сейчас?
Поиск людей, организаций, событий и связей. А еще у людей есть атрибуты, цитаты и множество всего.
Система только запущена, поэтому понятно, что наш робот может ошибаться. Мы даже знаем несколько сложных мест в наших алгоритмах, незначительно усовершенствовав которые, мы сможем кардинально улучшить качество поиска. Эти работы ведутся, но уже сейчас мы можем показать вам предварительные результаты.
Ваша помощь и ваше мнение очень важны! На всех страницах есть форма обратной связи — вы можете указать на логические неточности или пожаловаться, если вы не нашли того, кого искали.
Текст www.ktotam.ru
Фото www.goemerchant.com