Семантическая Сеть или медиаландшафт будущего

9 апреля 2014

от admin

Александр Калмыков

Сейчас подавляющее большинство контента, размещенного в интернете, предназначено для чтения и понимания человеком, а не для автоматизированного анализа машиной. В итоге сайт воспринимается и читается человеком и роботом по разному. Это создает ряд неудобств: нерелевантность выдачи по поисковым запросам, необходимость специальной работы по SEO, сложность агрегации данных и т.п. При такой ситуации машиночитаемые массивы данных лишь с очень большими оговорками можно называть базами знаний. Компьютер научили разбираться в разметке веб-страницы (html), однако он пока не способен обрабатывать семантику документа, то есть извлекать заключенные в контенте смыслы.
Цель Семантической Сети — создать язык, на котором можно будет описывать как данные, так и правила рассуждений и выводов на основе данных. Это предполагает возможность переноса сетевыми средствами правил вывода существующих в какой-либо одной системе представлений знаний в другую.
К настоящему времени созданы следующие технологии для построения Семантической Сети:

Расширяемый Язык Разметки (eXtensible Markup Language, XML);
Система Описания Ресурсов (Resource Description Framework, RDF);
Язык Сетевых Онтологий (Web Ontology Language, OWL).

В рамках проекта Семантической Сети в качестве базового вводится понятие «онтология». Впрочем, оно имеет весьма специфическое значение, ничего общего с исходным философским смыслом не имеющее. Здесь это — документ или файл, формально задающий отношения между терминами. Наиболее типичными видами онтологий в Сети являются таксономия и набор правил вывода.
По мнению разработчиков, Семантическая Сеть будет реализована тогда, когда будет создано множество программ-агентов, которые, знакомясь с содержимым Сети из различных источников, будут обрабатывать полученную информацию и обмениваться результатами с другими программами. Эффективность таких программных агентов будет расти экспоненциально по мере увеличения количества доступного машинно-воспринимаемого веб-контента и автоматизированных сервисов (включая других агентов). Для успешного развития необходима большая стандартизация формата размещаемой в интернете информации.

Важным аспектом функционирования программных агентов будет возможность обмена «доказательствами», записанными в унифицированном языке Семантической Сети (языке, на котором можно записывать логические рассуждения, проведенные с использованием содержащейся в онтологиях информации). Эти «доказательства» предполагается получать в процессе человеко-машинного взаимодействия, т.е. с помощью экспертов. Таким образом, в концепцию Семантической Сети органично входят концепты, связанные с разработкой экспертных систем. Подобно тому как технологии веб2.0 позволили отдать формирование контента пользователям, веб3.0 как плацдарм разворачивания Семантической Сети – позволит учить машину читать этот контент по человеческим правилам.

Тенденция веб-синдикации, проявленная уже в веб2.0, которая заключается в возможности присоединения и комбинирования различных вебсервисов в одном проекте, должна получить развитие в семантических сетях в форме так называемого обнаружения сервисов [service discovery], что станет возможным лишь после того, как появится единый язык, позволяющий описывать сервисы. В этом случае программы-агенты (а не человек) смогут «понимать» что позволяет делать тот или иной сервис и каким образом им пользоваться. Сервисы и агенты смогут протоколировать информацию о функционале веб-сервисов в специальных справочниках, размещенных в Сети, с помощью облачных технологий. На сегодняшний день уже появился подобный язык описания сервисов – Язык Онтологии Сетевых Сервисов (Web Services Ontology Language, OWL-S) , а также разработана версия WWW-Консорциумом (W3C) .

На первый взгляд может показаться, что речь идет всего лишь об очередной попытке стандартизации процедур более высокого уровня. Действительно, одного из авторов концепции W3W – Тима Бернерса-Ли по праву считают отцом веба, поскольку именно он придумал идею стандартизации языка разметки гипертекста(html) и концепцию всемирной паутины (WWW). Эта идея оказалась крайне плодотворной настолько, что воспринимается как своего рода чудо. И теперь Бернерс-Ли с соавторами решил применить этот же принцип, но уже к понятиям.
Однако претензии концепции Семантической Сети намного глубже и шире.
Процитируем фрагмент статьи «Семантическая Сеть». Опуская технические детали, зафиксируем лишь претензии Семантической Сети на некоторое глобальное эпистемическое преобразование:
«Эволюция знаний

Семантическая Сеть — это не «просто» инструмент для решения чьих-то индивидуальных задач, обсуждавшихся нами до сих пор. Правильно организованная Семантическая Cеть может, помимо прочего, способствовать эволюции человеческого знания в целом.
Человеческие усилия стеснены вечным противоречием между эффективностью малых независимо действующих групп людей и необходимостью согласования своих действий с широкой общественностью. Небольшой коллектив может быстро и эффективно создать нечто новое, однако зачастую это порождает своего рода субкультуру, концепции которой могут быть непоняты окружающими. С другой стороны, координирование действий большой группы чрезвычайно замедляет процессы и требует колоссального количества общений. Всё в мире работает где-то посредине между двумя этими крайностями с преобладанием тенденции начинать с малого – некой частной идеи – и постепенно продвигаться на пути к более широкому пониманию.

Существенным процессом становится объединение субкультур, когда требуется более широкий единый язык. Очень часто две независимо работающие группы разрабатывают очень сходные концепции, и попытка описать взаимосвязи между этими концепциями даст весьма существенную выгоду. Подобно финско-английскому языку или таблице преобразования мер и весов эти взаимосвязи позволят общаться и сотрудничать, даже когда общность понятий не перешла (пока ещё) в общность терминов.
Семантическая Сеть, именуя всякое понятие просто с помощью URI-идентификатора, даст возможность каждому выражать новые понятия, которые он изобретает, с минимальными усилиями. Её универсальный логический язык позволит постепенно связать все эти понятия в универсальную Сеть. Эта структура сделает знания и достижения человечества доступными для анализа программными агентами и предложит нам новый класс средств, с помощью которых мы можем вместе жить, работать и учиться».

В этом отрывке курсивом отображены ключевые элементы исходной концепции. А именно:
1. Семантическая Cеть – фактор эволюции человеческого знания в целом.
2. Причиной замедления развития является отсутствие эффективной коммуникации (коммуникативный диссонанс на понятийном уровне) как между проектными группами, так и проектной группой и общественностью.
3. Семантическая Сеть может позволить преодолеть этот коммуникативный диссонанс даже когда общность понятий не перешла (пока ещё) в общность терминов.
4. Теоретически возможно создание универсального логического языка, связывающего различные понятия в универсальную Сеть.
В этих четырех тезисах, на мой взгляд, и заключены основные идеи семантического веба. Но насколько они бесспорны?

Во-первых – совершенно не факт, что к знанию может быть применен термин «эволюционирование». В обращении к нему видится уже преодоленная наукой позитивистская традиция. Даже если предположить, что авторы не имеют ввиду постепенное поступательное накопление знаний, приводящее в конце концов к появлению нового знания, и согласны с тем, что научная картина мира меняется скачкообразно, например в результате смены парадигм, эволюционирование подспудно предполагает наследование старых признаков и формирование новых в результате адаптационного взаимодействия с внешней средой. Можно ли сегодня такой подход применять к знанию? Другой проблемной стороной данного тезиса является предположение, что предметом эволюционирования (пусть даже не эволюционирования, а только трансформации, изменения или чего-то в этом роде) является само по себе знание не в плане его философской рефлексии, а в качестве самополагаемой сущности. Ведь можно посмотреть на человеческое знание, отвлекаясь от его понятийного наполнения, как на определенную изначальную данность. И в этом ракурсе его изменность или неизменность требуется доказывать и обсуждать.

Во-вторых – можно согласиться с тем, что коммуникативные проблемы сегодня стали чуть ли не главным трендом научного и научно-практического дискурса, который часто исходит из позиции, что достаточно сделать коммуникации эффективными и тогда все остальные проблемы человечества будут быстро решены. Но так ли это? Даже на уровне языка бытового общения развитие информационно-коммуникативных технологий приводит к нивелированию самого языка. И это уже ясно наблюдается. Когда-то Владимир Иванович Даль после пятиминутного разговора с крестьянином мог точно определить губернию и волость, из которой тот приехал. Сегодня с такой задачей даже Даль не справился бы. А ведь языковое разнообразие ничуть не менее важно, чем разнообразие биологическое. Впрочем, стандартизировать машину, не только не лишне, а необходимо.

В-третьих – предполагается, что эффективная коммуникация возможна, даже если в процессе ее используются означающие, под которыми участники коммуникации подразумевают разные означаемые. В человеческом общении это действительно так, поскольку в результате как раз и возникает совместное понимание, то есть со-вместное, подчеркнем, порождение как общих, так и индивидуальных смыслов. И возможно это лишь потому, что у человека есть способность к рефлексии. Проявляется это и при машинноопосредованном общении. Однако при коммуникации человека и машины такое вряд ли получится, поскольку машина рефлексией не обладает. Впрочем, отметим здесь, что некоторые функциональные части механизмов мышления и понимания, которые мы привыкли считать чисто человеческими, придется отдать машине, и в этом плане развитие Семантических Сетей важно еще и с точке зрения определения границ подлинно человеческого.

В-четвертых – вызывает сомнение сама возможность создания универсального логического языка и тем более формирование сети понятий. Против этого известная теорема неполноты Геделя , а также тот факт, что разработчиками не уточняется, какая именно логика будет положена в основу такого языка. Поскольку машины пока работают на булевой логике, то структуры, в них организуемые, также будут знать только «да» или «нет», как бы это не камуфлировалось сложными надстройками. И в основе этих надстроек будет лежать все тот же закон тождества. Здесь фундаментальная проблема создания искусственного интеллекта. Характерно, что в построении данного концепта используются термины, заимствованные именно из этой инженерной области. Оправданные в рамках задач искусственного интеллекта они, при постановке подобной глобальной эпистемической проблемы, воспринимаются несколько странно. Например: один из базовых терминов «онтология» и основа дискрипта – триплет, состоящий из субъекта, предиката и объекта – вызывают недоумение не только у философа и лингвиста, но и у грамотного читателя. Иными словами, универсальность вводится с помощью терминов, принадлежащих крайне узкой предметной области.

Впрочем, сами разработчики поправляются: «Семантический Веб позволит машинам понимать семантику документов и данных, но не человеческую речь или его сочинения».Откуда следует и отношение к нему как к новому и безусловно весьма перспективному техническому средству работы со знанием, но не как к фактору преобразования знания. Хотя его функционирование привнесет много неожиданного в наш мир, в коммуникативном, психологическом и эпистемическом плане. Особенно это касается медийной сферы, для которой Семантическая Сеть – новый вызов, поскольку каждый пользователь с помощью программ-агентов сможет самостоятельно создавать для себя новостную «повестку дня», и новые возможности по работе с информацией, коммуникацией, знанием.

Литература

Тим Бернерс-Ли о следующем поколении Сети. URL: http://www.ted.com/talks/lang/ru/tim_berners_lee_on_the_next_web.htm
Тим Бернерс-Ли, Джеймс Хендлер, Ора Лассил. Семантическая Сеть. (перевод 2004 г., URL: http://ezolin.pisem.net/logic/semantic_web_rus.html/ Оригинал: The Semantic Web. By Tim Berners-Lee, James Hendler and Ora Lassila. Scientific American, May 17, 2001. URL: http://www.scientificamerican.com/article.cfm?id=the-semantic-web/
Performance Timeline and User Timing are W3C Recommendations. URL: http://www.w3.org/
OWL Язык Сетевых онтологий. Варианты использования и требования. Рекомендация W3C от 10 февраля 2004. URL: http://www.w3.org/2006/04/OWL_UseCases-ru.html.
Тим О’Рейли. Что такое Веб 2.0 // Компьютерра On-line 18 октября 2005 года, URL: http://old.computerra.ru/think/234100/
Успенский В.А. Теорема Геделя о неполноте.// Theoretical Computer Science 130,1994, pp.273-238.