Семантическая Сеть или медиаландшафт будущего

9 апреля 2014
от

Александр Калмыков

Сейчас подавляющее большинство контента, размещенного в интернете, предназначено для чтения и понимания человеком, а не для автоматизированного анализа машиной. В итоге сайт воспринимается и читается человеком и роботом по разному. Это создает ряд неудобств: нерелевантность выдачи по поисковым запросам, необходимость специальной работы по SEO, сложность агрегации данных и т.п. При такой ситуации машиночитаемые массивы данных лишь с очень большими оговорками можно называть базами знаний. Компьютер научили разбираться в разметке веб-страницы (html), однако он пока не способен обрабатывать семантику документа, то есть извлекать заключенные в контенте смыслы.
Цель Семантической Сети — создать язык, на котором можно будет описывать как данные, так и правила рассуждений и выводов на основе данных. Это предполагает возможность переноса сетевыми средствами правил вывода существующих в какой-либо одной системе представлений знаний в другую.
К настоящему времени созданы следующие технологии для построения Семантической Сети:

  • Расширяемый Язык Разметки (eXtensible Markup Language, XML);
  • Система Описания Ресурсов (Resource Description Framework, RDF);
  • Язык Сетевых Онтологий (Web Ontology Language, OWL).

В рамках проекта Семантической Сети в качестве базового вводится понятие «онтология». Впрочем, оно имеет весьма специфическое значение, ничего общего с исходным философским смыслом не имеющее. Здесь это — документ или файл, формально задающий отношения между терминами. Наиболее типичными видами онтологий в Сети являются таксономия и набор правил вывода.
По мнению разработчиков, Семантическая Сеть будет реализована тогда, когда будет создано множество программ-агентов, которые, знакомясь с содержимым Сети из различных источников, будут обрабатывать полученную информацию и обмениваться результатами с другими программами. Эффективность таких программных агентов будет расти экспоненциально по мере увеличения количества доступного машинно-воспринимаемого веб-контента и автоматизированных сервисов (включая других агентов). Для успешного развития необходима большая стандартизация формата размещаемой в интернете информации.

Важным аспектом функционирования программных агентов будет возможность обмена «доказательствами», записанными в унифицированном языке Семантической Сети (языке, на котором можно записывать логические рассуждения, проведенные с использованием содержащейся в онтологиях информации). Эти «доказательства» предполагается получать в процессе человеко-машинного взаимодействия, т.е. с помощью экспертов. Таким образом, в концепцию Семантической Сети органично входят концепты, связанные с разработкой экспертных систем. Подобно тому как технологии веб2.0  позволили отдать формирование контента пользователям, веб3.0 как плацдарм разворачивания Семантической Сети – позволит учить машину читать этот контент по человеческим правилам.

Тенденция веб-синдикации, проявленная уже в веб2.0, которая заключается в возможности присоединения и комбинирования различных вебсервисов в одном проекте, должна получить развитие в семантических сетях в форме так называемого обнаружения сервисов [service discovery], что станет возможным лишь после того, как появится единый язык, позволяющий описывать сервисы. В этом случае программы-агенты (а не человек) смогут «понимать» что позволяет делать тот или иной сервис и каким образом им пользоваться. Сервисы и агенты смогут протоколировать информацию о функционале веб-сервисов в специальных справочниках, размещенных в Сети, с помощью облачных технологий. На сегодняшний день уже появился подобный язык описания сервисов – Язык Онтологии Сетевых Сервисов (Web Services Ontology Language, OWL-S)  , а также разработана версия  WWW-Консорциумом (W3C) .

На первый взгляд может показаться, что речь идет всего лишь об очередной попытке стандартизации процедур более высокого уровня. Действительно, одного из авторов концепции W3W – Тима Бернерса-Ли  по праву считают отцом веба, поскольку именно он придумал идею стандартизации языка разметки гипертекста(html) и концепцию всемирной паутины (WWW). Эта идея оказалась крайне плодотворной настолько, что воспринимается как своего рода чудо. И теперь Бернерс-Ли с соавторами решил применить этот же принцип, но уже к понятиям.
Однако претензии концепции Семантической Сети намного глубже и шире.
Процитируем фрагмент  статьи «Семантическая Сеть».  Опуская технические детали, зафиксируем лишь претензии Семантической Сети на некоторое глобальное эпистемическое преобразование:
«Эволюция знаний

Семантическая Сеть — это не «просто» инструмент для решения чьих-то индивидуальных задач, обсуждавшихся нами до сих пор. Правильно организованная Семантическая Cеть может, помимо прочего, способствовать эволюции человеческого знания в целом.
Человеческие усилия стеснены вечным противоречием между эффективностью малых независимо действующих групп людей и необходимостью согласования своих действий с широкой общественностью. Небольшой коллектив может быстро и эффективно создать нечто новое, однако зачастую это порождает своего рода субкультуру, концепции которой могут быть непоняты окружающими. С другой стороны, координирование действий большой группы чрезвычайно замедляет процессы и требует колоссального количества общений. Всё в мире работает где-то посредине между двумя этими крайностями с преобладанием тенденции начинать с малого – некой частной идеи – и постепенно продвигаться на пути к более широкому пониманию.

Существенным процессом становится объединение субкультур, когда требуется более широкий единый язык. Очень часто две независимо работающие группы разрабатывают очень сходные концепции, и попытка описать взаимосвязи между этими концепциями даст весьма существенную выгоду. Подобно финско-английскому языку или таблице преобразования мер и весов эти взаимосвязи позволят общаться и сотрудничать, даже когда общность понятий не перешла (пока ещё) в общность терминов.
Семантическая Сеть, именуя всякое понятие просто с помощью URI-идентификатора, даст возможность каждому выражать новые понятия, которые он изобретает, с минимальными усилиями. Её универсальный логический язык позволит постепенно связать все эти понятия в универсальную Сеть. Эта структура сделает знания и достижения человечества доступными для анализа программными агентами и предложит нам новый класс средств, с помощью которых мы можем вместе жить, работать и учиться».

В этом отрывке курсивом отображены ключевые элементы исходной концепции. А именно:
1. Семантическая Cеть – фактор эволюции человеческого знания в целом.
2. Причиной замедления развития является отсутствие эффективной коммуникации (коммуникативный диссонанс на понятийном уровне) как между проектными группами, так и проектной группой и общественностью.
3. Семантическая Сеть может позволить преодолеть этот коммуникативный диссонанс даже когда общность понятий не перешла (пока ещё) в общность терминов.
4. Теоретически возможно создание универсального логического языка, связывающего различные понятия в универсальную Сеть.
В этих четырех тезисах, на мой взгляд, и заключены основные идеи семантического веба. Но насколько они бесспорны?

Во-первых – совершенно не факт, что к знанию может быть применен термин «эволюционирование». В обращении к нему видится уже преодоленная наукой позитивистская традиция. Даже если предположить, что авторы не имеют ввиду постепенное поступательное накопление знаний, приводящее в конце концов к появлению нового знания, и согласны с тем, что научная картина мира меняется скачкообразно, например в результате смены парадигм, эволюционирование подспудно  предполагает наследование старых признаков и формирование новых в результате адаптационного взаимодействия с внешней средой. Можно ли сегодня такой подход применять к знанию? Другой проблемной стороной данного тезиса является предположение, что предметом эволюционирования (пусть даже не эволюционирования, а только  трансформации, изменения или чего-то в этом роде) является само по себе знание не в плане его философской рефлексии, а в качестве самополагаемой сущности. Ведь можно посмотреть на человеческое знание, отвлекаясь от его понятийного наполнения, как на определенную изначальную данность. И в этом ракурсе его изменность или неизменность требуется доказывать и обсуждать.

Во-вторых – можно согласиться с тем, что коммуникативные проблемы сегодня стали чуть ли не главным трендом научного и научно-практического дискурса, который часто исходит из позиции, что достаточно сделать коммуникации эффективными и тогда все остальные проблемы человечества будут быстро решены. Но так ли это? Даже на уровне языка бытового общения развитие информационно-коммуникативных технологий приводит к нивелированию самого языка. И это уже ясно наблюдается. Когда-то Владимир Иванович Даль после пятиминутного разговора с крестьянином мог точно определить губернию и волость, из которой тот приехал. Сегодня с такой задачей даже Даль не справился бы. А ведь языковое разнообразие ничуть не менее важно, чем разнообразие биологическое. Впрочем, стандартизировать машину, не только не лишне, а необходимо.

В-третьих – предполагается, что эффективная коммуникация возможна, даже если в процессе ее используются означающие, под которыми участники коммуникации подразумевают разные означаемые. В человеческом общении это действительно так, поскольку в результате как раз и возникает совместное понимание, то есть со-вместное, подчеркнем, порождение как общих, так и индивидуальных смыслов. И возможно это лишь потому, что у человека есть способность к рефлексии. Проявляется это и при машинноопосредованном общении. Однако при коммуникации человека и машины такое вряд ли получится, поскольку машина рефлексией не обладает. Впрочем, отметим здесь, что некоторые функциональные части механизмов мышления и понимания, которые мы привыкли считать чисто человеческими, придется отдать машине, и в этом плане развитие Семантических Сетей важно еще и с точке зрения определения границ подлинно человеческого.

В-четвертых – вызывает сомнение сама возможность создания универсального логического языка и тем более формирование сети понятий.  Против этого известная теорема неполноты Геделя , а также тот факт, что разработчиками не уточняется, какая именно логика будет положена в основу такого языка. Поскольку машины пока работают на булевой логике, то структуры, в них организуемые, также будут знать только «да» или «нет», как бы это не камуфлировалось сложными надстройками. И в основе этих надстроек будет лежать все тот же закон тождества. Здесь фундаментальная проблема создания искусственного интеллекта. Характерно, что в построении данного концепта используются термины, заимствованные именно из этой инженерной области. Оправданные в рамках задач искусственного интеллекта они, при постановке подобной глобальной эпистемической проблемы, воспринимаются несколько странно. Например: один из базовых терминов «онтология» и основа дискрипта – триплет, состоящий из субъекта, предиката и объекта – вызывают недоумение не только у философа и лингвиста, но и у грамотного читателя. Иными словами, универсальность вводится с помощью терминов, принадлежащих  крайне узкой предметной области.

Впрочем, сами разработчики поправляются: «Семантический Веб позволит машинам понимать семантику документов и данных, но не человеческую речь или его сочинения».Откуда следует и отношение к нему как к новому и безусловно весьма перспективному техническому средству работы со знанием, но не как к фактору преобразования знания. Хотя его функционирование привнесет много неожиданного в наш мир, в коммуникативном, психологическом и эпистемическом плане. Особенно это касается медийной сферы, для которой Семантическая Сеть – новый вызов, поскольку каждый пользователь  с помощью программ-агентов сможет самостоятельно создавать для себя новостную «повестку дня», и новые возможности по работе с информацией, коммуникацией, знанием.

Литература

Метки: , , , , ,

Версия для печати Версия для печати

4 Ответовна «Семантическая Сеть или медиаландшафт будущего »

  1. В «постинформационных» обществах распространяется многозначное слово «медиа». Приходится составлять толковые словари, (например, толковый словарь медиакультуры — http://www.openclass.ru/node/449145 — для семинара «Коммуникативные стратегии информационного и постинформационного общества…»)
    В заголовке этой статьи — «медиаландшафт будущего». Что это такое?

    Пригоден ли «медиаязык» для машинной обработки и семантических сетей?

  2. «Медиаландшафт» www явно не комфортен, если нет оперативной обратной связи. Не думаю, что А.А. не отвечает давнему знакомому намеренно; просто технологии посланий в блог с мобильного телефона, eMail не требуют от автора ежедневного просмотра блога. Но факт остаётся фактом: межличностная коммуникация между автором статьи и комментатором задержана уже 9 дней.

    • admin на 13 мая 2014 из 12:24

      Ну вот наконец добрался до интернета. Так что извините Владимир Владимирович за задержку. Не то чтобы у меня совсем не было связи, но связь была медленная и печальная, и отдохнуть хотелось от связности. Был в Ивановской области все праздники, наслаждаясь пением соловьев, и треском дров в печи. Итак по поставленному вопросу. Думаю, что первое время именно медиаязык окажется наиболее пригоден для семантических сетей, хотя он чрезвычайно несовершенен и поверхностен. Тут см. диалог с Горгием, поскольку медиаязык это все та же древняя риторика, но она, думаю, легче алгоритмизируется. А смыслы нужно искать в других местах.Со всеми Вас прошедшими праздниками, и главным — Победой.

      • Рад возобновить взаимодействия, Александр Альбертович. Я тоже был вне Москвы с 2 по 11 мая. Накопились вопросы по конференции 22 мая: 1. как понимаете «медиаланшафт»? 2. Где обсуждать вопросы по программе 22 мая? В частности, понимание теоретических оснований конференции (в т.ч. соотношение «социальных» И (?) «медийных» инноваций — разве второе — не часть первого?)

Написать ответ

 
SSD Optimize WordPress UA-18550858-1