Инфицированы будущим
При поддержке

Прогностика — наука для предсказания будущего. Философия ставит две проблемы прогнозирования (футурологии): первая — будущее не существует как объект, вторая — прогнозирование как исследование тенденций развития бытия — не есть наука. В то же время любая теория, любая форма общественного сознания предполагает размышления о будущем, без надежды на будущее нет смысла настоящего.

Футуродром → Будущее интернета: семантическая паутина, или Web 3.0

Откройте любую статью в википедии. Ну, например, про Хаббл. Объемный и выверенный тысячами правок текст, детальное описание всех систем телескопа, хронология его строительства и результаты работы, десятки фотографий, еще сотни — по прилагаемым ссылкам, аудиоверсия статьи, описания сервисных миссий шаттлов, по ссылкам — поминутные хронологии каждого из этих полетов, десяток внешних ссылок и сто пятьдесят ссылок на источники. Да, википедия — это грандиозный проект, вебдванольный в классическом смысле этого слова. Но...

Как-то в процессе написания работы, темой которой было сравнение родов Populus и Salix семейства Salicaceae, мне понадобились ареалы типовых видов этих родов и данные их сравнительного генетического анализа — каков процент различий, в каких хромосомах различия наибольшие, и когда произошла дивергенция этих родов и каждого из их типовых видов.

В английской википедии не оказалось ничего из этого, а в русской неожиданно нашлась только лишь короткая фраза, относящаяся к иве — «отпечатки попадаются в меловой формации, в четвертичную эпоху жили уже современные виды». (Что оставляет нам разброс порядка 140 миллионов лет.) Картинки с ареалами в итоге нашлись в гугле — обе были из какой-то советской энциклопедии, и отображали ареал только на территории СССР, а сравнительного генетического исследования этих родов в интернете так и не обнаружилось, хотя к настоящему времени такие исследования уже проведены для очень многих видов, и уж тем более — для таких распространенных растений, как ива и тополь.

И где-то пылятся сейчас на сервере какого-нибудь университета данные об этих исследованиях. Потоки и объемы информации быстро увеличиваются, и тысячи, миллионы других научных сведений разбросаны в разных форматах и в разном виде по бесчисленным серверам и университетским кластерам. Человечество генерирует огромное количество данных каждый день, но мы все еще не умеем должным образом их обрабатывать. Да и мы ли должны это делать? Ведь у нас есть устройства для обработки данных — компьютеры. Но почти все существующие форматы файлов делаются для людей, не для компьютеров, да и несколько компьютерных баз данных, созданных независимо друг от друга, очень сложно объединить... Так появился концепт семантической паутины, или семантического веба.

sw-horz-w3c.png

Впервые этот термин использовал автор концепции интернета Тим Бернерс-Ли в далеком, как это кажется сейчас, 1999 году. Уже тогда, когда интернет только еще создавался, этот человек предвидел проблемы, которые вызывают огромные потоки данных. Основная идея семантического веба состоит в том, чтобы хранить все данные в форме, удобной для обработке компьютерами, и притом унифицировать форматы данных всех типов, а также разработать удобный интерфейс, с помощью которого люди смогут запрашивать и использовать эти данные.

Тогда интернет, оставаясь полностью децентрализованным и не утрачивая всех преимуществ этого принципа, перестанет быть «мусорной свалкой», в которой едва можно что-нибудь найти. Семантическая паутина, например, в принципе не имеет проблемы дублирования данных. Любой исследователь сможет не повторять заново того, что уже было сделано кем-то и когда-то, а сосредоточиться именно на том новом, что он собирается привнести в науку.

Реализация полноценной семантической паутины является очень трудной задачей. Интернет не только огромен, он еще и растет с каждой минутой. Пока семантический веб имеет статус концепта, и для его практической реализации, насколько мне известно, никаких шагов пока не сделано.

Промежуточной структурой между обычным интернетом и семантическим вебом являются банки данных, использующие семантические методы обработки информации. Главное их отличие от семантических поисковых систем и семантической паутины — централизованность и вообще отсутствие какой-либо связанности с остальным интернетом. Примером проектов такого рода является известный многим Wolfram Alpha. Сервис умеет обрабатывать самые разные запросы — например, выполнять любые вычисления с учетом размерности единиц, решать сложные уравнения, строить объемные графики, сравнивать несколько компаний на бирже, выводить указанные места генома человека, показать информацию об искусственном спутнике Земли, сказать, кто был папой римским в 1500 году... Хотя база данных проекта и огромна, она все еще составляет лишь незначительную часть от всего объема знаний человечества, и часто не настолько детальна, как хотелось бы. Но ключевое слово тут — Alpha. Дальше будет гораздо лучше, и в один прекрасный день какой-нибудь Wolfram Epsilon научится отвечать и на запрос «Salix and Populus genome difference». (Пока что при такого рода запросе сравниваются только морфологические признаки видов, да и они пока что далеко не полные.)

Впрочем, опасения вызывает проприетарная природа проекта — вся база семантических данных полностью принадлежит Wolfram Research Company и недоступна для пополнения пользователями или свободного использования, и вообще в любой момент может стать закрытой и платной.

Остается только ждать, когда кто-нибудь предложит проект такого же банка данных, но, по примеру википедии, открытого, бесплатного, пополняемого самими пользователями (разумеется, только теми, кто подтвердит свою квалификацию), и, возможно, децентрализованный. Это ознаменует новую эпоху в обработке информации и стандартизации, ускорит прогресс и облегчит совместную работу ученых, а также станет следующим шагом на пути к семантическому вебу.

  17

Комментарии

(Один или два раза тема семантической паутины уже всплывала около года назад, но ничего по существу там, в общем-то, не было. Поэтому я решил, что статья на эту тему не помешает.)

Пока читал, не покидало меня ощущение, что это перевод. Потом понял - так начинается почти любой английский текст про Semantic Web.

Упоминается:потоки данных, тим бернс ли, вольфрам, надежды на лучшее.

На деле же, опять содержательно

Этот текст полностью мой. Не перевод и не копипаста. Единственный фрагмент, который писал не я — это цитата из википедии в начале третьего абзаца. Одна фраза.

Это я понял. Просто содержание встречается во многих английских статьях. И да - доступ к API вольфрама никогда не был бесплатным.

пс. Кстати, стиль изложения у вас очень хороший. Понятный. Читать приятно.

Про API-то я знаю. Когда я писал: «[база данных Wolfram Alpha] недоступна [...] для свободного использования», я это и имел в виду — недоступна для использования в сторонних проектах, бесплатно, по крайней мере.

Просто когда-нибудь могут доступ, скажем, к специализированным расширенным базам данных сделать платным — а это было бы нехорошо.

Спасибо :)

//случайно отправилось На деле же, опять содержательной части опять нет.

Объясняется это просто: "болтологическо-описательной" части про Semantic Web по сути нет. Идея и=умещается в пару абзацев, а все остальное - это огромная совокупность стандартов - XML, RDF, OWL, SPARQL, SOAP, UDDI, DC, NLP и прочее. Говорить о них имеет смысл только в разрезе из практического применения. А это, в любом случае, выходит за рамки трендклуба. По тематике ближе к Хабру, но "материал сложен, и с трудом поддается пониманию".

К слову о статье: существует тенденция разделения данных и знаний. Важнее уметь оперировать данными, так как они составляют содержательную часть информации.

Также, внедрение свободного доступа к информации и обмена ею, сильно тормозит правовая сторона дела и в конец оборзевшие общества лицензирования.

Я как раз не собирался говорить о методах и стандартах, т. е. вообще о технической части.

По поводу последнего абзаца вашего комментария: мое мнение такое, что доступ к любой научной информации должен быть строго свободным. Любые действия, которые тормозят прогресс — это преступление.

Должен быть, не спорю. Это наше с вами мнение.

Мы с вами не тратим миллиарды на исследования, а корпорации, которые это делают, как правило другого мнения. Как пример азиатские концерны(Тошиба, Тойота и другие, не помню точно) объединились чтобы создать сверхъемкие аккумуляторы для электрокаров. Вбухают туда 2-5-10-... млрд и через 5 лет получат их. Как вы думаете они пустят технологию в свободный доступ? Мое мнение - нет.

Кстати, в будущем скорей всего будут еще более жестокие патентные войны, чем сейчас. Корпорации сейчас друзья и вместе проводят дорогующие исследования (которые по отдельности потянуть не могут), а затем ссорятся и начинают судиться.

Вот-вот. Они не понимают, что если бы объединились все вместе, исследования и были завершены бы быстрее, и затраты бы оказались гораздо меньше, тем более разделенные на всех. И тогда они могли бы себе легко позволить выложить их в открытый доступ. Заодно и имидж бы себе хороший заработали.

А так исследователи разных компаний вынуждены заново делать то, что уже кем-то делалось или делается в другой лаборатории, но держится за семью печатями из-за типичного животного принципа «захапать себе побольше» — неважно чего: власти, денег, информации.

Остается только надеяться, что люди окажутся достаточно разумны (во что верится с трудом) — или кто-то их вразумит — чтобы на законодательном уровне запретить патентование любых научно-исследовательских достижений. Пока же для них главным стимулом является не развитие, а жажда власти и денег, шансов на шаги подобного рода нет.

Хочу ответить на статью не как специалист по веб, а тополевед. Вы попали в точку с ивами и тополями. Материала в сети очень мало, хотя на западе (да и на востоке) исследований по тополям, особенно по гибридизации и о хромосомном наборе много (часть секретят, как энергетическое сырьё). В России в последние годы затишье (на это нет денег). Мы опять отстаём... Собираю по крохам материалы для систематизации. Буду рад, если подскажете направления и возможности поиска. В частности, упор делаю на онтогенез тополей, на местные тополя. Особенно мало данных по белому тополю и серому (естественный гибрид белого и осины).

К сожалению, подсказать даже направлений поиска не могу — это даже близко не моя специальность. Тогда мне просто надо было сдать работу по общей ботанике.

Грустно это, что так люди собственнически относятся к научной информации.

Спасибо, это я так, в пылу, по привычке, увидев знакомое словосочетание...

"Остается только ждать, когда кто-нибудь предложит проект такого же банка данных" - таких проектов много уже, http://www.freebase.com/ - вот вам актуальный тренд по семантик вебу

Раньше я об этом сайте не слышал, спасибо.

Но что-то пока он не производит особенного впечатления. Пока что в базе данных довольно элементарные сведения, по большей части скопированные из википедии и не так хорошо связанные между собой, как хотелось бы. Но, с другой стороны, википедия выглядела также еще лет восемь назад. Так что все-таки у этого сайта есть шанс стать стандартом в этой области.

Увидим.

«Так же», разумеется, раздельно.

Ндя…
Кхм, так и до искусственного интеллекта рукой подать, учитывая появление сервисов обеспечивающих поиск фотографий/картинок по похожести. Т.е. я хочу сказать о том, что для продвинутого поисковика будет безразлично в каком виде/формате присутствует информация во всемирной паутине. Поисковая система будет способна предоставить пользователю уже в отконвертированном под конкретного пользователя информацию согласно его предпочтениям/выбору… Т.е. хочу сказать, не будет столь важным документ просто отсканирован, или План-тескт и даже с другим языком носителем найденного оригинала…

Ну, нет, даже для продвинутого поисковика не все равно, отсканирована ли какая-то статья из бумажного журнала старым кривым сканером и сохранена в джипеге, или же текст представлен в размеченном, помеченном тегами документе.

То есть, сейчас поисковым системам и гуглу в их главе приходится подстраиваться под то, что информация разбросана по интернету в самых разных форматах, никак почти не размечена и вообще представляет собой кашу. И, спору нет, получается у них понемногу и постепенно лучше. Но это тупиковое направления развития. Если мы хотим, чтобы созданные нами данные можно было действительно легко обрабатывать и по-настоящему свободно и эффективно среди них искать, нужно разработать единые и очень гибкие стандарты для их форматирования, удобные для чтения компьютерами. (И легко преобразуемые для чтения людьми, само собой.) Вот тогда-то семантические поисковые системы смогут развернуться на полную мощность.

Кхм... Ежель поисковики будут создавать в своем определенном универсальном стандарте маску тегов для каждой отдельной страницы информации самостоятельно, то думаю им реально преодолеть описанный Вами барьер …
Так что я с Вами вполне согласен ;)

Рекомендую поиграть с вот этим поисковиком http://www.tineye.com/

Кхм... Ежель поисковики будут создавать в своем определенном универсальном стандарте маску тегов для каждой отдельной страницы информации самостоятельно, то думаю им реально преодолеть описанный Вами барьер …
Так что я с Вами вполне согласен ;)

Рекомендую поиграть с вот этим поисковиком http://www.tineye.com/

С Тинаем я хорошо уже знаком :-) Но все равно спасибо.

© 2018 Trend Club