pisz się na to
zgrzyt

OpenID.pl


LinkedIn
Blog > Komentarze do wpisu

google a semantyczna sieć

  • luźne refleksje z wczoraj (wylegiwałem się w wannie i tak sobie kombinowałem): czy google nie mogłoby być katalizatorem semantycznej sieci.
  • dlaczego by mogło i w jaki sposób:
    • bo jest de facto alternatywnym sposobem adresowania w sieci. jeżeli google da sygnał, że lepiej indeksują się strony semantycznie oznakowane, to natychmiast ludzie zaczną opisywać swoje dokumenty, tak jak im google każe. innymi słowy: może by wykorzystać SEO do czegoś pożytecznego (bo sorry, ale pożyteczność SEO jest średnia i wynika tylko z dominującej pozycji wyszukiwarek jako mechanizmu wyszukiwania informacji).
      • przez "pożyteczność" rozumiem tu powiązanie "dobrego" SEO z "dobrą" stroną, od strony już nie tylko kodu, ale także semantyki. na razie faktycznie, aby strona była w google'u wyżej, lepiej jak ma dobry kod, ale może by ten związek jakości strony z pozycją w google'u jeszcze wzmocnić?
    • od razu pojawia się problem niezgodnego z "rzeczywistością" opisywania stron. ale i to google może "rozpykać". nie chodzi o to, żeby rezygnować z mechanizmów rankingowania, które już zostały wypracowane. wręcz przeciwnie: kto jak nie google, jest w stanie lepiej stwierdzić, na jaki temat jest dana strona (choćby po linkach z niej i do niej) i czy to, co opisują dane meta może być zgodne z rzeczywistością.
  • dlaczego by nie mogło:
    • bo google od dawna próbuje nas oduczyć "meta-tagowania". cała filozofia google'a jest kompletnie inna.
    • bo google cały czas usiłuje być (i pewnie jest) najlepszą wyszukiwarką stron.
    • bo być może google w ten sposób buduje przewagę konkurencyjną. bo kto może pokonać google'a? inna wyszukiwarka stron? mało prawdopodobne. google'a może pokonać wyszukiwarka informacji, nie stron. taka, którą można zapytać o coś i nie odpowie: znalazłem stronę na ten temat, tylko dostarczy szukanej informacji. ale do tego potrzebne są oznakowane semantycznie strony. dlaczego google'owi ma zależeć na tym, by w sieci było dużo informacji, z których skorzysta konkurencja?
czwartek, 21 czerwca 2007, reuptake

Polecane wpisy

  • akt 3: rozstajne drogi

    fundacja ethereum, a przynajmniej większość jej członków, wspierała rozwiązanie, w myśl którego środki zrabowane z DAO miałby zostać zwrócone pokrzywdzonym. jed

  • akt 2: bug czy feature?

    od początku tego roku zainteresowanie ethereum rośnie lawinowo, rośnie też, nieco spekulacyjnie, wartość waluty ETH . zaczynają się tym projektem interesować ba

  • akt 1: introdukcja

    ethereum jest jak bank przyszłości w stosunku do banku tradycyjnego. w tradycyjnym banku miałeś konto i miałeś na nim środki. w nowoczesnych bankach jest coraz

TrackBack
TrackBack w tym blogu jest moderowany. TrackBack URL do wpisu:
Komentarze
Gość: ffreak, 62.157.180.*
2007/06/21 15:58:51
"jeżeli google da sygnał, że lepiej indeksują się strony semantycznie oznakowane, to natychmiast ludzie zaczną opisywać swoje dokumenty, tak jak im google każe."

"Wyszukiwarka semantyczna" będzie musiała mieć zupełnie inny interfejs. To zupełnie inna jakość, logika, filozofia, wszystko jest inne - nie da się tego _połączyć_ z tym co jest w tej chwili. Nie da się zatem dać sygnału, że takie strony będą się lepiej indeksowały w obecnej wyszukiwarce.

Google stosunkowo powoli wprowadza ulepszenia w interfejsie jak i funkcjonalności swojej wyszukiwarki, więc jeszcze długo poczekamy. Tak czy inaczej na 100% zobaczymy to najpierw w google.labs jako coś zupełnie nowego.

Choć.. można by wykorzystywać tą semantyczną wiedzę np. do dobudowywania kontekstu do wyników wyszukiwania (a'la Clusty), ale tak czy inaczej brak jest dostatecznej ilości ontologii, dostatecznie dopracowanych ontologii, wszystkiego brak :)

To o czym piszesz to któryś kolejny etap rozwoju Sieci Semantycznej (jako ideii). Pierwsze etapy już osiągamy, kolejne może nawet będą spektakularne, ale nim google będzie w stanie łączyć i przeszukiwać grafy danych z całej sieci sporo wody musi jeszcze upłynąć.

Módlmy się o szybkie wprowadzenie XHTML2 - to byłby znaczący krok na przód ze względu na zaimplementowany w nim RDFa, pozwalający wejść ontologiom pod strzechy. Mikroformaty są na to zbyt biedne :)

Blah, zbyt chaotycznie to wszystko ująłem :)
-
2007/06/21 16:17:35
Wiesz, tu nie chodzi o biedne/bogate. Efekt jaki dają mikroformaty jest ok, w stosunku do wysiłku włożonego w implementację. I z RDF też nie jest tak, że ludzie go nie wprowadzają bo jest z czymś tam niezgodny (nawet nie wiedziałem, że jest niezgodny). Po prostu nikt z tego nie korzysta. Co oznacza "wprowadzenie XHTML 2.0"? Uchwalenie?

Każda technologia musi mieć kogoś, kto ją popycha i kogoś, kto ją ciągnie. Google mogłoby pociągnąć "semantyczną sieć".

Weźmy najprostszy trywialny przykład: Google uruchamia w wyszukiwarce (nawet w advanced) opcję "Wyszukaj wg. autora", opisując jednocześnie w jaki sposób można potwierdzać autorstwo dokumentu (np. coś w stylu ClaimID). Od razu by się ludzie na to rzucili i zaczęli potwierdzać, wpisywać odpowiednie "meta" do dokumentów. I jeszcze jakby Google dał mały bonusik, dla dokumentów ze zweryfikowanym autorstwem. W postaci lepszej pozycji albo informacji o autorstwie obok wyniku wyszukiwania...

Takie działanie mogłoby być właśnie krokiem w kierunku semantycznej sieci. Bo ontologie pod strzechy same nie wejdą. Ktoś je musi tam wprowadzić i oswoić. Czemu nie Google?
-
Gość: ffreak, 62.157.180.*
2007/06/21 17:03:08
"I z RDF też nie jest tak, że ludzie go nie wprowadzają bo jest z czymś tam niezgodny (nawet nie wiedziałem, że jest niezgodny)."

Hmm? Ja nic takiego nie napisałem. RDF nie może być z niczym niezgodny, bo to ledwie model danych

"Wprowadzenie XHTML2"
No na poczatek na pewno specyfikacja XHTML 2.0 musi się stać rekomendacją.
A potem.. stać się to musi dość powszechnie wspierane przez różnego typu agentów. Choć na siłę używać można nawet teraz - XML jak każdy inny - ostylować można :)
Ale może faktycznie na wyrost o tym powiedziałem, już teraz można pisać i nawet validować dokumenty typu:


Co do reszty:
Trochę niepotrzebnie dyskutuję, bo mam podobne zdanie - google mógłby to progresywnie wprowadzać u siebie tym samym stymulując rozpowszechnianie się tych technologii.
Twój przykład jest akurat całkiem wykonalny - mamy dojrzałą ontologię Dublin Core, więc jeśli chodzi o dane dotyczące dokumentów, ich autorstwa itd.. no można to opisywać. Jest jeszcze kilka (czyt.: niewiele) dobrych ontologii więc jeszcze kilka innych klas obiektów da się opisać, ale na tym koniec.

I jeszcze na koniec: nie jestem malkonentem i nie staram się negować tej technologii na siłę. Przeciwnie :) Ale ja widzę jej zastosowania już teraz w trochę innych sferach.
-
Gość: dabu, *.kubatronic.com.pl
2007/06/21 17:47:33
przecież od dawna są meta "keywords" "author" itp. i czy coś to pomogło? i pewnie nie pomoze dopoki ludzie beda mogli sobie tam wpisywac co zechca

a jak sobie wyobrazacie ze autorzy witryn ktore maja kilkaset tysiecy podstron kazda z nich recznie symantycznie oznakuja i beda to jeszcze uaktualniac? przeciez automatycznie oznaczyc nie moga bo rownie dobrze mogloby to zrobic google, no i jak google sprawdzi czy te oznaczenia sa prawidlowe?

sadze ze nie ma jeszcze ogolnie dostepnej takiej technologii, ktora bylaby w stanie to wszystko ogarnac, jakiejs sztucznej inteligencji na poziomie czlowieka, jak na razie to mechanizmy dzisiejsze sa jeszcze zbyt zawodne
-
2007/06/22 04:04:43
Po co Google sieć semantyczna? Konkurencji byłoby łatwiej, a teraz mają dużą przewagę technologiczną. W dodatku sieć semantyczna nie rozwiązuje nic czego już by nie mieli lub czego nie dałoby się zrobić bez niej.
-
2007/06/22 04:08:09
Co do XHTML2... wszyscy (łącznie z Google i resztą gigantów - Apple, Microsoft) idą w kierunku HTML5. I to jest dobre rozwiązanie.
-
Gość: ffreak, 62.157.180.*
2007/06/22 10:12:57
ICERED: Miażdżące argumenty, bardzo ciekawe zestawienia, prawdziwie autorytatywne źródła i wywody tak logiczne, że nie sposób ich podważyć, przekonałeś mnie.

DABU: keywords to keywords - równie dobrze można je sobie obliczyć statystycznie na podstawie dokumentu (i tak się robi), a np. metatag author (jak i cała reszta) nie jest ujęty w żadnym standardzie, jest nieprecyzyjny, np.:
- czy opisuje on autora treści dokumentu, jakiegoś fragmentu, a może autora kodu strony?
- w jakim formacie oznaczyć autora?
- zamieścić tam kontakt do autora, czy nie?
- jak sprawdzić, czy jeden Jaś Kowalski równy jest innemu Jasiowi Kowalskiemu, czy też to zupełnie inne osoby?

Jak widać takie meta-tagi nie nadają się do większości zastosowań

A semantyczne nie musi być wszystko, a tylko to co niezbędne :)
-
Gość: ffreak, 62.157.180.*
2007/06/22 10:14:05
W moim przedostatnim komentarzu wycięło DTD:

!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "www.w3.org/MarkUp/DTD/xhtml+rdfa-1.dtd
-
Gość: filiptepper, *.neoplus.adsl.tpnet.pl
2007/06/24 12:26:14
Google raczej nie chce sieci semantycznej, bo budowanie treści do jej wypełnienia jest zbyt pracochłonne. Co będzie oznaczało tylko to, że nikt nie będzie "marnował" czasu na opisywanie informacji, wychodząc z założenia, że jej treść posłuży za opis.

Zresztą - Google dał już pewien *hint* - tepper.pl/2007/01/06/google-stawia-na-clustering/
-
piotr.mikolajski
2007/06/25 15:29:59
Sorry Panowie, ale wydaje mi się że mówicie o czymś, co zacznie być stosowane w okolicy naszego przejścia na emeryturę...

XHTML2? RDF? Świetnie, tylko co z tego że zostaną uchwalone i zaimplementowane, gdy nikt tego nie będzie stosował? Polecam ten wpis u Molly Holzschlag:
www.molly.com/2007/06/19/so-how-do-we-fix-the-web-really/

Opowiada ona o wynikach "ankiety" przeprowadzanej podczas paru konferencji:


Let’s start with a visit to Hungary. The conference attendees in Budapest were made up of people from all over Eastern and Central Europe. Of approximately 200 attendees:

* 90% have been working with HTML (or XHTML) for five years or longer
* 15% have been working with CSS for three years or longer
* 75% are still using tables for layout
* 2% knew what the DOCTYPE switch was

Next, Amsterdam. Mostly Dutch attendees. Typically perceived as a more technically advanced country, of the some 200 folks I interacted with over 2 days:

* 90% have been working with HTML (or XHTML) for five years or longer
* 45% have been working with CSS for three years or longer
* 65% are using tables for layout
* 10% knew what a DOCTYPE switch was

Now, Zurich. Swiss and German attendees. Smaller group, 50 - 75 or so:

* 90% have been working with HTML (or XHTML) for five years or longer
* 10% work with CSS at all
* 98% are using tables for layout
* 2 people knew about the DOCTYPE switch.


Żeby XHTML2, RDF i cała ontologia miały sens, to najpierw zacytowane cyferki muszą się mocno pozmieniać...
-
2007/06/25 21:29:05
a żeby się pozmieniały, muszę za tym stać nie specyfik(a)cje, tylko np. google. seo to potęga.
-
piotr.mikolajski
2007/06/26 10:19:17
Samo Google niewiele pomoże, czego dowody są widoczne od długiego czasu...
Od paru lat wiadomo, że lepiej napisany kod serwisu (czysty, semantyczny etc.) to trochę lepsze indeksowanie czyli lepsze SEO i widoczność serwisu w Necie. Już choćby z tego powodu powinniśmy widzieć znacznie mniej stron tabelkowych, ale powyższe wyniki średnio to potwierdzają...
-
2007/06/26 12:46:54
bo to indeksowanie "średnio" lepsze jest.
-
Gość: ffreak, 62.157.180.*
2007/06/29 14:03:03
Piotrze: całę Twoje rozumowanie opiera się na kilku błędnych założeniach:
1. że RDF trzeba osadzać w HTML-u.
2. że nagle wszyscy autorzy www musząc zacząć dodawać meta-dane, żeby to zaczęło działać.

ad. 1. meta-dane mogą być generowane na podstawie tego co już w bazie danych jest (mapowanie typu: kolumna z tabeli -> odpowiedającego pojęcia z jakiejś ontologii)

ad. 2. wystarczy, że duży dostawcy treści zaczną to robić, albo choć specyficzne branże, albo po prostu zainteresowani. to i tak będzie gigantyczna ilość danych do przeszukiwania, a kiedy już powstaną narzędzia do przeszukiwania tych źródeł, to inni, żeby gonić liderów będa musieli wprowadzić to samo (chociażby, żeby korzystać z tych narzędzi, które już zostały dla liderów przygotowane).
-
piotr.mikolajski
2007/06/29 16:31:49
Nope, przeczytaj jeszcze raz, a zwłaszcza poczytaj bloga Molly.

Ad 1. Oczywiście MD mogą być generowane z bazy danych, tylko że:
- ktoś musi to zaprogramować / dodać do silników / whatever;
- ludzie muszą tę dodatkową kolumnę z tabeli wypełniać i muszą to robić świadomie.

To jest po części błędne koło, bo nikt tego dodawał nie będzie, jeśli nikt nie będzie z tego korzystał. A nikt nie będzie korzystał, jeśli nie będzie z tego korzyści i nie będzie wygodnej metody obsługi tegoż.

Ponadto napotykamy tutaj na tradycyjny i największy problem wszystkich genialnych idei - człowieka. Człowiek z natury jest leniwy i nie będzie dodatkowej tabelki wypełniał.
Pisząc "wypełniał" mam na myśli takie wypełnianie, żeby odpowiadało w pełni założeniom. Całkiem niezłym przykładem jest wymuszanie pola opisu wprowadzanych zmian w Wikipedii. Ludzie albo klikają dwukrotnie, przełamując ów obowiązek, albo wpisują cokolwiek. Nieliczna grupa wpisuje rzeczywiście treściwe opisy.

Żeby działanie takiego mechanizmu miało sens, pola muszą być wypełniane z sensem i świadomie, co koliduje z naturą większości użytkowników / edytorów. Rozwiązaniem pewnie będzie jakaś AI, która pozwoli na zautomatyzowanie tego procesu, ale to pieśń przyszłości. Na razie narzędzia do wyliczania "keywordsów" są OKDR, bo sobie po prostu nie radzą. Prowadząc serwis specjalistyczny wiesz, jakich słów kluczowych użyć do opisania danego tekstu, aby został łatwo odnaleziony przez zainteresowanych - algorytm tego nie wie i jeszcze długo wiedzieć nie będzie.

Ad.2 Twoje "wystarczy, że" to - mówiąc wprost - chciejstwo / optymizm / pobożne życzenia / nieznajomość realiów / niepotrzebne dodać.

- Dostawcy treści w przeważającej większości mają gdzieś nawet standardy WWW i nie mówię tu o XHTML 1.1, ale o staruszkach HTML 4 i CSS 1. Daleki jestem od bycia wyznawcą walidatorów, ale rzuciłem okiem na kilka serwisów (w nawiasach liczba błędów) - yahoo.com (34), gazeta.pl (111), onet.pl (300) i tak dalej, i tak dalej.
Nie spodziewaj się, że wielcy nagle zrobią porządek w swoich serwisach i zaczną do nich dorzucać nowoczesne rozwiązania. Zresztą na spotkaniu Opery mówiliśmy o Onecie - nadal stoję na stanowisku, że przykładowy Onet powinien skończyć z tym burdelem i powinien zrobić porządek. Ty sam stwierdzałeś, że to dla nich ciężka rzecz, problemy, wydatki etc., przy okazji odpowiadając sobie, gdzie mają takie rzeczy wielcy dostawcy treści :o)

- Specyficzne branże mogą takie rzeczy dodawać, tylko że wszystko zależy w ich specyficzności. Jeśli zaczną to dodawać fizycy zajmujący się teorią strun, to przypuszczalnie przejdzie to niezauważone, ale jeśli zacznie to dodawać przemysł rozrywkowy lub informacyjny, może być inaczej. Problem polega na jednak na korzyściach biznesowych - firmy muszą mieć jasno określone korzyści następujące w szybkim okresie, żeby wydać kasę na modyfikację swoich serwisów / baz danych / frameworków / whatever. Bez tego nikt nie będzie wdrażał takich rozwiązań, chyba że jakiś maniak-programista po godzinach.

- Zainteresowani zapewne zaczną to wprowadzać najszybciej, tylko że oni w przeważającej większości stanowią promil. Owszem, w teorii może się zdarzyć, że ten promil wszystko rozrusza, ale stawiałbym raczej na trzeźwy realizm. RSS jest znane od lat i dla większości z nas jest czymś codziennym i niezastąpionym, ale statystyki są brutalne - RSS używa jakieś 2% Internautów. Firmy mogą sobie pozwolić na brak RSS, bo te 2% im "nie robi", zaczną się tematem interesować przy 20%.
-
Gość: ffreak, 62.157.180.*
2007/06/29 18:12:27
Ad. 1.

Ale jakiej dodatkowej tabeli? Jakiej dodatkowej kolumny?

Weźmy na tapetę dowolny serwis, który trzyma dane użytkowników. Taki serwis zapewne będzie miał w swojej bazie danych tabelę z takimi kolumnami jak: imię, nazwisko, rok urodzenia, e-mail, strona www, blog, komunikator, szkoła, miejsce zamieszkania..
Żeby te dane "usemantycznić" nie trzeba nic nowego pisać, żadnych dodatkowych tabel, czy nawet kolumn. Wystarczy odpowiednie kolumny "zmapować" do "pojęć" z jakiejś publicznej ontologii, słownika. W tym wypadku wzięlibyśmy powidzmy FOAF i byłyby to np.: foaf:firstName, foaf:surname, foaf:mbox, foaf:weblog itd.. i już. Zwyczajni developerzy nie muszą wcale studiować "sieci semantycznej", żeby zacząć upubliczniać swoje dane za pomocą interfejsów typu SPARQL. To wszystko bęzdie jeszcze prostsze niż powiedzmy budowanie API takich jakie się robi obecnie :) No tylko paru rekomendacji jeszcze brakuje, są w statusach RC itd.. ale core już jest, narzędzia też są (testowane..) i to wszystko działa. Przynajmniej na test-case'ach..

Ad. 2.

Tekst Moly nie jest w pełni adekwatny z tego prostego powodu, że implementacją tego nie będą zajmowali się "koderzy HTML". Najbardziej wartościowe, przynajmniej z przemysłowego, marketingowego i komercyjnego punktu widzenia (przynajmniej teraz na początku) nie są te rozproszone po całym necie dane, które mogliby udostępniać zwykli zjadacze chleba, ale duże semantyczne bazy danych, które można by łączyć i w prosty sposób przepytywać wszystkie naraz (jednym zapytaniem podobnym w formie do SQL) za pomocą standardowego protokołu, standardowego języka zapytań itd..
-
piotr.mikolajski
2007/06/30 11:37:39
========================
Ale jakiej dodatkowej tabeli? Jakiej dodatkowej kolumny?
Weźmy na tapetę dowolny serwis, który trzyma dane użytkowników. [...]
========================

Wybacz, ale spłycasz problem do kompletnie nieistotnych dupereli...
Owszem, dane osobiste (GG/ICQ/etc.) usemantycznić da się w trywialny sposób, jak pokazałeś to wyżej. Problem polega na tym, że to robota głupiego, bo na cholerę komu semantyczność tych danych?

Semantyczność będzie miała sens i zastosowanie biznesowe (w tym dla Google) wtedy, gdy będzie opisywała "content", a nie pierdoły które już teraz "by default" można dość łatwo sobie katalogować. Problem polega na tym, że "contentu" nie opiszesz w tak łatwy sposób, jak pokazałeś to wyżej. Nie da się wstawić "znacznika" (obojętnie gdzie by on nie był i jak by się nie nazywał), który załatwiałby sprawę opisu zawartości artykułu. Treść musisz opisać konkretnie i albo zrobisz to łatwiej (automat opracowujący słowa kluczowe), albo lepiej (opis ręczny). O problemach związanych z opisem multimediów nie ma co mówić, tutaj opis automatyczny jest w powijakach i daleko mu nawet do niedoskonałego automatycznego opisu tekstu.

========================
i to wszystko działa. Przynajmniej na test-case'ach.
========================

"W teorii nie ma różnicy między teorią i praktyką."



========================
Tekst Moly nie jest w pełni adekwatny z tego prostego powodu, że implementacją tego nie będą zajmowali się "koderzy HTML".
========================
Tekst Molly jest bardzo adekwatny, tylko że patrzysz nie na to, na co trzeba. Wróć do mojego wcześniejszego komentarza i przeczytaj jeszcze raz fragment o lenistwie ludzi.


========================
Najbardziej wartościowe, przynajmniej z przemysłowego, marketingowego i komercyjnego punktu widzenia (przynajmniej teraz na początku) nie są te rozproszone po całym necie dane, które mogliby udostępniać zwykli zjadacze chleba, ale duże semantyczne bazy danych, które można by łączyć i w prosty sposób przepytywać wszystkie naraz (jednym zapytaniem podobnym w formie do SQL) za pomocą standardowego protokołu, standardowego języka zapytań itd.
========================
1. Ile baz danych (jaki procent) masz opisanych w naprawdę semantyczny sposób?
2. Ile zajmie przerobienie tych niesemantycznych do postaci semantycznej.
3. W jaki sposób będzie realizowane to przerobienie?

Mówiąc wprost - co z tego, że masz osobne kolumny na imię, nazwisko i numer GG, skoro kolumna z treścią jest opisywana na ogół jako "treść"? Treść jest i jeszcze długo będzie najważniejsza, a ona nie jest w żaden sposób sensownie opisana.

Wyjdź poza obszar teorii i spójrz jak wygląda szara rzeczywistość. Biznesowy sens zabawy w te wszystkie duperele będzie wtedy, gdy bazy danych _od początku_ będą budowane z semantycznością w tle. Żeby były tak budowane, to muszą być gotowe narzędzia obowiązujące standardy, a to wszystko musi działać w praktyce. Stan na koniec czerwca 2007 jest taki, że wszystko o czym mówisz jest pieśnią przyszłości i to raczej tej dalekiej, niż bliskiej. Rozumiem zachwyty nad teoretycznymi możliwościami wypływającymi z powszechnego stosowania semantyki etc., ale pamiętaj że to tylko teoria...
-
Gość: ffreak, 62.157.180.*
2007/07/02 21:10:42
No przeciez nie cala tresc musi być opisana w sposób semantyczny, bo niby jakie miałoby to zastosowanie?

Żeby komputer mogl znalezc przepis na sernik i potem znalezc w sieci artykuly potrzebne do jego wykonania, to czy komputer musi rozumieć samą treść przepisu? Nie.. wystarczy mu krotkie info nt. artykułów w jakiejś książce kucharskiej (patrz: Dublin Core) i dane produktów spożywczych opisane w trywialny sposób, taki jak pokazałem w poprzednim komentarzu (czyli proste mapowanie kolumn tabeli na pojęcia z jakiegoś słowanika/ontologii).

U podłoża ideii sieci semantycznej wcale nie leży wymóg szczegółowego opisania całej treści, wręcz poszczególnych słów w artykułach (które przecież pisane są dla człowieka) - tak jak proponujesz. Wystarczy, że komputer będzie wiedział o czym dany artykuł jest i że istotne informacje z tego artykułu (jak np. produkty potrzebne do sporzadzenia przepisu) będą w nim jakoś "usemantycznione".


Z innej beczki... Na prawdę nie widzisz zasotoswania dla mechanizmów SPARQL? Przecież za jego pomocą (no i z pomocą RDF, OWL) dałoby się ujednolicić API do wszystkich serwisów społecznościowych, które tylko by tego zechciały, a następnie pobierać z nich (wręcz wzsystkich naraz) dane pojedynczymi zapytaniami SPAQRL.

Co tutaj jest niemożliwe już teraz? Co tutaj swoją złożonością wykonawczą wykracza poza złożoność wykonawczą zwyczajnego REST-owego, czy innego API?

Gdyby tylko były gotowe odpowiednie ontologie, to byłoby to zadanie wręcz łatwiejsze.

Pieśń przyszłości?
-
piotr.mikolajski
2007/07/05 10:25:35
A gdzie wcięło mój ostatni komentarz? :o/
-
Gość: ffreak, 62.157.180.*
2007/07/05 12:53:08
Marcinie, oddawaj komentarz Piotra :P
-
2007/07/05 20:28:20
no ja go nie zjadłem, przysięgam!
-
2007/07/05 20:28:54
chłopaki, a może pospieracie się publicznie na jakimś bootstrapie? mogłoby być ciekawie
-
Gość: ffrk, 62.157.180.*
2007/07/09 15:27:34
Ja prędzej czy później przygotuję prezentację na temat SW wraz z wprowadzeniem w budujące ją technologie (i udowodnię, że można wybrane koncepty realizować, a nawet, że realizowane są już teraz). Zresztą być może wystąpię razem z Wojtkiem (b3x).
No i bardzo chętnie posłuchałbym kontr-prelekcji na temat, dlaczego to nie będzie działać, a następnie wezmę udział w dyskusji na ten temat :)

Ale to na pewno nie w lipcu, a i z sierpniem ciężko (bo weekendu z reguły spędzam poza Warszawą), więc może się nieco zdeaktualizować.. a może nie :) Anyway, chętnie.

Aha, bez własnej prezentacji (o ile się zjawię) spierać mogę się zawsze ;)
-
2007/07/10 15:50:23
ale pamiętaj o nas, ok?
-
Gość: mmm, *.rev.pro-internet.pl
2007/07/11 19:04:25
Jeszcze apropos Googli i semantycznego internetu.
Sadze, ze googlom to sie ogromnie przyda. I to wlasnie google byloby glownym beneficjentem wprowadzania SW (lub jego namiastek) w praktyce. Poniewaz informacje semantyczne byloby tworzone gdzies tam przez tworcow, natomiast google oferujac jesczez lepsze wyszukiwanie spijałby całą śmietankę.

Brak (jakichjkolwiek) informacji semantycznych to czasem duzy bol w dupie. zalozmy ze chcemy zbadac popularnosc pewnego slowa kluczowego wyszukujac np. przy pomocy google trends inforamcji o czestosci wystepowania w doniesieniach prasowych. dajmy na to "JAVA", gdy chcemy znalezc newsy o pewnym jezyku programownaia, a niekoniecznie o trzesieniu ziemi na pewnej wyspie.

moze wysublimowany ten przyklad, ale od czegos trzeba zaczac, a zareczam, ze jest prawdziwy :)
-
Gość: zainteresowany, *.icm.edu.pl
2007/07/11 19:06:41
A czy ta dyskusja o SW na bootstrapie bedzie nagrywana? bardzo bylbym ciekawy argumentow i wnioskow..
-
2007/07/11 23:45:45
jeszcze nie wiemy, kiedy się odbędzie, a już pytasz czy będzie filmowana? :) nie wiem.
-
piotr.mikolajski
2007/07/19 21:36:23
Dopiero wróciłem z urlopu i przy okazji zobaczyłem, w czym tkwi problem ze znikaniem komentarzy. Jakiś *** najwyraźniej nie wziął pod uwagę faktu, że pod blogiem można dyskutować i że dyskusja może być dłuższa, niż nasycone treścią słowo "zajebiście". Mówiąc wprost - dostałem informację: "treść komentarza zbyt długa". Cóż, będę musiał rozbić to na dwie (?) części.
-
piotr.mikolajski
2007/07/19 21:39:28
Żesz mać, teraz się dowiedziałem, że "być może jestem automatem spamującym".

Czy programista piszący kod tego bloga nie widział na oczy Wordpressa? Może warto byłoby się podszkolić?



Teraz ad rem. Poniżej postaram się w telegraficznym skrócie odtworzyć najważniejsze fragmenty mojego komentarza, ale to nie to samo, co poprzednik ;o)



========================
Żeby komputer mogl znalezc przepis na sernik [...]
========================
Przepis na sernik to nadal pozostawanie na poziomie numerów GG czy ICQ, a to wciąż mało istotne teoretyzowanie. Owszem, jakaś część biznesu z tego skorzysta, ale liczą się rozwiązania uniwersalne, działające dla wszystkich, a nie dla nielicznych.


========================
U podłoża ideii sieci semantycznej wcale nie leży wymóg szczegółowego opisania całej treści, wręcz poszczególnych słów w artykułach (które przecież pisane są dla człowieka) - tak jak proponujesz.
========================
Nie proponuję opisywania poszczególnych słów w artykułach i nie schodźmy do argumentacji absurdalnej. Semantyczna Sieć to sieć danych / sieć wiedzy, ale w postaci czytelnej dla maszyny. Wiedza to nie tylko serwisy społecznościowe, ale przede wszystkim _wiedza_ zgromadzona i wytworzona przez człowieka. Ta wiedza to coś, co rzadko bywa tak banalnie proste do opisania, jak numer GG czy składniki sernika. Czytelność numeru GG dla maszyny to duperela, ale ta sama maszyna będzie już miała problem z "Chłopami" Reymonta czy historią Hetytów.


========================
Wystarczy, że komputer będzie wiedział o czym dany artykuł jest i że istotne informacje z tego artykułu (jak np. produkty potrzebne do sporzadzenia przepisu) będą w nim jakoś "usemantycznione".
========================
Ano właśnie, "wystarczy że komputer będzie wiedział". Proste i genialne, ale mam małą wątpliwość. Możesz mi powiedzieć, jak chcesz "usemantyczniać" coś więcej, niż numer GG/ICQ? Przecież WWW to nie tylko takie rzeczy, ale też gigantyczna liczba informacji, które nie dają się zamknąć w tabelkach czy rubryczkach lub sztywnych ramach "numeru GG". O czym zresztą więcej piszę poniżej.
-
piotr.mikolajski
2007/07/19 21:44:38
========================
Z innej beczki... Na prawdę nie widzisz zastosowania dla mechanizmów SPARQL? Przecież za jego pomocą (no i z pomocą RDF, OWL) dałoby się ujednolicić API do wszystkich serwisów społecznościowych, które tylko by tego zechciały, a następnie pobierać z nich (wręcz wszystkich naraz) dane pojedynczymi zapytaniami SPAQRL.
========================
Cały czas mówisz o konkretnych technologiach, a przecież nie o tym mówię. Mówisz też o serwisach społecznościowych, a nie do tego ogranicza się WWW. Zejdźmy z poziomu numerów GG na poziom informacji abstrakcyjnych i weźmy pod lupę np. artykuł o historii Luftwaffe z lat 1933-1945.
Taki tekst trzeba "usemantycznić" i ktoś / coś to musi zrobić. Alternatywa ktoś / coś jest pozorna, bo przecież maszyna tekstu nie zrozumie, więc pozostaje tylko człowiek.

Jak już pisałem wcześniej, człowiek opisujący taki artykuł może być leniwy / zawalony pracą i wskaże tylko kilka istotnych informacji. Może też być maniakiem Luftwaffe i dla niego pół artykułu będzie istotnymi informacjami. Załóżmy jednak, że potrafi się powstrzymać i wskazuje tyle istotnych informacji, ile trzeba. Dowcip polega na tym, że artykułu o historii Luftwaffe z lat 1933-1945 nie da się potraktować tak, jak przepisu na sernik. Dla jednego opisującego istotne mogą być daty i wydarzenia - podejście słuszne i rozsądne, ale przecież nie jedyne. Drugi opisujący może kłaść nacisk na stronę techniczną i przejście od Ar 64 / He 51 do Ta 152 i Me 262 w lotnictwie myśliwskim. Kolejny może skupić się na taktyce, a jeszcze inny na dyslokacji jednostek.

Każde z tych podejść ma swoje głębokie uzasadnienie i ciężko mówić o nich, że są złe. Jednocześnie każde z nich kładzie nacisk na inny punkt ciężkości, co jest najlepszym dowodem na subiektywizm człowieka. Człowiek był, jest i będzie najsłabszym punktem każdego systemu, który ma wychodzić poza sztywne ramy w stylu składników sernika, numerów GG czy też sytuacji zerojedynkowych.


========================
Co tutaj jest niemożliwe już teraz? Co tutaj swoją złożonością wykonawczą wykracza poza złożoność wykonawczą zwyczajnego REST-owego, czy innego API?
========================
Mam propozycję. Powiedz, jak do końca 2008 roku wyobrażasz sobie praktycznie "usemantycznienie" artykułu o wspomnianej historii Luftwaffe z lat 1933-1945 oraz jakie widzisz zastosowania praktyczne / biznesowe dla tego wszystkiego.


========================
Gdyby tylko były gotowe odpowiednie ontologie, to byłoby to zadanie wręcz łatwiejsze.
========================
Gdyby babcia miała wąsy...



I tyle starego i znikniętego komentarza.
-
piotr.mikolajski
2007/07/19 21:47:10
========================
chłopaki, a może pospieracie się publicznie na jakimś bootstrapie? mogłoby być ciekawie
========================
Żeby się pospierać, musiałbym siedzieć na stałe w Warszawie, a z tym od ponad 30 lat mam niejaki problem ;o)

Mówiąc ciut bardziej poważnie - biorąc pod uwagę obecny zapieprz, nie mam kiedy na takie spotkanie wybyć, bo dla mnie to praktycznie całodniowa (albo i dwudniowa) impreza. Biorąc pod uwagę najbliższe plany, to może będę częściej bywał w DC, ale z kolei na weekendy będę wracał do macierzy.


Poza tym nie bardzo sobie taką dyskusję wyobrażam. Z jednej strony płynąłby strumień akronimów i teoretycznych możliwości, a z drugiej komentarze sprowadzające całość na ziemię w oparciu o mało techniczne uwagi, jak w dzisiejszym komentarzu.
Weź(cie) pod uwagę, że SW z punktu widzenia badacza / programisty jest fajną zabawką, ale humanista (czytaj: facet piszący teksty) widzi w niej szereg problemów. Nawet gdy obie strony współpracują nad rozwiązaniem problemów, to realista wie, że przed nami jest jeszcze masa roboty i lata do powszechnego wdrożenia i stosowania tych rozwiązań.
-
Gość: axnowwgroc, 195.229.242.*
2008/02/10 01:48:52
online male slave training