pisz się na to
zgrzyt

OpenID.pl


LinkedIn
Blog > Komentarze do wpisu

[nbpo] opengoogle.org

  • opengoogle.org (Paweł Brągoszewski)
  • Kilka oczywistych spraw na początek:
    - wyszukiwanie czegokolwiek w Internecie zależy nie tylko od posiadanej bazy (tę można stosunkowo łatwo zbudować używając robotów) ale przede wszystkim od algorytmu przeszukującego tę bazę i szeregującego wyniki
    - algorytmy przeszukiwania i sortowania są pilnie chronione, bo to od nich zależy potęga wyszukiwarek
    Z tego jest kilka wniosków:
    - obnaża to słaby punkt nawet takiej potęgi jak Google: ich podstawowe produkty są tajne, algorytm wyszukiwania w bazie stron, jest tajny, sposób działania AdSense jest tajny itd itd
    - pojawia się pytanie, czy da się skonstruować jawne algorytmy, które będą dawać dobrze posortowane wyniki wyszukiwania?
    - wydaje się, że pojawienie się dobrych i przy tym otwartych algorytmów wyszukiwania może doprowadzić do stworzenia znacznie skuteczniejszych narzędzi niż dzisiejsze
    - innymi słowy to wprowadzenie open source w świat wyszukiwarek

    Wady:
    - kopanie się z koniem
    - wysoki poziom abstrakcji

    To nie jest pomysł na startup typu "zbierzmy 100K userów i sprzedajmy". To jest prawdziwe wyzwanie dla tęgich umysłów.

    Naiwnym przykładem otwartego rozwiązania wyszukiwania może być taki pomysł:
    - usługa udostępnia wtyczki do przeglądarek
    - wtyczki instalują zachwyceni internauci :)
    - wtyczki przesyłają informacje o pomiędzy stronami do usługi
    - jeśli przychodzi z wyszukiwarki, to po jakim ciągu znaków?
    - budowana jest baza par [fromURL|toURL]
    - powstaje niezła baza aktywnych (wykorzystywanych) powiązań
    - dodajemy kilkadziesiąt nieprzespanych nocy kodowania i trochę magii
    - ...
    - na podstawie statystyk bazy generowane są wyniki wyszukiwania
    (algorytm jest jawny)
  • trudno mi oprzeć się wrażeniu, że to nie jest właściwie pomysł na serwis, tylko pomysł na to, żeby "coś" było otwarte. wydaje mi się, że możemy sobie podyskutować o tym, co by było, gdyby algorytm google'a był otwarty, bo na napisanie własnego nie ma tu żadnego przepisu.
  • proponuję więc dyskusję właśnie wokół tych zagadnień:
    • co dałoby otwarcie algorytmu wyszukiwania (w wariantach: niszowa wyszukiwarka / wiodąca wyszukiwarka)?
    • gdyby google był otwarty: jak wyglądałoby SEO?
    • mam otwarty algorytm: skąd wezmę data-center? jaki procent sukcesu google'a to algorytm, a jaki możliwości przetwarzania danych? albo brand?
    • czy google zamierza przejść z systemu URLi na keywordsy, jak kiedyś AOL (w chrome wyraźnie zachęca do tego, żeby w polu locations wpisywać to, czego się szuka)
    • czy przypadkiem nie jest to zagrożenie równie wielkie jak niegdysiejsze monopolizowanie rynku os i okolic przez microsoft? google zaczyna być jedynym dostawcą "map" internetu, jeśli czegoś nie ma na "mapie" google'a, to nawet zdobyty na rynkowych zasadach "dobry adres" niewiele się przyda.
    • co by się stało, gdyby np. w wyniku jakiś działań prawnych google zmuszony został do otwarcia algorytmu (ale nie do jego modyfikowania, jedynie musiałby pokazać "jak to działa")? czy coś by się zmieniło?
  • zapraszam do dyskusji, temat wydaje się ciekawy.
niedziela, 28 września 2008, reuptake

Polecane wpisy

  • akt 3: rozstajne drogi

    fundacja ethereum, a przynajmniej większość jej członków, wspierała rozwiązanie, w myśl którego środki zrabowane z DAO miałby zostać zwrócone pokrzywdzonym. jed

  • akt 2: bug czy feature?

    od początku tego roku zainteresowanie ethereum rośnie lawinowo, rośnie też, nieco spekulacyjnie, wartość waluty ETH . zaczynają się tym projektem interesować ba

  • akt 1: introdukcja

    ethereum jest jak bank przyszłości w stosunku do banku tradycyjnego. w tradycyjnym banku miałeś konto i miałeś na nim środki. w nowoczesnych bankach jest coraz

TrackBack
TrackBack w tym blogu jest moderowany. TrackBack URL do wpisu:
Komentarze
Gość: Puexam, *.lanet.net.pl
2008/09/28 14:11:29
Efektywne wyszukiwanie informacji w systemie wiąże się z utworzeniem stosownego indeksu i uaktualnianiem go nadążnie. To jest najlepiej zrobione, gdy indeksowanie jest przystosowane do układu informacji bezpośrednio na maszynie (w bazie danych).
Google pracują w ten sposób, że mają robot który przemierza sieć i zgłasza do algorytmu indeksującego nową / zaktualizowaną witrynę, która jest zapisana w bazie danych i w której następnie można wyszukiwać.
Piję tutaj do "wtyczki" na stronę.
Nad pomysłem możnaby się zastanowić jednak dogłębnie, i może nawet coś wymyślić ciekawego. Jeśli znajdzie się kilka osób chętnych do zabawy - ja się chętnie włączam ;-) (mam na polu systemów wyszukiwania informacji jakieśtam prace napisane, więc... :) )
-
Gość: loqeek, *.neoplus.adsl.tpnet.pl
2008/09/28 14:27:39
@puexam: jeśli dobrze zrozumiałem to wtyczka miałaby jedynie zbierać informacje, a nie przeszukiwać samą bazę...

Kiedyś sam zastanawiałem się nad otwartym algorytmem, ale doszedłem do wniosku, że nie sama złożoność problemu (przecież nie takie problemy się rozwiązywało;), a koszty wejścia na rynek są zbyt duże.

Paweł Brągoszewski pisze, że bazę "można stosunkowo łatwo zbudować używając robotów". Napisanie samego robota to nie jest problem, ale przestrzeń do przechowywania zgromadzonych danych i klaster, który będzie przeszukiwał tą bazę są już IMHO kosztowną inwestycją.

Jeśli znajdą się osoby, które ze mną poszukają funduszy na taką zabawę (może jakieś uczelnie by nam pomogły?;) to z chęcią zabiorę się do pracy =).
-
Gość: Drogomir, *.wro.vectranet.pl
2008/09/28 15:31:39
Na next web o tym wspominali: thenextweb.org/2008/09/12/how-open-source-became-an-important-pion-in-controlling-market-shares/

Pomysł jest ciężki do zrealizowania zarówno jeżeli chodzi o złożoność jak i koszty, ale nie trzeba wcale zaczynać od kupowania klastera na trzymanie pińćset silnia terabajtów danych. Można zacząć od testowania na kilkuset gigabajtach i w razie możliwości rozszerzać bazę.

Jeżeli zebrać odpowiednio dużo developerów, to mogłoby wyjść z tego coś fajnego.
-
Gość: kermit, *.cweg.stud.uni-goettingen.de
2008/09/28 17:38:45
@puexam, loqeek, drogomir: man, oh man. mam wrażenie, że już czujecie podniecenie w związku z rozpoczynającą się wyprawą. pomału.

po pierwsze mogę was zapewnić, że sporo ośrodków akademickich pracuje nad jakimiś swoimi wyszukiwarkami (dających zupełnie nowe możliwości). miejmy nadzieję, że z tych prac oderwie się w końcu jakiś świetny spin off.

po drugie, jeśli już kopiować google, to lepiej się przyjrzeć temu co już OSS community zrobiło w tym kierynku (OSS jest dobre w kopiowaniu lub reimplementacji istniejących pomysłów). apache lucene, nutch, solr, compass. toż to niemalże gotowce. oczywiście pozosta największy problem - jak to wyskalować. ale to już jest pytanie na znacznie dalszym etapie rozważań niż prezentowane (może hadoop?).

po trzecie - to wcale nie jest ciekawy temat w kontekscie tej notki.

po czwarte - co by bylo gdyby googlowi kazali ujawnic algorytm? podejrzewam, ze po niedlugiej chwili wszytsko by sie unormowalo. a sposoby SEO zostalyby jakos ujednolicone (weszlyby jakies standardy i wzory). tak czy siak internet no pozostalby bez wyszukiwarki.
-
Gość: Robert Janeczek, 62.61.43.*
2008/09/28 17:54:15
Obawiam sie, ze stworzenie w pelni otwartej wyszukiwarki doprowadziloby do znacznego "rozwodnienia". Zaleta (lub przeklenstwem) Google jest to, ze to on ustala standardy i wszyscy sie do nich w mniejszym lub wiekszym stopniu dopasowuja. Przy rozwiazaniu otwartym jedna lub druga duza firma stwierdzilaby, ze nie pasuje jej sposob indeksowania, poniewaz nieodpowiednio (czyt. nizej, niz marketing by chcial) ocenia strony ich produktow i postawilaby lekko zmodyfikowany klon wyszukiwarki. Po roku byloby 50 roznych niszowych wyszukiwarek.
Moze i sie ze mna nie zgodzicie, ale uwazam, ze demokracja projektow open source i innowacja nie ida w parze. Musi byc wizjoner i jego zespol, a nie dziesieciu decydentow i piecdziesieciu statystow :) Co oczywiscie nie oznacza, ze projekty open source sa z gruntu zle.
-
Gość: Tomashh, *.neoplus.adsl.tpnet.pl
2008/09/28 18:26:36
"wyszukiwanie czegokolwiek w Internecie zależy nie tylko od posiadanej bazy (tę można stosunkowo łatwo zbudować używając robotów) ale przede wszystkim od algorytmu przeszukującego tę bazę i szeregującego wyniki"

I call bullshit.

Powstało już kilka opracowań w ciągu ostatnich lat mówiących (czy wręcz dowodzących), że w zbieraniu i przetwarzaniu danych do znajdowania pewnych trendów czy zależności zwiększenie ilości (woluminu) danych daje zwyczajnie lepsze wyniki niż szlifowanie algorytmu.
Googlowski PageRank nie jest bardzo trudny do odtworzenia ze sporą dokładnością dla kilku w miarę ogarniętych osób przez parę dni. To, czym Google wygrało na początku tego stulecia, to właśnie przeczesanie, skopiowanie i zaindeksowanie wszystkich treści, na jakie tylko udało im się trafić. Plus własne do wyszukiwarki rozwiązania pośrednie, czyli nie-relacyjna ale łatwa do rozpraszania baza MapReduce itp. itd.
-
Gość: Puexam, *.lanet.net.pl
2008/09/28 19:02:58
@kermit: nie wiem jak koledzy, ale ja nad analogicznym projektem w ramach pracy naukowej zajmowałem się przez ostatnie prawie rok, i bardzo chętnie bym wiedzę poznaną przez ten czas przeniósł w realny projekt - to znaczy i tak przeniosę, ale pytanie czy tu czy gdzie indziej ;)

Ośrodki akademickie - może tak, ale nie w Polsce. Przynajmniej mi nic nie wiadomo. aby gdzieś poważnie prowadzone były prace nad tym.

@Tomashh: Myślę, że obie rzeczy mają mniej-więcej równorzędne znaczenie. Tyle, że wydaje mi się, iż dobry algorytm indeksujący i pozycjonujący jest znacznie trudniej "wynaleźć", niż przeczesać wystarczającą część sieci ;)
-
reuptake
2008/09/28 19:06:19
moi drodzy, ale oddzielmy 2 rzeczy:

1) otwarty algorytm wyszukiwania
2) lepszy algorytm wyszukiwana

pomysł mówi, że to pierwsze jest "lepsze". mi się wydaje, że ludzie nie będą używać wyszukiwarki tylko dlatego, że ma otwarty kod.
-
Gość: kermit, *.fabiankeil.de
2008/09/28 20:35:18
@reuptake: sadze, ze odpowiedzi na te pytania powinniśmy raczej szukać na gruncie marketingu/badan rynku niż na gruncie technologicznym. dlaczego? jesli ktos w IT wpadnie na coś naprawdę innowacyjnego i niebanalnego (ewentualnie coś co pozostawia konkurencje 2 lata w tyle) to znaczy że jest pierwszy w danej dziedzinie i ma prawie 100%. Jak ktoś ma tyle to bardzo trudno innemu wyrwać jakiś procent, o ile sam nie popełni jakichś rażących błędów. (przykłady? np. IE vs FF - mimo, ze FF jest uwazany za lepszy i jest otwarty to ma po iluś tam latach walki, dopiero jakies ~20%).

Wniosek: nawet jak algorytm googla bedzie open to NIC się nie stanie. nawet jak powstanie google2 z kilkoma nowymi bajerami to po 5 latach dojdzie MOŻE do 20% rynku wyszukiwarek. Nie zapominajmy, że w tym samym czasie google też się ciągle rozwija.
Natomiast szansa na nowe google, które wszytsko pozamiata, to jedynie coś, co odstawi dotychczasowe google o jakieś 2-5 lat. Coś co może właśnie powstaje gdzieś w laboratorium na jednej z wyższych uczelni.
-
Gość: kocio, *.internetdsl.tpnet.pl
2008/09/29 09:57:50
Pomysł nie jest zupełnie nowy, nad otwartym algorytmem już pracują ludzie od paru lat, np. w takim projekcie:

en.wikipedia.org/wiki/Nutch

Innych podobnych można szukać tutaj:

en.wikipedia.org/wiki/Category:Free_search_engine_software
-
Gość: mantrid, *.nsn-inter.net
2008/09/29 09:59:50
zdaje się że twórca wikipedii rozpoczął projekt wyszukiwarki, z ta róznicą że zamiast operać się na algorytmie, opera się na crowsourceingu...

re.search.wikia.com/index.html
-
Gość: pebe, *.idg.com.pl
2008/09/30 16:32:31
ale się naodpowiadam, jako autor pomysłu :)

przede wszystkim w mojej myśli chodzi o to, co dobrze wydobył reuptake: da się takie narzędzia jak wyszukiwanie robić na otwartych algorytmach? Czuję podskórnie słabość rozwiązań (jak w kryptografii), które bazują na ukrywaniu algorytmu...

ten pomysł z wtyczką to tylko przykład czegoś otwartego, a nie czegoś co ma dobrze działać :)

@Tomashh: wydaje mi się, że agregowanie danych dzisiaj to nie jest _aż taki_ problem. Jak ja potrafię na totalnego głupa zrobić w kilka godzin bota czeszącego flickra i walącego milionami profili przez dzień, to znaczy, że mądry facet (albo dwóch) napisaliby boty czeszące sieć jak talala. Same dane to za mało, chociaż oczywiście - trzeba mieć dużo danych, żeby liczyć dobre statystyki. To raczej nie będzie algorytm po prostu lepszy, on będzie całkowicie inny.

@reuptake: to "coś" ma być "lepsze mimo, że otwarte". Jeśli istnieje jawny algorytm dobrego porządkowania stron wg słów kluczowych i "dobroci" tych stron, to on jest o tyle lepszy, że może zabić nieuczciwe SEO (bo każdy może sobie SEOwać do woli). Może też dać możliwość dowolnego mapowania sieci, nie tylko "mapowania google". Otworzenie (w sensie otwartego algorytmu) jakiegoś tematu może zaowocować eksplozją świetnych narzędzi.

Kolejna sprawa to jest dostęp do "bazy wszystkiego". Taką bazę ma Google i wydziela z niej bardzo ostrożnie. Jest tu zaburzenie równowagi: Gugiel czyta botami wszystko, ale nikt nie może czytać botami zbiorów Gugla. Otwartą bazę można by sensownie wydzielać bez ograniczeń ilościowych, pominąwszy absolutnie minimalne, zapewniające bezpieczeństwo danych. I znowu: na takiej otwartej bazie usługi wyszukiwania (czy inne) mogłyby się efektywniej niż dzisiaj rozwijać.

Co do Wikia: przeszkodą może być lenistwo, Wikipedię pisze niewiele osób (w stosunku do czytających), crowdsourcing w budowaniu wyszukiwarki powinien być mało obciążający umysłowo :)
-
reuptake
2008/09/30 17:01:05
akurat przeczesanie robotami całej sieci to nie jest jakaś wielka przewaga konkurencyjna google'a, tak przynajmnie mi się wydaje.
-
Gość: loqeek, *.neoplus.adsl.tpnet.pl
2008/10/01 16:45:48
@reuptake: jeśli chodzi o przewagę nad yahoo czy microsoftem to się zgodzę. W końcu wszystkie mają "przeczesany cały internet", ale jeśli chodzi o wejście nowej wyszukiwarki na rynek to są to dosyć spore koszty, które moim zdaniem trzeba ponieść aby wyszukiwarka mogła się liczyć na rynku.
-
reuptake
2008/10/01 16:46:58
to jest jasne, o tym pisałem.