![]() |
Blog > Komentarze do wpisu
[nbpo] opengoogle.org
niedziela, 28 września 2008, reuptake
TrackBack
Komentarze
2008/09/28 14:27:39
@puexam: jeśli dobrze zrozumiałem to wtyczka miałaby jedynie zbierać informacje, a nie przeszukiwać samą bazę...
Kiedyś sam zastanawiałem się nad otwartym algorytmem, ale doszedłem do wniosku, że nie sama złożoność problemu (przecież nie takie problemy się rozwiązywało;), a koszty wejścia na rynek są zbyt duże. Paweł Brągoszewski pisze, że bazę "można stosunkowo łatwo zbudować używając robotów". Napisanie samego robota to nie jest problem, ale przestrzeń do przechowywania zgromadzonych danych i klaster, który będzie przeszukiwał tą bazę są już IMHO kosztowną inwestycją. Jeśli znajdą się osoby, które ze mną poszukają funduszy na taką zabawę (może jakieś uczelnie by nam pomogły?;) to z chęcią zabiorę się do pracy =). 2008/09/28 15:31:39
Na next web o tym wspominali: thenextweb.org/2008/09/12/how-open-source-became-an-important-pion-in-controlling-market-shares/
Pomysł jest ciężki do zrealizowania zarówno jeżeli chodzi o złożoność jak i koszty, ale nie trzeba wcale zaczynać od kupowania klastera na trzymanie pińćset silnia terabajtów danych. Można zacząć od testowania na kilkuset gigabajtach i w razie możliwości rozszerzać bazę. Jeżeli zebrać odpowiednio dużo developerów, to mogłoby wyjść z tego coś fajnego.
Gość: kermit, cweg02.cweg.stud.uni-goettingen.de
2008/09/28 17:38:45
@puexam, loqeek, drogomir: man, oh man. mam wrażenie, że już czujecie podniecenie w związku z rozpoczynającą się wyprawą. pomału.
po pierwsze mogę was zapewnić, że sporo ośrodków akademickich pracuje nad jakimiś swoimi wyszukiwarkami (dających zupełnie nowe możliwości). miejmy nadzieję, że z tych prac oderwie się w końcu jakiś świetny spin off. po drugie, jeśli już kopiować google, to lepiej się przyjrzeć temu co już OSS community zrobiło w tym kierynku (OSS jest dobre w kopiowaniu lub reimplementacji istniejących pomysłów). apache lucene, nutch, solr, compass. toż to niemalże gotowce. oczywiście pozosta największy problem - jak to wyskalować. ale to już jest pytanie na znacznie dalszym etapie rozważań niż prezentowane (może hadoop?). po trzecie - to wcale nie jest ciekawy temat w kontekscie tej notki. po czwarte - co by bylo gdyby googlowi kazali ujawnic algorytm? podejrzewam, ze po niedlugiej chwili wszytsko by sie unormowalo. a sposoby SEO zostalyby jakos ujednolicone (weszlyby jakies standardy i wzory). tak czy siak internet no pozostalby bez wyszukiwarki. 2008/09/28 17:54:15
Obawiam sie, ze stworzenie w pelni otwartej wyszukiwarki doprowadziloby do znacznego "rozwodnienia". Zaleta (lub przeklenstwem) Google jest to, ze to on ustala standardy i wszyscy sie do nich w mniejszym lub wiekszym stopniu dopasowuja. Przy rozwiazaniu otwartym jedna lub druga duza firma stwierdzilaby, ze nie pasuje jej sposob indeksowania, poniewaz nieodpowiednio (czyt. nizej, niz marketing by chcial) ocenia strony ich produktow i postawilaby lekko zmodyfikowany klon wyszukiwarki. Po roku byloby 50 roznych niszowych wyszukiwarek.
Moze i sie ze mna nie zgodzicie, ale uwazam, ze demokracja projektow open source i innowacja nie ida w parze. Musi byc wizjoner i jego zespol, a nie dziesieciu decydentow i piecdziesieciu statystow :) Co oczywiscie nie oznacza, ze projekty open source sa z gruntu zle.
Gość: Tomashh, djx144.neoplus.adsl.tpnet.pl
2008/09/28 18:26:36
"wyszukiwanie czegokolwiek w Internecie zależy nie tylko od posiadanej bazy (tę można stosunkowo łatwo zbudować używając robotów) ale przede wszystkim od algorytmu przeszukującego tę bazę i szeregującego wyniki"
I call bullshit. Powstało już kilka opracowań w ciągu ostatnich lat mówiących (czy wręcz dowodzących), że w zbieraniu i przetwarzaniu danych do znajdowania pewnych trendów czy zależności zwiększenie ilości (woluminu) danych daje zwyczajnie lepsze wyniki niż szlifowanie algorytmu. Googlowski PageRank nie jest bardzo trudny do odtworzenia ze sporą dokładnością dla kilku w miarę ogarniętych osób przez parę dni. To, czym Google wygrało na początku tego stulecia, to właśnie przeczesanie, skopiowanie i zaindeksowanie wszystkich treści, na jakie tylko udało im się trafić. Plus własne do wyszukiwarki rozwiązania pośrednie, czyli nie-relacyjna ale łatwa do rozpraszania baza MapReduce itp. itd. 2008/09/28 19:02:58
@kermit: nie wiem jak koledzy, ale ja nad analogicznym projektem w ramach pracy naukowej zajmowałem się przez ostatnie prawie rok, i bardzo chętnie bym wiedzę poznaną przez ten czas przeniósł w realny projekt - to znaczy i tak przeniosę, ale pytanie czy tu czy gdzie indziej ;)
Ośrodki akademickie - może tak, ale nie w Polsce. Przynajmniej mi nic nie wiadomo. aby gdzieś poważnie prowadzone były prace nad tym. @Tomashh: Myślę, że obie rzeczy mają mniej-więcej równorzędne znaczenie. Tyle, że wydaje mi się, iż dobry algorytm indeksujący i pozycjonujący jest znacznie trudniej "wynaleźć", niż przeczesać wystarczającą część sieci ;) 2008/09/28 19:06:19
moi drodzy, ale oddzielmy 2 rzeczy:
1) otwarty algorytm wyszukiwania 2) lepszy algorytm wyszukiwana pomysł mówi, że to pierwsze jest "lepsze". mi się wydaje, że ludzie nie będą używać wyszukiwarki tylko dlatego, że ma otwarty kod.
Gość: kermit, tor.fabiankeil.de
2008/09/28 20:35:18
@reuptake: sadze, ze odpowiedzi na te pytania powinniśmy raczej szukać na gruncie marketingu/badan rynku niż na gruncie technologicznym. dlaczego? jesli ktos w IT wpadnie na coś naprawdę innowacyjnego i niebanalnego (ewentualnie coś co pozostawia konkurencje 2 lata w tyle) to znaczy że jest pierwszy w danej dziedzinie i ma prawie 100%. Jak ktoś ma tyle to bardzo trudno innemu wyrwać jakiś procent, o ile sam nie popełni jakichś rażących błędów. (przykłady? np. IE vs FF - mimo, ze FF jest uwazany za lepszy i jest otwarty to ma po iluś tam latach walki, dopiero jakies ~20%).
Wniosek: nawet jak algorytm googla bedzie open to NIC się nie stanie. nawet jak powstanie google2 z kilkoma nowymi bajerami to po 5 latach dojdzie MOŻE do 20% rynku wyszukiwarek. Nie zapominajmy, że w tym samym czasie google też się ciągle rozwija. Natomiast szansa na nowe google, które wszytsko pozamiata, to jedynie coś, co odstawi dotychczasowe google o jakieś 2-5 lat. Coś co może właśnie powstaje gdzieś w laboratorium na jednej z wyższych uczelni. 2008/09/29 09:57:50
Pomysł nie jest zupełnie nowy, nad otwartym algorytmem już pracują ludzie od paru lat, np. w takim projekcie:
en.wikipedia.org/wiki/Nutch Innych podobnych można szukać tutaj: en.wikipedia.org/wiki/Category:Free_search_engine_software
Gość: mantrid, proxy4-nsn.nsn-inter.net
2008/09/29 09:59:50
zdaje się że twórca wikipedii rozpoczął projekt wyszukiwarki, z ta róznicą że zamiast operać się na algorytmie, opera się na crowsourceingu...
re.search.wikia.com/index.html
Gość: pebe, n17.idg.com.pl
2008/09/30 16:32:31
ale się naodpowiadam, jako autor pomysłu :)
przede wszystkim w mojej myśli chodzi o to, co dobrze wydobył reuptake: da się takie narzędzia jak wyszukiwanie robić na otwartych algorytmach? Czuję podskórnie słabość rozwiązań (jak w kryptografii), które bazują na ukrywaniu algorytmu... ten pomysł z wtyczką to tylko przykład czegoś otwartego, a nie czegoś co ma dobrze działać :) @Tomashh: wydaje mi się, że agregowanie danych dzisiaj to nie jest _aż taki_ problem. Jak ja potrafię na totalnego głupa zrobić w kilka godzin bota czeszącego flickra i walącego milionami profili przez dzień, to znaczy, że mądry facet (albo dwóch) napisaliby boty czeszące sieć jak talala. Same dane to za mało, chociaż oczywiście - trzeba mieć dużo danych, żeby liczyć dobre statystyki. To raczej nie będzie algorytm po prostu lepszy, on będzie całkowicie inny. @reuptake: to "coś" ma być "lepsze mimo, że otwarte". Jeśli istnieje jawny algorytm dobrego porządkowania stron wg słów kluczowych i "dobroci" tych stron, to on jest o tyle lepszy, że może zabić nieuczciwe SEO (bo każdy może sobie SEOwać do woli). Może też dać możliwość dowolnego mapowania sieci, nie tylko "mapowania google". Otworzenie (w sensie otwartego algorytmu) jakiegoś tematu może zaowocować eksplozją świetnych narzędzi. Kolejna sprawa to jest dostęp do "bazy wszystkiego". Taką bazę ma Google i wydziela z niej bardzo ostrożnie. Jest tu zaburzenie równowagi: Gugiel czyta botami wszystko, ale nikt nie może czytać botami zbiorów Gugla. Otwartą bazę można by sensownie wydzielać bez ograniczeń ilościowych, pominąwszy absolutnie minimalne, zapewniające bezpieczeństwo danych. I znowu: na takiej otwartej bazie usługi wyszukiwania (czy inne) mogłyby się efektywniej niż dzisiaj rozwijać. Co do Wikia: przeszkodą może być lenistwo, Wikipedię pisze niewiele osób (w stosunku do czytających), crowdsourcing w budowaniu wyszukiwarki powinien być mało obciążający umysłowo :) 2008/09/30 17:01:05
akurat przeczesanie robotami całej sieci to nie jest jakaś wielka przewaga konkurencyjna google'a, tak przynajmnie mi się wydaje.
2008/10/01 16:45:48
@reuptake: jeśli chodzi o przewagę nad yahoo czy microsoftem to się zgodzę. W końcu wszystkie mają "przeczesany cały internet", ale jeśli chodzi o wejście nowej wyszukiwarki na rynek to są to dosyć spore koszty, które moim zdaniem trzeba ponieść aby wyszukiwarka mogła się liczyć na rynku.
|
Google pracują w ten sposób, że mają robot który przemierza sieć i zgłasza do algorytmu indeksującego nową / zaktualizowaną witrynę, która jest zapisana w bazie danych i w której następnie można wyszukiwać.
Piję tutaj do "wtyczki" na stronę.
Nad pomysłem możnaby się zastanowić jednak dogłębnie, i może nawet coś wymyślić ciekawego. Jeśli znajdzie się kilka osób chętnych do zabawy - ja się chętnie włączam ;-) (mam na polu systemów wyszukiwania informacji jakieśtam prace napisane, więc... :) )