Samstag, August 19, 2006

 

Grillen am Werdersee

Heute schön am Werdersee gegrillt und die Wolken beobachtet. Der Einweggrill war noch von letzten Jahr und der Anzünder scheint zu verfliegen. Hat aber trotzdem geklappt wie man auf dem Bild sehen kann.





Werder Bremen hat heute auch gespielt und 2:1 Bayer04/Leverkusen weggeputzt. Wenn ich Fußballfan wäre, wäre ich wahrscheinlich zur Zeit Werder Fan. Ist schon imponierend, wie hier in Bremen die Massen ins Stadion pilgern. Wenn man am Werdersee liegt kann man immer noch hören wie die Leute im Stadium abgehen.

Außerdem Artikel übers WEKA-Framework gelesen. Die beschriebene Textanalyse ist nicht das was ich erhofft hatte, aber der Artikel macht Lust auf mehr. Mal sehen...

Donnerstag, August 17, 2006

 

Von den Glücklichen, den Jammernden und den anderen SEOs

SEOs, die ja bekanntlich davon leben immer vorne mit dabei zu sein, werden in diesen Tagen mal wieder von Existenzängsten geplagt. Google hat mal wieder den Algorithmus verändert und alles ist anders. Wer vorher jammerte ist nun glücklich und die vormals Glücklichen jammern uns die Ohren voll.

Vielleicht ist das auch die Fairness von Google, einfach mal durchmischen und was Anderes nach oben spülen - der Fairness wegen. Vielleicht ist es aber auch einfach Unfähigkeit der Google-Leute und das was wir da sehen sind eigentlich die üblichen Probleme, wenn man versucht sooo viele Daten zu handhaben. Scherz beiseite - dafür sind die Ergebnisse zu gut - zumindest im Moment.

Neben den gerade glücklichen SEOs und den gerade jammernden SEOs gibt's dann auch noch die immer jammernden SEOs - das sind die die das mit dem Optimieren gar nicht verstanden haben. Die jammern aber auch nur so lange bis sie einen neuen Job haben.

Das beste Rezept für eine erfolgreiche Seite ist ein echter Nutzen und der Aufbau einer Bekanntheit die über den Suchvorgang hinaus bestand hat. Dann muss man sich auch nicht so ins Hemd machen wenn Google mal wieder am Schrauben ist.

Mittwoch, August 16, 2006

 

Heuhaufen vs. Nadelhaufen

Frage:
Was ist schwieriger als die Suche nach der Nadel im Heuhaufen ?

Antwort:
Die Suche nach der richtigen Nadel in einem Haufen von Nadeln.

Das ist auch gleichzeitig das Problem der Suchmaschinen. Neben der Arbeit einen großen Haufen durchsuchen zu müssen und den damit einhergehenden Anforderungen an Rechenpower, Speicherplatz und Bandbreite, müssen Suchmaschinen gleichzeitig beurteilen ob die gerade behandelte Nadel die "Richtige" ist. Wenn man's genau betrachtet selektieren Suchmaschinen nicht nur die richtige Nadel, sondern sie bringen die Nadeln in eine Rangfolge und zwar alle. Das scheint zumindest mir etwas zu viel Aufwand, wenn man doch eigentlich genau eine Nadel sucht - eben die Richtige. Ich denke hier ist der Ansatzpunkt wenn man mal was wirklich Neues im Bereich der Suchmaschinen machen möchte.

Ausgehend von meiner Überzeugung, dass wir alle auf dieser Welt tendentiell eher wenig individuell sind und, so grausam es klingen mag, ein Produkt unser direkten wahrgenommenen Umgebung sind, so glaube ich dass das Suchverhalten zwischen verschiedenen Menschen übertragbar ist. Mit übertragbarem Suchverhalten meine ich, dass Leute die dem gleichen Kulturkreis entspringen, ähnliche Schulbildung besitzen und vielleicht noch andere Gemeinsamkeiten haben, auch mit dem gleichen Suchergebnis zufrieden wären.

Sie haben im Kopf was Sie suchen und geben einen Begriff ein, von dem Sie sich erhoffen, dass die Suchmaschine damit was anfangen kann. Das Ergebnis entspricht bestenfalls dem was Sie im Kopf hatten bevor Sie sich überlegten wie Sie danach suchen sollen.

Die heutigen Suchmaschinen sind schon sehr ausgefeilt, aber sie basieren auf Regeln und können niemals so gut sein wie manuel bewertete Suchergebnisse. Deshalb müssen die Suchmaschinen der nächsten Generation in irgendeiner Form ein Feedback-System einsetzen um die Suchergebnisse in letzter Instanz durch echte SucherInnen bewerten zu lassen.

Auf jeden Fall sollte der Suchende genau ein Suchergebnis erhalten. Wenn das nicht das ist was gesucht wurde, dann hat die Suchmaschine einen Fehler gemacht und muss lernen.

Die Verknüpfung von Suchterm und Suchergebnis in Abhängigkeit von Personenprofilen gekoppelt mit einem Feedbacksystem zur Optimierung in letzter Instanz wäre doch mal ein Ansatz für etwas neues. Interaktiv und irgendwie anders - wahrscheinlich besser.

Dienstag, August 15, 2006

 

AOL Daten

Nachdem ich schon ein paar Sachen von den AOL-Daten gelesen hatte und die von AOL zurückgezogen wurden, habe ich mir die schnell noch mal von einem Mirror gezogen. Was man hat das hat man. Die Daten lassen sich sehr einfach in eine Mysql-Datenbank einlesen. Dazu muss man einfach die Tabelle anlegen und die Daten direkt per Kommandozeile einladen. Dann noch zwei Indizies drauf und man kann das Teil auswerten - nur für wissenschaftliche Zwecke versteht sich. Für alle die noch ca. 5GB platz haben kommt hier die Schritt-für-Schritt-Anleitung:

Daten von http://www.gregsadetsky.com/aol-data/ in ein beliebiges Verzeichnis runterladen

Tabelle anlegen:

CREATE TABLE data (
AnonID bigint(20) UNSIGNED NOT NULL,
Query varchar(255) NOT NULL,
QueryTime timestamp NOT NULL,
ItemRank SMALLINT UNSIGNED,
ClickURL varchar(255)
) ENGINE=MyISAM

Die Daten in die Tabelle laden, dazu die Dateien aus dem Archiv auspacken und auch entpacken, dann mit dem Kommandozeilen-Client einloggen und die folgenden Statements ausführen:

LOAD DATA LOCAL INFILE 'c:\\Daten\\aol\\user-ct-test-collection-01.txt' INTO TABLE data;
LOAD DATA LOCAL INFILE 'c:\\Daten\\aol\\user-ct-test-collection-02.txt' INTO TABLE data;
LOAD DATA LOCAL INFILE 'c:\\Daten\\aol\\user-ct-test-collection-03.txt' INTO TABLE data;
LOAD DATA LOCAL INFILE 'c:\\Daten\\aol\\user-ct-test-collection-04.txt' INTO TABLE data;
LOAD DATA LOCAL INFILE 'c:\\Daten\\aol\\user-ct-test-collection-05.txt' INTO TABLE data;
LOAD DATA LOCAL INFILE 'c:\\Daten\\aol\\user-ct-test-collection-06.txt' INTO TABLE data;
LOAD DATA LOCAL INFILE 'c:\\Daten\\aol\\user-ct-test-collection-07.txt' INTO TABLE data;
LOAD DATA LOCAL INFILE 'c:\\Daten\\aol\\user-ct-test-collection-08.txt' INTO TABLE data;
LOAD DATA LOCAL INFILE 'c:\\Daten\\aol\\user-ct-test-collection-09.txt' INTO TABLE data;
LOAD DATA LOCAL INFILE 'c:\\Daten\\aol\\user-ct-test-collection-10.txt' INTO TABLE data;

Das dauert je nach Rechner kürzer oder länger. Auf meinem
Windows Rechner brauchte eine Datei so um und bei 25-30 Sekunden zum Einlesen.

Um Abfrage effizient stellen zu können hab ich dann noch zwei Indizies angelegt

CREATE INDEX AnonID_idx on data (AnonID) - dauerte bei mir ca. 30 Minuten

CREATE FULLTEXT INDEX Query_idx on data (Query) - dauerte zweieinhalb Stunden

Eine Abfrage, die man nun recht effizient stellen kann ist eine Suche nach Keywords, deren verwandte Phrasen und die Häufigkeit der Phrasen:

SELECT COUNT(DISTINCT AnonId) as Occurs, query
FROM data
WHERE MATCH(Query) AGAINST ('lenses')
GROUP BY query
ORDER BY Occurs DESC

Doppelte Anfragen für einzelne User werden dabei nicht berücksichtigt, wer das will muss das DISTINCT weglassen. Das Ergebnis der Abfrage sieht dann so aus:

184 contact lenses
12 nikon lenses
11 colored contact lenses
10 canon lenses
8 color contact lenses
7 discount contact lenses
7 camera lenses
7 sigma lenses
7 transition lenses
6 acuvue contact lenses
5 contac lenses
...


Die Abfrage dauert dank des FULLTEXT Indizies auch nur 3 Sekunden.

Bin immer dankbar für weitere Anregungen zu dem Thema.

 

Zahnarzt und andere Schmerzen

Heute Zahnarzt, einer der gemeinhin weniger beliebten Termine die wahrzunehmen sind um bei bester Gesundheit zu bleiben. Er hat auch gleich was gefunden an dem er schön rumgebohrt hat. Ich finde da ist dringend mal eine Innovation fällig, sowas muss doch auch friedlich gehen.

Ich war danach total gestresst und meine aktuellen Bemühungen den Preis-Info-Service zu automatisieren wurden dadurch etwas gehemmt. Naja, dank Spring ist das Verschicken von Mails zu festgelegten Zeiten ziemlich easy, wie ich feststellen durfte. Jetzt muss ich nur noch die Sache mit dem MIME-Multipart-Mails hinbekommen, damit man eine HTML-Version mit eingebetteten Bildern sowie gleichzeitig eine Textversion der Mail rausdrücken kann. Das alles ist aber recht überschaubar. Der erste Termin für die Aussendung dürfte so der 29.8.2006 (das ist schon nächster Dienstag...) oder der 05.09.2006 sein, hängt primär davon ab ob ich das Layout selbst hinbekomme, oder ob ich da noch Hilfe benötige. Bis Ende der Woche sollte der Versand technisch funktionieren, dann klappts auch mit dem ersten Termin, bin schon sehr gespannt ob sich da was tut. In dem Verteiler sind zur Zeit ca. zweitausend Adressen, ich bin sicher dass da auch viele Nieten dabei sind, aber das werden wir dann ja sehen.

Montag, August 14, 2006

 

Erster Eintrag....

So... angeblich werden in Deutschland, ganz im Gegensatz zu den USA, mehr Blogs geschrieben als gelesen. Da will ich mal nicht so sein und dazu beitragen, dass das auch weiterhin so bleibt.... hier ist mein Blog!

This page is powered by Blogger. Isn't yours?