Schlagwort-Archive: Google

Parametrisierte Google Suche

Motivation
Ein wichtiges Instrument eines Webscrapers sind tatsächlich URLs, denn damit landet man immerhin schon mal auf der gewünschten Seite (manchmal auch schon in den gewünschten Ergebnissen). Im Kontext der Google Suche kann die gezielte Verwendung von URLs auch für einen Otto-Normal-Nutzer eine Arbeitserleichterung sein. Hat man regelmäßige gleichlautende Abfragen, speichert man diese sinnvollerweise als URL in seinen Favoriten/Bookmarks/Lesezeichen.
Anatomie der Google Suche URL
die URL beginnt immer mit
https://www.google.com/search?
dahinter werden die Parameter in beliebiger Reihenfolge angehängt
parametername=parameterwert
mehrere Parameter werden mit & zusammengefügt, sodass die URL letzendlich diese Form annimmt
https://www.google.com/search?parametername1=parameterwert1¶metername2=parameterwert2¶metername3=parameterwert3
Die Parameter
Da Google keine offizielle Spezifikation seiner Parameter rausgibt, muss man sich diese von verschiedenen Seiten zusammenklauben (bzw. selbst herausfinden):
Google Search URL Parameters – Query String Anatomy
The Ultimate Guide to the Google Search Parameters
Google search parameters in 2012
Eine kleine vereinfachte Tabelle für unser u.g. Beispiel

Parameter Bedeutung
q=suchbegriff1+suchbegriff2 Das sind die Suchbegriffe, die in das google-Suchfeld eingetragen werden. Die einzelnen Suchbegriffe werden mit + aneinandergefügt.
as_eq=suchbegriff3+suchbegriff4 Das sind die Suchbegriffe, die von der Google Suche ausgeschlossen werden. Die einzelnen Suchbegriffe werden mit + aneinandergefügt.
tbs=qdr:d tbs=qdr filtert die Ergebnisse in einem bestimmten Zeitraum. d bedeutet hier Tag, d.h. nur die Suchergebnisse der letzten 24 h werden angezeigt (w bedeutet week usw.). Gerade wenn man regelmäßige Suchanfragen hat, möchte man ja nicht immer das Gleiche angezeigt bekommen, sondern nur die neuesten (noch nicht gelesenen) Suchergebnisse. Für solche Zwecke ist dieser Parameter natürlich Gold wert.
tbs=qdr:d,sbd:1 Wenn man dann noch die Ergenisse nicht nach Relevanz (ein Kriterium, das bei kleinen Zeiträumen eh keine Rolle spielt), sondern nach Zeit sortiert haben mag, hängt man noch ,sdb:1 an.
num=100&as_qdr=all num bedeutet die Anzahl der Suchergebnisse pro Seite. Seitdem Google jedoch Google Instant eingeführt hat, funktioniert dieser Parameter alleine nicht mehr. Man muss zusätzlich mittels as_qdr=all Google Instant ausschalten. Ein ausführlicher Artikel hierzu: num Parameter trotz Instant

Ein Beispiel
Als Beispiel nehme ich die Suchbegriffe „Google“ und „Suche“ – vielleicht wird dieser Artikel dereinst auf der ersten SERP stehen … naja … als auszuschließende Begriffe nehme ich willkürlich „Wikipedia“ und „Apple“ – im Suchfeld erreicht man den Ausschluss durch vorangestelltes Minuszeichen.

Die Google Suche URL sieht dann entsprechend so aus (kopiert die URL in Euer Browser-Adressfeld und seht die Magie …)
https://www.google.com/search?q=Google+Suche&as_eq=Wikipedia+Apple&tbs=qdr:d,sbd:1&num=100&as_qdr=all
Und dann wird diese URL schließlich noch als Favorit/Bookmark/Lesezeichen abgespeichert – feddisch.