gegenstand: scraping von all_record_labels[dot]com.
09:20 - wohltuenede nebenwirkung: statt 6-7h (wie vorhin) sind die daten in flotten 00:01:16 sauber in der db.
21:03 - Label-URLs werden geprüft (das wird dauern).
05:35 - fast 10000 Labels geprüft (also nicht ganz halbzeit).
von den 'verschollenen' labels ([05:40h] genau 2763 von 9148, das ist ~30.2033231307%) lassen sich etliche wiederfinden (facebook.com, myspace.com, discogs.com ... [google bemühen!]).
18:03:46 - die prüfung ist fertig! demnach gibt es 16119 gültige und 7212 broken links (30.9116625948%).
die neue tabelle 'all_labels':
CREATE TABLE `all_labels` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `url` char(255) COLLATE utf8_unicode_ci NOT NULL DEFAULT '', `url_text` char(255) COLLATE utf8_unicode_ci NOT NULL DEFAULT '', `broken` tinyint(1) DEFAULT '0', `changed` tinyint(1) DEFAULT '0', PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci
-URLs validieren, broken undchanged markieren; -Labels holen, bearbeiten und intabelle(n) speichern; - Labels anzeigen/speichern (html-tab, csv, pdf(?), ...(?)); - tool für manuelle bearbeitung.