Label Project [moj {czibere}]

gegenstand: scraping von all_record_labels[dot]com.


1. tag [2013-02-05] ursprünglich vorhandenes umarbeiten.

3. tag [2013-02-07] - datenbank, tabelle (raw data) fertig; daten eingelesen.

09:20 - wohltuenede nebenwirkung: statt 6-7h (wie vorhin) sind die daten in flotten 00:01:16 sauber in der db.

21:03 - Label-URLs werden geprüft (das wird dauern).

4. tag [2013-02-08] - datenbank, tabelle (raw data) fertig; daten eingelesen.

05:35 - fast 10000 Labels geprüft (also nicht ganz halbzeit).

von den 'verschollenen' labels ([05:40h] genau 2763 von 9148, das ist ~30.2033231307%) lassen sich etliche wiederfinden (facebook.com, myspace.com, discogs.com ... [google bemühen!]).

18:03:46 - die prüfung ist fertig! demnach gibt es 16119 gültige und 7212 broken links (30.9116625948%).


5. tag [2013-02-17] Labels holen, bearbeiten und in tabelle(n) speichern

die neue tabelle 'all_labels':

CREATE TABLE `all_labels` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `url` char(255) COLLATE utf8_unicode_ci NOT NULL DEFAULT '',
  `url_text` char(255) COLLATE utf8_unicode_ci NOT NULL DEFAULT '',
  `broken` tinyint(1) DEFAULT '0',
  `changed` tinyint(1) DEFAULT '0',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci      

was kommt noch:

      - URLs validieren, broken und changed markieren;
      - Labels holen, bearbeiten und in tabelle(n) speichern;
      - Labels anzeigen/speichern (html-tab, csv, pdf(?), ...(?));
      - tool für manuelle bearbeitung.