TAGH Beta Betrieb

Trotz einer langen Entwicklungszeit von sechs Jahren und der Erprobung bei ZEIT online und dem Projekt DWDS seit Juni 2005 ist TAGH noch lange nicht vollständig und fehlerfrei. Eine Liste von Beschränkungen, bekannten Fehlern und Erweiterungen wird im folgenden aufgeführt. Für die Meldung weiterer Fehler und Begrenzungen schreiben Sie uns bitte unter: info@tagh.de

Derzeit laufende Korrekturen:

  • Überarbeitung der Lesartenzuordnung von LexikoNet.
  • Überarbeitung ungewöhnlicher Stämme des Verblexikons (das Verblexikon erhält eine Vielzahl von ungewöhnlichen Verben, die zwar morphologisch bildbar, aber praktisch zu unerwünschten Analysen führt)

Erweiterungen:

  • Die Präferenzzuweisung von Lemmata unterschiedlicher Flexion, aber gleichem Zerlegungsgewicht (Beispiel: Preußen vs. Preuße)
  • vollständige Integration der Neuen Rechtschreibung

Begrenzungen:

  • Aus Effizienzgründen werden Wortformen mit einer Frequenz von weniger als 10 (Grundlage: ein 500 m tokens großes Corpus bestehend aus 'Die ZEIT' sowie weiteren Web-Corpora nicht in die morphologische Analyse miteinbezogen.
  • Die Ermittlung von Lesarten von Komposita mit den Komponenten A-B erfolgt derzeit nur auf der Grundlage der B-Komponente. Derzeit entwickeln wir eine Disambiguierung aufgrund der Beziehung der A-Komponente und der B-Komponente.