Heiner Kücker

Java Spell Checker Silbentrennung

Home

Java-Seite

 . Weiterentwicklung_Java

 . WebCam_Demo

 . JSP WorkFlow
 . PageFlow FlowControl
 . Page Flow Engine
 . Web Flow Engine
 . Control_and_Command

 . JSP_Spreadsheet

 . Kognitions-Maschine
 . semantisches Netz

 . Domain Parser

 . Codegenerator_für
 . hierarchische
 . Datenstrukturen

 . Expression_Engine
 . Formula_Parser

 . Thread Preprocessor

 . State Transition Engine

 . AspectJ

 . Java_Explorer

 . DBF_Library

 . Kalender_Applet

 . SetGetGen

 . BeanSetGet

 . CheckPackage

 . LineNumbers

 . GradDms

 . Excel-Export

 . StringTokenizer

 . JspDoc

 . JspCheck

 . JSP-Schulung
 . Java Server Pages
 . Struts

 . Ascii-Tabellen-
 . Layouter

 . Ascii-Baum-
 . Layouter

 . Ascii-Art-Fluss-
 . Diagramm-
 . Parser

 . AsciiArt
 . AssignmentMatrix
 . Layouter

 . StringSerial

 . Silbentrennung

 . JDBC_Schlüssel-
 . Generierung

 . bidirektional/
 . unidirektional
 . gelinkte Liste

 . Java_Sitemap
 . Generator

 . XmlBuilder

 . RangeMap

 . StringFormatter

 . VersionSafe
 . XCopy

 . JTextField

 . CommandLine-
 . ParamReader

 . Bitmap-Grafik

 . MultiMarkable-
 . Buffered-
 . InputStream

 . JavaCache

 . JdomUtil

 . CollectionUtil

 . XML Really
 . Pull Parser

 . Log-Filter

 . Remote-Protokoll

 . Sudoku-Generator

 . Delegation statt
 . Mehrfachvererbung

 . Disjunct
 . Interval Set

 . Constraint Class

 . Code Generator

Alaska-XBase++-Seite

Projekte

Philosophien
Techniken


Konzepte

Sudoku

Kontakt /
Impressum


Links

SiteMap





Letzte Aktualisierung:
08.07.2004
Spell.java

Kleines Programm zur Silbentrennung in Java (Spell Checker).

Anwendung:

-Trennen eines Wortes

Die Methode String[] spellWord(String) liefert ein String-Array mit den einzelnen Silben eines Wortes.

-Formatieren einer Zeile

Die Methode String formatLine(String paStr , int paIntWidth) bricht eine Zeile in der verlangten Breite um.

-Formatieren eines Textes

Die Methode String formatText(String paStr , int paIntWidth) bricht einen Text in der verlangten Breite um.

-Grundsätzliche Vorgehensweise

Alle beginnenden Konsonanten der zu untersuchenden Silbe werden übersprungen. Dann wird über alle Vokale gelaufen. Am Ende der Silbe werden alle Konsonanten bis auf den letzten mit einbezogen. Der letzte Konsonant bleibt für die nächste Silbe.

Dann werden folgende Regeln angewendet:

st wird nicht getrennt
ft am Ende der Silbe bleibt zusammen
ng wird nicht getrennt
sch wird nicht getrennt
str wird nicht getrennt

ck wird in kk umgewandelt

Problem nicht anwendbarer Regeln

Das Wort Seitengestaltung wird in Sei-ten-ge-stal-tung getrennt. Dabei wird eine ng-Verbindung, die entsprechend obiger Regeln nicht getrennt werden dürfte, getrennt. Dafür habe ich vorgesehen, dass für solche Wörter Trennungen in einer HashMap hinterlegt werden.

Methode addWord( String , String )
Methode addIgnoreCasexxx

Alternativ wäre es möglich, Teilworte mit den dazugehörigen Trennungen zu hinterlegen. Dies führt aber zu einer kombinatorischen Explosion mit entsprechend schlechten Laufzeiten.

Weiter besteht das Problem, dass Teilworte erkannt werden könnten:

Problem: Auto-rennen <--> Autoren-nennungen

Es ist sehr problematisch, ob nun die längeren oder kürzeren Worte zum Vergleich herangezogen werden sollten.

Eine weitere denkbare Möglichkeit ist das Definieren von Worten und Wortkombinationen:

Wort A: Teilzeit
Wort B: Mitarbeiter
Wort G: A+B Teilzeitmitarbeiter

Dies wird in dieser Klasse wegen der oben genannten Probleme nicht gemacht.

Problem: ck zu kk oder ß zu ss umgewandelt. Bei nicht erfolgter Trennung muss der originale String in den endgültigen Text eingefügt werden.

Formatieren eines Textes mit Silbentrennung:

Es ist günstig für die Trennung ein Spezialzeichen zu verwenden, damit eine Trennung jederzeit wieder rückgängig gemacht werden kann. Ein weiteres Problem ist das Rückgängigmachen von Änderungen, die durch das Trennen entstanden sind ( ck -> kk , ß -> ss )

Zusammenfassend kann man sagen, dass die Silbentrennung sehr problematisch ist. Sie zu lösen, reicht in den Bereich der künstlichen Intelligenz hinein. Verbreitete kommerzielle Textverarbeitungen arbeiten mit umfangreichen Wörterbüchern und beziehen den Benutzer interaktiv in den Vorgang der Silbentrennung im Zusammenhang mit der Rechtschreibprüfung ein.

Dieses kleine Programm, das aus einer Laune entstand, kann also nur für ganz einfache Aufgaben und zum Kennenlernen der Problematik dienen.

Download der Quelldateien Spell.zip

Installation:

Entpacken in Verzeichnis Ihrer Wahl (z.B. G:\Spell)

Start mit run.bat . (Achtung: die Umgebungsvariable JAVA_HOME muss gesetzt sein)

Achtung: Erweiterungen und Fixes stelle ich ohne Historie und ohne Ankündigung hier bereit.
Deshalb am besten immer die letzte Version runterladen.

Lizenzbedingungen:

Die Programme, Quelltexte und Dokumentationen können ohne irgendwelche Bedingungen kostenlos verwendet werden.
Sie sind Freeware und Open Source. Für Fehler und Folgen wird keinerlei Haftung übernommen.

Hinweise zur Fehlerbeseitigung und Verbesserung sind mir willkommen.

Ich freue mich auch über Feedback bezüglich der erfolgreichen Verwendung meiner Sourcen.

Bei Fragen helfe ich gern mit Hinweisen oder zusätzlicher Dokumentation, falls ich dafür Zeit habe.