Heiner KückerJava Spell Checker Silbentrennung |
|
|
Home Java-Seite . Weiterentwicklung_Java . WebCam_Demo . JSP WorkFlow . PageFlow FlowControl . Page Flow Engine . Web Flow Engine . Control_and_Command . JSP_Spreadsheet . Kognitions-Maschine . semantisches Netz . Domain Parser . Codegenerator_für . hierarchische . Datenstrukturen . Expression_Engine . Formula_Parser . Thread Preprocessor . State Transition Engine . AspectJ . Java_Explorer . DBF_Library . Kalender_Applet . SetGetGen . BeanSetGet . CheckPackage . LineNumbers . GradDms . Excel-Export . StringTokenizer . JspDoc . JspCheck . JSP-Schulung . Java Server Pages . Struts . Ascii-Tabellen- . Layouter . Ascii-Baum- . Layouter . Ascii-Art-Fluss- . Diagramm- . Parser . AsciiArt . AssignmentMatrix . Layouter . StringSerial . Silbentrennung . JDBC_Schlüssel- . Generierung . bidirektional/ . unidirektional . gelinkte Liste . Java_Sitemap . Generator . XmlBuilder . RangeMap . StringFormatter . VersionSafe . XCopy . JTextField . CommandLine- . ParamReader . Bitmap-Grafik . MultiMarkable- . Buffered- . InputStream . JavaCache . JdomUtil . CollectionUtil . XML Really . Pull Parser . Log-Filter . Remote-Protokoll . Sudoku-Generator . Delegation statt . Mehrfachvererbung . Disjunct . Interval Set . Constraint Class . Code Generator Alaska-XBase++-Seite Projekte Philosophien Techniken Konzepte Sudoku Kontakt / Impressum Links SiteMap Letzte Aktualisierung: 08.07.2004 |
Spell.java
Kleines Programm zur Silbentrennung in Java (Spell Checker). Anwendung: -Trennen eines Wortes Die Methode String[] spellWord(String) liefert ein String-Array mit den einzelnen Silben eines Wortes. -Formatieren einer Zeile Die Methode String formatLine(String paStr , int paIntWidth) bricht eine Zeile in der verlangten Breite um. -Formatieren eines Textes Die Methode String formatText(String paStr , int paIntWidth) bricht einen Text in der verlangten Breite um. -Grundsätzliche Vorgehensweise Alle beginnenden Konsonanten der zu untersuchenden Silbe werden übersprungen. Dann wird über alle Vokale gelaufen. Am Ende der Silbe werden alle Konsonanten bis auf den letzten mit einbezogen. Der letzte Konsonant bleibt für die nächste Silbe. Dann werden folgende Regeln angewendet: st wird nicht getrennt ft am Ende der Silbe bleibt zusammen ng wird nicht getrennt sch wird nicht getrennt str wird nicht getrennt ck wird in kk umgewandelt Problem nicht anwendbarer Regeln Das Wort Seitengestaltung wird in Sei-ten-ge-stal-tung getrennt. Dabei wird eine ng-Verbindung, die entsprechend obiger Regeln nicht getrennt werden dürfte, getrennt. Dafür habe ich vorgesehen, dass für solche Wörter Trennungen in einer HashMap hinterlegt werden. Methode addWord( String , String ) Methode addIgnoreCasexxx Alternativ wäre es möglich, Teilworte mit den dazugehörigen Trennungen zu hinterlegen. Dies führt aber zu einer kombinatorischen Explosion mit entsprechend schlechten Laufzeiten. Weiter besteht das Problem, dass Teilworte erkannt werden könnten: Problem: Auto-rennen <--> Autoren-nennungen Es ist sehr problematisch, ob nun die längeren oder kürzeren Worte zum Vergleich herangezogen werden sollten. Eine weitere denkbare Möglichkeit ist das Definieren von Worten und Wortkombinationen: Wort A: Teilzeit Wort B: Mitarbeiter Wort G: A+B Teilzeitmitarbeiter Dies wird in dieser Klasse wegen der oben genannten Probleme nicht gemacht. Problem: ck zu kk oder ß zu ss umgewandelt. Bei nicht erfolgter Trennung muss der originale String in den endgültigen Text eingefügt werden. Formatieren eines Textes mit Silbentrennung: Es ist günstig für die Trennung ein Spezialzeichen zu verwenden, damit eine Trennung jederzeit wieder rückgängig gemacht werden kann. Ein weiteres Problem ist das Rückgängigmachen von Änderungen, die durch das Trennen entstanden sind ( ck -> kk , ß -> ss ) Zusammenfassend kann man sagen, dass die Silbentrennung sehr problematisch ist. Sie zu lösen, reicht in den Bereich der künstlichen Intelligenz hinein. Verbreitete kommerzielle Textverarbeitungen arbeiten mit umfangreichen Wörterbüchern und beziehen den Benutzer interaktiv in den Vorgang der Silbentrennung im Zusammenhang mit der Rechtschreibprüfung ein. Dieses kleine Programm, das aus einer Laune entstand, kann also nur für ganz einfache Aufgaben und zum Kennenlernen der Problematik dienen. Download der Quelldateien Spell.zip Installation: Entpacken in Verzeichnis Ihrer Wahl (z.B. G:\Spell) Start mit run.bat . (Achtung: die Umgebungsvariable JAVA_HOME muss gesetzt sein)
Achtung: Erweiterungen und Fixes stelle ich ohne Historie
und ohne Ankündigung hier bereit. Lizenzbedingungen:
Die Programme, Quelltexte und Dokumentationen können ohne
irgendwelche Bedingungen kostenlos verwendet werden. |