Ausgabe von Text to Speech (TTS) per SSML steuern
Hallo
Die integrierte Text-to-Speech-Funktion, mit der man sich Texte vorlesen lassen oder diese als Audiodatei speichern kann, ist schon recht brauchbar. Allerdings möchte ich das Vorlesen genauer steuern (Geschwindigkeit, Betonung, Höhen, Tiefen, Sprechen von Abkürzungen und Zahlen u.ä.). Dafür bietet sich die Nutzung von SSML an (Speech Synthesis Markup Language). Allerdings habe ich bisher nicht rausfinden können, wie ich die Befehle in einen Text einbinden kann.
Beispiel:
Wenn man das Terminal öffnet, kann man sich mit folgendem Befehl einen Text vorlesen lassen:
say -v "Dieses ist ein Test"
Wenn man den Text mit einer anderen Stimme vorlesen lassen möchte, muss die Stimme angegeben werden (diese ist vorher zu installieren):
say -v Petra "Dieses ist ein Test"
Ein Textdokument kann man sich auch in eine mp3-Datei ausgeben lassen. Genau dafür möchte ich die Sprachausgabe genauer steuern können. Wenn bspw. die Zahl "+12345" nicht als "plus zwölftausenddreihundertfünfundvierzig" gesprochen werden soll, sondern als einzelne Nummern (z.B. Telefonnummer), dann wäre die "Formatierung" per SSML sehr hilfreich.
Kennt jemand die entsprechende Syntax für Textdateien, die man angeben muss, um die Sprachausgabe steuern zu können?
Bin für jeden Tip dankbar
MacBook, OS X 10.11