Hallo,eine grundsätzliche Frage zu Perl und unicode/charsets... denn ich verzweifle hier gerade.
Ich versuche aus mehreren emails (Maildirformat) eine pdf-Datei zu generieren.
Dazu leses ich mit Email::Folder alle aus, entferne attachements mit Email::StripMIME, parse das Ganze mit Email::Simple und möchte nun ein Latex-Template mit den Textinhalten füllen um anschliessend pdflatex aufzurufen.
Leider meldet mir pdflatex aber direkt Fehler bzgl. ungültigem UTF-8...
Frage:
Wenn zB per Email::Simple der From-Header (alt. body()) ausgelesen wird, ist der doch in dem im Content-Header verzeichneten charset kodiert, oder?
Bedeutet: Ich muss mit
use Encode; encode('utf-8', $from)
diesen String erstmal in utf-8 umkodieren und kann anschliessend per ganz normalem print auf ein Filehandle utf-8 schreiben, oder? Oder hat perl den from-Header in der Variablen bereits als utf-8 gespeichert?
Mein Problem ist, auch im Terminal (utf-8 als charset eingestellt), werden nicht alle Zeichen korrekt angezeigt und pdflatex meldet bei "ganz normalen" Zeichen (unter 127) direkt schon Fehler:
! Package utf8x Error: Malformed UTF-8 sequence.
See the utf8x package documentation for explanation.
Type H <return> for immediate help.
...
l.54 \opening{Sehr geehrter Herr W. Test}
?
Hat da jemand eine Idee?
ps: habe schon versucht auf selfhtml Hilfe zu erhalten, dort kann bei Bedarf noch etwas genauer unter http://forum.de.selfhtml.org/?t=148913&m=966557&readmode=nested nachgelesen werden.
Datum: 22.03.2007-20:18
