1. Liebe Forumsgemeinde,

    aufgrund der Bestimmungen, die sich aus der DSGVO ergeben, müssten umfangreiche Anpassungen am Forum vorgenommen werden, die sich für uns nicht wirtschaftlich abbilden lassen. Daher haben wir uns entschlossen, das Forum in seiner aktuellen Form zu archivieren und online bereit zu stellen, jedoch keine Neuanmeldungen oder neuen Kommentare mehr zuzulassen. So ist sichergestellt, dass das gesammelte Wissen nicht verloren geht, und wir die Seite dennoch DSGVO-konform zur Verfügung stellen können.
    Dies wird in den nächsten Tagen umgesetzt.

    Ich danke allen, die sich in den letzten Jahren für Hilfesuchende und auch für das Forum selbst engagiert haben. Ich bin weiterhin für euch erreichbar unter tti(bei)pcwelt.de.
    Dismiss Notice

Persische Schriftzeichen werden beim Kopieren unleserlich

Discussion in 'Software allgemein' started by Nymeria, Jul 10, 2016.

Thread Status:
Not open for further replies.
  1. Nymeria

    Nymeria ROM

    Hallo,

    ich hoffe, ich bin mit meinem Anliegen im richtigen Unterforum.

    Ich habe ein großes Problem. Ich habe eine PDF mit mehreren Seiten Text, alles in persisch (Farsi). Nun wollte ich diesen Absatz für Absatz mit Hilfe eines der üblichen Online Übersetzungstools übersetzen. Aber sobald ich die Schriftzeichen kopiere und z.B. beim Google Translator einfüge, macht mein Computer daraus nur noch eine Ansammlung von Hashtags und Prozentzeichen. Bei Word ist es dasselbe, da werden die Zeichen auch völlig verunstaltet.

    Wie lässt sich dieses Problem lösen? Ich bin für jeden Tipp dankbar!

    VG
    Laura
     
  2. Eric March

    Eric March CD-R 80

    Ich kann da nur grobe Ratschläge geben.
    Es muss nicht Farsi sein das einen hier Ärger macht, da reichen schon nordeuropäische und baltische Zeichen nebst Kyrillisch… Ansatzpunkt war in allen Fällen die verwendete Zeichencodierung, was nicht eine Sprache meint sondern den verwendeten Glyphenvorrat - vergleiche ANSI und UTF-8.
    Mit was mag die PDF codiert sein? Schlimm allerdings wäre es wenn Stellvertreterzeichen zum Zuge kommen. Ein Grundgerüst-Text wird mittels unterschiedlicher Glyphen zu etwas Lesbarem oder einem Buchstabenchaos.

    Ich vermute allerdings eine reine Codierungsfrage. Hashtags und Prozente… etwa so was hier?
    Нажмите сюда и Вы перейдете к опросу!
    Нажмите сюда и Вы перейдете к опросу!

    Das wäre Kyrillisch (Übersetzung lassen wir mal weg). Der Browser wird diese Kodierung korrekt darstellen. Und das ist der Knackpunkt. Ich würde, wenn es keine anderen Kopier- und Einfüge-Tricks gibt, allen Inhalt einfach in eine HTML-Datei einkleben und ›durchlaufen lassen‹. Danach sollte das dann Dargestellte sich ohne Murren kopieren (und vor allem einfügen) lassen.

    Es mag Editoren geben die solchen direkten eingeklebten Input verkraften und darstellen oder aktiv ein Umkodieren erlauben. Aber ich wüsste keinen aus der Lamäng.

    Hoffe, dass das wirklich hilft,
    Eric March
     
  3. Eric March

    Eric March CD-R 80

    Grmpf…
    Нажмите сюда и Вы перейдете к
    Da die Edit-Funktion hier klemmt hoffe ich, dass nun der »Quellcode« dargestellt bleibt.
     
  4. Eric March

    Eric March CD-R 80

    Grrrr…
    & #1053;& #1072;& #1078;& #1084;& #1080;& #1090;& #1077; & #1089;& #1102;& #1076;& #1072; & #1080; & #1042;& #1099; & #1087;& #1077;& #1088;& #1077;& #1081;& #1076;& #1077;& #1090;& #1077; & #1082;
     
  5. Nymeria

    Nymeria ROM

    Hallo,

    vielen Dank für deine Antwort. Ja, es sieht so aus wie in deinem letzten Post. Was genau meinst du mit "in eine HTML-Datei einkleben und durchlaufen lassen"? Sorry, wenn die Frage blöd ist, aber ich bin da absoluter Laie...
     
  6. Eric March

    Eric March CD-R 80

    HTML-Dateien sind reine Textdateien. Ein normaler Editor ist hier das beste Instrument. Am einfachsten kopierst du eine alte HTML- (bzw. HTM-) -Datei und weidest sie aus:
    <html>
    <head>
    </head>
    <body>
    &#8594; hier klebst du alles ein
    </body>
    </html>

    Diese Datei öffnest du im Browser und solltest den »geparsten« Inhalt nun problemlos dort hinauskopieren können.

    Eric March
     
  7. Nymeria

    Nymeria ROM

    Danke für die Erklärung. Hat leider nicht funktioniert, auch hier dasselbe Spiel mit den verhunzten Zeichen...ich werde noch wahnsinnig, das muss doch irgendwie gehen?!
     
  8. Scasi

    Scasi Ganzes Gigabyte

    wenn nichts dagegen spricht, kannst Du die PDF-Datei ja mal anhängen oder einen Download-Link posten
     
  9. Eric March

    Eric March CD-R 80

    Wenn ich diese Zeichenstruktur, wie im 3. Posting mit dem Leerzeichen zwischen & und # hier sichtbar gemacht, in die HTM einfüge ist es mir immer gelungen zumindest Zeichen an Stelle dieser Codierung zurückzubekommen.

    Wir mussten den quasi Rückweg gehen aus getipptem Kyrillisch (OK, Russisch wäre korrekter) erst mal die Codesequenzen zu bekommen (damit eben die Zeichen korrekt angezeigt werden, unabhängig von Browsereinstellungen). Mangels des Quelltexts (und der Faulheit abzutippen) habe ich exakt das Beschriebene getan um an den lesbaren Text zu gelangen ihn anderweitig abzulegen.
    Die # & Codierung liegt nämlich so in einer Excel-Mappe vor, aber das kann keiner lesen. Also musste der Text wenigstens als Kommentar hinein - rate mal wie.

    Die Tatsache, dass die PDF die Zeichen darstellt, diese aber codiert enthält, sollte bestätigen, dass eine Systemschriftart existiert die diese Zeichen enthält. Word (um das Beispiel zu ziehen) sollte diese Zeichen korrekt anzeigen wenn ich sie einklebe oder über geeignete Tastaturlayouts eingebe. Warum das also klemmt wundert mich schon. Der Browser solle eben Klartext anzeigen der als solcher übernehmbar ist. Mir ist das normales Handwerk; ob Kyrillisch oder auch Nordisch oder Baltisch.

    Eric March
     
  10. Hascheff

    Hascheff Moderator

    Hier liegt vielleicht der Hund begraben: Es existiert keine Schriftart im System für diese Zeichen. In der pdf ist die Schriftart vielleicht eingebettet.

    Welche Windows-Version hast du?
     
  11. Scasi

    Scasi Ganzes Gigabyte

    > Es existiert keine Schriftart im System für diese Zeichen.

    von welchem "System" redest Du? Anzeige und Druck ist unter Windows 10 mit LibreOffice Portabel kein Problem - also muss da ja irgendwo was sein! :D

    andere OS etc. ist mir jetzt zu mühsam, getestet hab' ich mit Wikipedia-Stoff: https://de.wikipedia.org/wiki/Persische_Sprache
     
  12. Nymeria

    Nymeria ROM

    Hallo,

    ich hänge die PDF jetzt einfach mal an, dann könnt ihr euch sicher ein genaueres Bild machen. Ich habe übrigens Windows 7 und Word 2007, falls das irgendwie relevant ist?! Aber das korrekte Einfügen funktioniert ja auch unabhängig von Word nicht...

    Edit: Das mit dem Anhang funktioniert irgendwie nicht, da erscheint immer ein rotes Ausrufezeichen?! Ich hab die PDF jetzt mal hier hochgeladen, einen Link gibt es nicht, da ich den Autor persönlich angeschrieben habe, um sie zu bekommen:

    Datei von filehorst.de laden
     
  13. Nymeria

    Nymeria ROM

    Ich hoffe, es funktioniert!
     
Thread Status:
Not open for further replies.

Share This Page