1. Liebe Forumsgemeinde,

    aufgrund der Bestimmungen, die sich aus der DSGVO ergeben, müssten umfangreiche Anpassungen am Forum vorgenommen werden, die sich für uns nicht wirtschaftlich abbilden lassen. Daher haben wir uns entschlossen, das Forum in seiner aktuellen Form zu archivieren und online bereit zu stellen, jedoch keine Neuanmeldungen oder neuen Kommentare mehr zuzulassen. So ist sichergestellt, dass das gesammelte Wissen nicht verloren geht, und wir die Seite dennoch DSGVO-konform zur Verfügung stellen können.
    Dies wird in den nächsten Tagen umgesetzt.

    Ich danke allen, die sich in den letzten Jahren für Hilfesuchende und auch für das Forum selbst engagiert haben. Ich bin weiterhin für euch erreichbar unter tti(bei)pcwelt.de.
    Dismiss Notice

Kopieren von Text aus pdf-Datei funktioniert nicht

Discussion in 'Software allgemein' started by fadetoblack, Sep 19, 2012.

Thread Status:
Not open for further replies.
  1. Hallo,

    ich habe folgendes Problem. Ich muss für die Uni mehrere arabische Parteiprogramme übersetzen (zumindest bestimmte Stellen). Um mir das Auffinden der passenden Stellen etwas einfacher zu machen, habe ich sie bisher ins google translate kopiert.
    Zwar kam es dabei teilweise zu einer Vertauschung der Buchstabenreihenfolge (ich vermute aufgrund der Rechts-nach-lins-Schreibung im Arabischen), aber dies konnte ich mit einem Online-Tool wieder richtig rum tauschen. Grundsätzlich funktioniert es also mit arabischer Schrift.

    Nun habe ich aber 2 pdf-Dokumente, bei denen wenn ich den Text kopiere, in anderen Programmen (egal ob google translate, word, texteditor...) nur ein unleserlicher Zeichensalat herauskommt. Bei der Konvertierung der pdfs in doc oder docx mit unterschiedlichen Programmen kam das Gleiche heraus.

    Weiß hier vielleicht jemand woran das liegen könnte? Ich hab im Internet ein bisschen gegoogelt und irgendwas gelesen davon, dass in pdfs die verwendeten Schriftarten eingebettet sind und wenn das andere Programm, in das der Text kopiert werden soll, diese Schriftart nicht kennt; dass es dann Probleme geben kann. Hab's aber nicht wirklich verstanden und bin mir auch nicht sichert, ob mein Problem jetzt damit was zu tun hat.

    Hier wären die Links, falls sich jemand die pdfs anschauen möchte:

    http://www.pjd.ma/sites/default/file...gramme2011.pdf
    http://www.pjd.ma/sites/default/files/nidamasasi.pdf

    Wäre echt cool, wenn mir jemand helfen könnte, da es mir ein haufen langwieriger Arbeit ersparen würde! Schonmal im Voraus Danke für die Hilfe!

    lg
    Alexander
     
  2. the raccoon

    the raccoon Halbes Megabyte

    ja, hier sind die Schriften (teilweise) eingebettet.

    Da ich mit Linux arbeite kann ich Dir nur diesen Weg erklären.

    Mit Okular (pdf Betrachter) öffnen - Datei Eigenschaften - Schriften - entpacken - installieren und dann klappts auch mit dem OCR Programm.

    Das geht sicher auch Super mit Abby Fine Reader. Aber die Schriften muss man schon installieren da sonst "ähnliches" genommen wird, was meisten Zeichensalat ist.

    the Raccoon
     
  3. @ the raccoon:
    schonmal vielen dank für die hilfe! zur not würde ich mir auch linux installieren, wenn das dort so einfach geht. das wär zumindest schonmal ein gangbarer weg!

    weiß jemand vielleicht noch eine lösung für windows?
    wenn ich die eingebetteten schriftarten nachinstallieren will: suche ich dann einfach die schriftart im internet und lade sie runter? soweit ich weiß, kostet der download von schriftarten doch meistens was, oder?

    oder wäre evtl. beim office sprachpaket arabisch die passende schriftart dabei? (dieses sprachpaket könnte ich als arabisch student langfristig eh brauchen...)

    Schonmal Danke für die weitere Hilfe!

    Alexander
     
  4. mike_kilo

    mike_kilo Ganzes Gigabyte

    Kennst du denn die Fontnamen der Originalschriften?
    In der 2. PDF sind 8 Fonts eingebettet,es sind allerdings eingeschränkte Buchstaben-/Zeichensätze.(Subsets) . Das heißt, nicht der komplette Zeichensatz steht zur Verfügung, sondern nur im Text verwendete Zeichen werden eingebettet, unbenutzte bleiben draußen, um die Dateigröße zu reduzieren. Das Problem dabei ist, daß 7 solcher Subsets nicht den Originalnamen der verwendeten Schriftart führen, sondern einen Code.
    Deswegen auch der Hinweis: Encoding: Custom
    Siehe Bild von deinem 2.PDF-Link >
    [​IMG]
    ist abhängig vom Copyright und kommerzieller Nutzung der Schrift . Das entscheidet der Urheber.
    Hast du schon die OCR-Methode angewandt? natürlich mit arabischer Schrifterkennung.
     

    Attached Files:

  5. Hallo mike_kilo,

    ich hab's grade mit Abby Fine Reader probiert:
    Das Ergebnis war zwar deutlich besser als der bisherige Zeichensalat, aber leider auch nicht brauchbar. Dafür sind leider viel zu oft Fehler in der Buchstabenerkennung drin. (Außerdem spaltet das Programm verbundene arabische Buchstaben in Einzelbuchstaben auf)

    Ach, und die Fontnamen .der eingebetteten Schriftarten kenne ich nicht (bin ja nicht der Autor...)

    Gäb's sonst noch ne Möglichkeit? Bzw. würde die schon beschriebene Linux-Lösung funktionieren?

    Alexander
     
Thread Status:
Not open for further replies.

Share This Page