{"id":330,"date":"2020-08-25T13:18:25","date_gmt":"2020-08-25T11:18:25","guid":{"rendered":"http:\/\/giveback.danielmenzel.de\/?p=330"},"modified":"2020-08-25T13:19:51","modified_gmt":"2020-08-25T11:19:51","slug":"das-paragraph-zeichen-im-utf-und-iso-wirrwar-unter-perl","status":"publish","type":"post","link":"http:\/\/giveback.danielmenzel.de\/?p=330","title":{"rendered":"Das Paragraph-Zeichen im UTF und ISO WIrrwar unter Perl"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Mit einem Einzeiler kann man z.B. mit Perl und einem simplen regul\u00e4ren Ausruck Zeichen und Zeichenketten ersetzen. Jetzt habe ich recht lange gebraucht um mir das wieder nach langer Zeit vor Augen zu f\u00fchren.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ich dachte ein Paragraph-Zeichen<strong> \u00a7<\/strong>  ist in einem simplen Bash-Skript schnell ersetzt mit:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><code>perl -p -i -e 's\/\u00a7\/&amp;#167;\/g' $1<\/code><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ist es aber nicht. Das Teil macht nix. Auch ein Maskieren mit \\\u00a7 macht in meinem Fall nichts.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">&#8211;&gt; Mit &#8218;od&#8216; oder einem anderen Tool geschaut wie das Zeichenencoding ist:  247 (octal) = 167 (dezimal) = A7 (hexadezimal)<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Was &#8222;fast&#8220; ging ist:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><code>perl -p -i -e 's\/\\xA7\/&amp;#167;\/g' $1<\/code><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Nun sagt mit &#8218;xmllint&#8216; aber:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><code>parser error : Input is not proper UTF-8, indicate encoding !<\/code><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><code>Bytes: 0xC2 0x26 0x23 0x31<\/code><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Nochmal schauen: Da ist ein seltsames Zeichen hinzugekommen. Vermutlich liegt es daran, dass ich Perl nicht sauber mitgebe wie es sich mit entsprechendem Encoding verhalten soll.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">In diesem Fall pragmatisch gel\u00f6st mit zus\u00e4tzlichem:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><code>perl -p -i -e 's\/\\xC2\/\/g' $1<\/code><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Mit einem Einzeiler kann man z.B. mit Perl und einem simplen regul\u00e4ren Ausruck Zeichen und Zeichenketten ersetzen. Jetzt habe ich recht lange gebraucht um mir das wieder nach langer Zeit vor Augen zu f\u00fchren. Ich dachte ein Paragraph-Zeichen \u00a7 ist in einem simplen Bash-Skript schnell ersetzt mit: perl -p -i -e &#8217;s\/\u00a7\/&amp;#167;\/g&#8216; $1 Ist es &hellip; <a href=\"http:\/\/giveback.danielmenzel.de\/?p=330\" class=\"more-link\"><span class=\"screen-reader-text\">Das Paragraph-Zeichen im UTF und ISO WIrrwar unter Perl<\/span> weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[7],"tags":[],"class_list":["post-330","post","type-post","status-publish","format-standard","hentry","category-linux"],"_links":{"self":[{"href":"http:\/\/giveback.danielmenzel.de\/index.php?rest_route=\/wp\/v2\/posts\/330","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/giveback.danielmenzel.de\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/giveback.danielmenzel.de\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/giveback.danielmenzel.de\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/giveback.danielmenzel.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=330"}],"version-history":[{"count":2,"href":"http:\/\/giveback.danielmenzel.de\/index.php?rest_route=\/wp\/v2\/posts\/330\/revisions"}],"predecessor-version":[{"id":332,"href":"http:\/\/giveback.danielmenzel.de\/index.php?rest_route=\/wp\/v2\/posts\/330\/revisions\/332"}],"wp:attachment":[{"href":"http:\/\/giveback.danielmenzel.de\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=330"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/giveback.danielmenzel.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=330"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/giveback.danielmenzel.de\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=330"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}