🖊

自動翻訳のために行末の改行記号を削除する

2024/05/17に公開2

英語で書かれた文章を自動翻訳にかけて読む機会が増えました。言語文化としての良し悪しはともかく、大量の技術文献やニュースを裁く方法として非常に効果的です。

しかしながら、自動翻訳は改行記号を文末ととらえてしまいます。そのため、改行記号で整形した古い文書などは、翻訳結果がめちゃくちゃになります。本来ならこういう問題ほどコンピュータが自動で対処してほしいのですが、それがかなわないので改行文字をVS Codeで取り除いています。

以下、自分へのメモを兼ねて説明します。

VS Codeでの作業

最初に翻訳したいテキストをコピーしてVS Codeの新しいファイルに貼り付けます。

次にCtrl-Hで置換ツールを表示させ、以下の設定を行います(置換先は$1の後にスペースを1文字置いています)。

項目 正規表現
検索 (.)\n
置換先 $1

改行を取り除きたい範囲を大雑把に選択して、Alt-Hを押すと、その範囲だけが置換作業対象となります。

改行を置換で取り除いたら、余計に取り除かれた空行を回復するために、以下の設定で再度置換します。

項目 正規表現
検索 \n
置換先 \n\n

あとは文書を.txtファイルとして保存します。

ファイルを好みのブラウザで開いて翻訳してください。

原文と処理結果

サンプルはRFC 3の1段落です。

These standards (or lack of them) are stated explicitly for two reasons.
First, there is a tendency to view a written statement as ipso facto
authoritative, and we hope to promote the exchange and discussion of
considerably less than authoritative ideas. Second, there is a natural
hesitancy to publish something unpolished, and we hope to ease this
inhibition.

処理前

これらの基準 (または基準の欠如) が明示的に記載されている理由は 2 つあります。
第一に、書面による陳述は事実どおりのものとみなされる傾向がある。
権威あるものであり、私たちは意見の交換と議論を促進したいと考えています。
権威あるアイデアよりもかなり劣ります。 第二に、自然なことがあります。
洗練されていないものを公開することをためらう傾向があり、これを緩和したいと考えています。
阻害。

処理後

これらの基準 (または基準の欠如) が明示的に記載されている理由は 2 つあります。 第一に、書面による声明は事実上権威あるものと見なされる傾向があり、私たちは権威ある考えよりもはるかに少ない意見の交換や議論を促進したいと考えています。 第二に、洗練されていないものを公開することには当然の躊躇があり、私たちはこの抑制を緩和したいと考えています。

大幅に翻訳品質が向上しました。

サンプルとして引用した文書と翻訳ツール

RFC 3は以下で見ることができます。
https://datatracker.ietf.org/doc/html/rfc3

翻訳にはFirefoxのTWPを使いました。
https://github.com/FilipePS/Traduzir-paginas-web

Discussion