編集後記2023年04月期

今月書いた文章には、表記のゆらぎが相当あった理由について(ChatGPTと共に文章を校正しました)

今月掲載した記事には、表記のゆらぎがあり、読者が不安になるレベルだったと思います。語尾が不自然にていねいだったり、一人称が「僕」ではなく「私」だったりする文章がありました。また、別のメディアに転載するつもりなのかと疑ってしまうような文章構成になっているものもありました。

私がこれまで四半世紀以上培ってきた文章の芸風とは明らかに違うものが、文章のあちこちに見え隠れしていたと思います。これは、私がChatGPTを使用して文章を校正させたためです。

もちろん、一から文章を作成するのではなく、従来の私の文章をChatGPTによって校正させていました。しかし、ChatGPTに単に「以下の文章を校正して」と指示を出すだけでは、うまく校正してもらえないことがあります。そのため、プロンプトエンジニアリングを行っていますが、まだ完璧にチューニングできていないようです。

2023年4月時点での無料版のChatGPTは、「開けてみるまで何が出てくるかわからない、玉手箱」という状態だと思います。同じ命令、同じ制約条件、同じ文章をAIに与えても、毎回返ってくる答えが異なってくることがあります。時には、全くの赤の他人が書いたような文章が返ってくることもあります。

セキュリティの面でもずいぶん怪しい、というのが現状です。 私の実体験として、マジでChatGPTに個人情報などを書き込まないほうがいいです。AIが学習するとかいう次元より前に、「他人にその情報が見えちゃう」リスクの方が高いです。

少なくとも私としては、「校正する際に『僕』を『私』に書き換えないでほしい」「語尾を『です・ます調』に書き換えないでほしい」と思っていて、制約条件にそのことを書いています。ただしGPT3.5レベルだと、これを無視することがあります。日本語の読解力がまだ低いからでしょう。でも、時々覚醒して、その通りに動くこともあるため一貫性がないのです。
ひょっとしたら、月額20ドルのGPT4だったらもっとうまくいくかもしれません。しかし、うまくいかなかったらお金の無駄なので、今のところ有料サービスを利用する予定はありません。

ChatGPTのプロンプトは何度も作り直し、すでにバージョン10になっています。なにせ、AIの動作がムラっけがあるので、トライ&エラーがなかなかはかどりません。校正させる文章を短くすればよいのか、制約条件を減らせばよいのか、あれこれ試している最中です。

基本的に、現状のChatGPTは「~してはいけない」という禁止事項への対応は得意としていないようです。「~してください」という方向でAIの回答を導き、見当外れにならないよう回答の範囲を狭めてあげるのが良さそうです。しかし、そうだとわかっていてもやっぱり日本語による命令で、日本語による回答を得るのは難しいです。

そこまでして、校正スクリプトを何時間も、実際には10時間を超える時間をかけてこだわっているのは、たまにハッとするような文章を返してくるからです。

私は文章が冗長で、くどい内容になることが多いです。しかし、ChatGPTに校正をさせると、言葉の並びや接続詞を入れ替えることで、とても読みやすい文章に直してくれることがあります。その出来栄えを見ると、驚きと感動を覚えます。

そこで、ChatGPTをさらにチューニングして、AIが要約することを防ぐようにしました。ただ、無料版のChatGPTは入力文字数に制限があるため、1つの記事を分割して読ませる必要があります。そのため、前半部分の校正と後半部分の校正でレベルが異なることがあります。

残念ながら、AIが私の文章を完璧に書き直してくれることはできません。私の文章の出来が悪い原因は、書きっぱなしで一度も読み直さずにWebに公開していることです。ChatGPTを使うと、何度も自分の文章に手を加える必要があるため、あまり意味がないと感じます。

そこで、今後はこのようないびつな校正がされたままの文章を掲載することにします。現状では、私が狙った通りの校正を実現することができないため、一旦はこの営みを止めるつもりです。

将来的には、より実用的なAI文章校正機能が登場することが予想されます。そのような機能があれば、私は有償でも利用したいと思います。

現在、多くの「文章校正ツール」が存在しますが、私にとっては、誤字脱字や禁止用語の修正など、あまりワクワクする内容ではありません。もちろん、これらの機能は便利なのですが、自動的に補正してくれるわけではなく結局自分が手を動かす必要があります。また、私の文章をそのようなツールで読み込ませると、「助詞不足」などの指摘が出ることが多く、その対処は面倒なので、私は使用しません。

また、短文の記事全文を読み込ませ、「キャッチーなタイトルを考えてくれ」とChatGPTに依頼することもあります。

あわせて読みたい
息子が初めての広島風お好み焼きに挑戦!好き嫌い克服の秘訣とは? 僕が弊息子タケを初めて連れて行った広島風お好み焼きのお店について書く。 まず、お好み焼き屋は小さな子連れの家庭にとっては危険な存在だ。子どもがうっかり目の前の...

↑これなどがその例です。いやー、私、このタイトルは嫌いです。「こういうタイトルなら読んでみたいでしょう?」と足元を見透かしたようなネーミングセンス。最近のWeb記事でとても多く見られるパターンだし、実際私もクリックしがちです。でも、私自身がこういう芸風を望んでいるわけではないので、本意ではありません。特に「オカ・デウス」はもっと内省的な文章を書きたいと思って始めたカテゴリーなので、こういうタイトルは趣旨と違います。

とはいえ、私自身このサイトに一貫した信念を持っているわけではないので、「気に入らないけれど、あの文章からこれをよく考えついたな。それそのものは面白いから使ってみよう」と考え、採用しています。

(以上、ChatGPTによる校正が行われた上で、おかでんが表記の揺れを微調整した文章。おかでん作成、ChatGPT校正、おかでん微調整って手間だけかかって全然省力化が図れていない。しかも文章の分割とコピペは全部手作業だし)

英語サイトができた

英語サイトができました。

https://awaremi-tai.com/en

画面右上のメニューにも、言語切り替えリンクが設置されています。ただし、スマートフォンから見た場合には表示されない可能性があります。

そもそもこんな無謀なことを考えたのは、1つの事件があったからです。それは、4月上旬に、急に当サイトのアクセス数が激増したことです。何事だろう、ひょっとしたら何かの標的にされているのか?と警戒しましたが、そうではなく単に記事がバズったためでした。

あわせて読みたい
豊洲で安く食べられるランチがビュッフェだなんて この日、所要で江東区豊洲を訪れていた。 ビジネス街と高級タワマン、そして巨大商業施設「ららぽーと」がある職住商が一体となったエリア。東京でもちょっとめずらしい...

なぜこの記事がバズったのかは不明です。エゴサーチして調べるつもりはありません。あれこれ探した結果、批判など目にするのが嫌だからです。いずれにせよ、アクセス数はすごかったし、それにともなって広告収入も多かったため、欲が出ました。

ここ10年以上、アクセス数に対する欲は失せていたのですが、久々に欲が出ました。バズりやすい記事を書くのは僕の性格ではないため、書くつもりはありません。今やっている記事の掲載頻度向上と安定的な更新というのが一番誠実な対応なのですが、それだと僕がワクワクしません。

そこで手を染めたのが、ChatGPTによる文章校正と、そして多言語対応でした。

多言語対応。完全に舐めていました。

いちいち手作業で翻訳するのは無理なので、最初から機械翻訳に任せるつもりでした。ただし、たんにブラウザの拡張機能で日本語サイトをその場で翻訳して外国語で読めます、というレベルでは困ります。ちゃんと検索エンジンで検索ワードに基づいてヒットするような、れっきとした外国語ページを作りたいのです。

すると、当たり前ですが、1言語追加するごとにページ数は倍になるのでした。現在の awaremi-tai.com は 4,000 記事弱あるので、全部を英語対応にすると 8,000 記事になります。昔の記事はコンプライアンス的にアウトな内容が多いだろうから、すべてを翻訳しないとしても、1,000ページじゃ収まらないくらいの翻訳が新たに必要になります。

今の技術ならバババッと翻訳できるものだ、と思っていました。実際、そうやってバババッと翻訳して多言語対応してくれるツールは存在します。しかし、月額でお金がかなりかかるため、海外からのアクセスで収益化しようとしていない場合には、有料翻訳サービスを利用するのは無駄になります。少なくとも、このサイトは、多言語対応で収益化は無理なコンテンツであるため、有料翻訳サービスは絶対に使えません。

それでも無料でできる範囲でやってみよう、最近の記事だけでも翻訳してみよう、と考えて、作業を始めました。すると、すぐに後悔しました。こりゃあ面倒なことに足を突っ込んでしまったな、と。

記事の翻訳に取りかかる前に、ページのいたるところに出てくる日本語を翻訳しなければなりません。コーナー名など、機械翻訳できない場所がやたらと多いのです。

そして、本丸とも言える記事の翻訳。日本語から英語への翻訳、翻訳した英語の校正という2段階を、外部のサービスで行うので、コピペのバケツリレーが何度も発生します。しかも、無料サービスを利用しているため、文字数制限が厳しいので記事を細かく分割する手間がかかります。

有償サービスを契約して、翻訳の手間を少しでも減らせないかと考えましたが、文章の一括置換はやはり無理そうです。

たとえば、「タケ」という日本語は、翻訳すると「My son, Take」と翻訳されることもあれば、「Takeh」、「Takeshi」、「Bamboo」と訳されることもあります。つまり、翻訳結果がバラバラであるということです。登場人物の一人、「いし」も、「Ishi」、「Isi」といった表現に揺らぎがあり、三人称がsheだったりheだったりすることもあります。たしかに、「いし」が女性であるということは、翻訳ツールに学習させていないため、翻訳結果がブレるのは当たり前です。しかし、英語で読んでいる側は意味が不明瞭になってしまいます。

それでもまだよいのですが、料理店に行った記事には、料理名をはじめとして固有名詞が満載です。日本料理ならまだしも、海外料理の名前を英語にどのように直せばよいか、全く検討がつかないこともあります。たとえば、モンゴル料理店で飲んだ「チャチャルガン」という飲み物は、モンゴル語を日本語のカタカナに置き換えたものですが、このカタカナを英語で「Chacharugun」とそのまま翻訳するわけにはいかないでしょう。

当初、私は英語翻訳を「へべれけ紀行」の登山記、温泉記、および「胃袋至上主義宣言」の食べ物連載で行うつもりでした。それ以外は手が回らないし、英語にしても需要がないと考えています。しかし、現在量産されている最新の記事は少なくとも公開と同時に全て英語にしておきたいと思っているため、結果的には多くの「オカ・デウス」の記事が英語になっています。

本当は「オカ・デウス」は英語にしたくないコーナーです。海外から見て、僕が無意識の内に子どもに対してやっていることが海外では「幼児虐待」に見えるかもしれません。それでもしょうがない、最近の更新はオカ・デウスの記事ばっかりです。

このサイトの真のコンテンツは「アワレみ隊活動記録」です。その他のコーナーはこのコーナーのおまけに過ぎません。しかし、アワレみ隊が積極的に活動していたのは90年代から00年代のことで、この頃に書いた文章を2023年にもう一度スポットライトを当て、しかも英語に翻訳するといろいろ問題があるかもしれません。そのため、翻訳は今のところ考えていません。
冗談のつもりで過激なことを書いていることがたくさんありますし、会話文が多いため、翻訳が難しいでしょう。

過激な表現といっても、「死ね」といった言葉であればまだ許容範囲かもしれませんが、無意識のうちにマイノリティなどに対する差別的な発言が混じっている可能性が否定できません。昔は冗談として語っていいとされていたことでも、今ではNGとされるものがたくさんあります。日本語を日本語で書き直すことさえ大変ですが、英語に翻訳することはより危険な場合があります。

当初、「中国語(繁体字)」「中国語(簡体字)」「韓国語」も対応できれば・・・なんて思っていたけど、英語のトップページを作り始めて15分で、「あ、これは無理だ」と悟りました。英語ならまだ学校で習った程度の英語力でも翻訳のおかしさに気づけますが、中国語や韓国語になると判別がつかなくなります。諦めざるをえませんでした。

過去の文章を英語に翻訳するのはほどほどにとどめておくつもりです。今これを書いていて思ったけど、「胃袋至上主義宣言」も多分面倒だからやめておいた方が良さそうです。記事の中には全メニュー制覇やお店食べ歩きなどの内容が多く、固有名詞が多く使われるためです。

では、未来の記事はどうでしょうか。すでに日本語を書く段階で、私の中で変化が出始めています。これまでのように何も考えずに書くのではなく、翻訳されることを意識した文体を使うようになっています。具体的には、主語がない文章をできるだけ減らし、口語体やネットスラングの利用を控えるようにしています。

たとえば「オカ・デウス」では、これまで一つの記事の中に何度も「弊息子タケ」という言葉が出てきましたが、最近の記事では最初の1回だけ「弊息子タケ」という言葉が出てきて、それ以降は「彼は」という表現を使うようにしました。翻訳がややこしくなるのを防ぐためです。

英語の翻訳を意識した文章を書くと、私独特の芸風や勢いが完全に削がれますが、翻訳の際には楽になります。どうしましょうか?

たぶん、遠くないうちに英語翻訳や英語サイトの運営が面倒くさくなって中断すると思います。それまでの間、しばらくこのやり方で続けてみようと思います。さて、いつまで続くことやら。

(2023.04.30)

コメント

コメント一覧 (2件)

  • 表記の揺れや、表現の変化については気付いており、どうしたんだろう?と思っていました。
    正直なところを言えば、90年代からこちらのページを読み続けて来た感覚で読むと違和感を覚える点もあり、あまり好ましく思っていなかったのも事実です。ただ、「あれ?と思った変化がのちの記事では元に戻っている」「同じような時期に書かれた文章であってもまさに『揺れ』のように安定しない」ことから、芸風(適当な表現が思いつかないのでこの言葉を使います。文体、というほどカタいニュアンスではないという意味で)を変えようとしているよりは何かしらの実験的なアレかな?と思っていたところ。
    ただ、「何か意図的なものですか?」とコメントで聞こうと思ってなんとなく聞けなかったのは、すみません、正直に書きますがメンタル面で何かしら不安定になることがあったのかも?という可能性がほんのコンマ数パーセント、脳裏にあったからです。
    でも違うな、とすぐに思いましたけどね。過去の例から言っても、思考が(ご自分で言及されてることが多かったように)ヤバい感じになってることはあっても、それを記述する文章のスタイルが変化することはなかったですし。
    さらにオカ・デウスの「キャッチーなタイトル」が決定打で、「あ、これ意図はわからないけど絶対わざとやってるやつだ」と確信した次第。気付くの遅いな。
    そのうち編集後記で何かしら説明があるかも、と思っていたところにこの記事でした。
    なるほどー、AIでしたか。それはちょっと想定外だった、というと色々な情報に疎すぎるのがバレますが。
    人力じゃなかったんですね。
    自分では試したことがないのではっきりしたことは言えないんですが、そういった技術に並々ならぬ関心があってバリバリ使い倒してる知人曰く、3.5と4は完全に別物とのこと。4を使ったら3.5なんて子供のオモチャ同然、もう絶対戻れない、なんて話してました。

  • 四半世紀も文章を書き続けていると、何か刺激が欲しくなる。文章そのものは変えようがないので、文章周辺の技術的要素、たとえばブログやインターネットの技術に追随するとか、画像処理とか。
    過去何度となく、「サイトリニューアルのため数ヶ月更新ストップ(または画面が真っ白)」ということもあったのはご存知のとおり。

    で、今回は「英語のサイトも作ってみよう」「ChatGPTを編集者に見立ててあれこれやってみよう」の二本柱だった。

    AI任せの文章校正+雑な僕の再チェックの文章をそのまま掲載しているのは、僕が細かく見直すだけの時間の余裕と根気がないからだ。
    そしてなによりも、「2023年の3月頃は、荒削りのAIを使って文章の校正を試みた」という記録が残ることが大事だと思っている。この文章が10年後20年後まで残る(残す)んだとすれば、後から読み返して面白く感じるはずだ。

    今、僕が昔の文章を読み返すと、「うわあ・・・」と頭を抱える文体を多用している。でも、そういうのも記録の一つだ。

    僕のような凡人が書いたブログに何の価値があるかというと、「他の人たちよりも圧倒的に長い期間、文章を書き続けて更新し続けていること」だ。クオリティはともかく、期間だけはすごく長い。
    なので、その時代ごとの特性というのを文章に滲ませるというのはアリだと思う。

    なお、ChatGPTによる校正は、早速諦めた。

    文章のクオリティが一定にならないのが最大のネックで、結局ChatGPTが作った文章をもう一度僕がリライトしなければならないからだ。
    極力僕のクセを残した文章のまま校正してもらうと、今度は原文ほぼそのまんま、という状態になってチューニングが難しすぎる。

    文章のタイトル決めも、GPT3.5レベルだとだいたいパターン化していて面白みに欠けるので利用をやめた。

    そのかわり、英語ページは作りづつけているので、日本語そのものは以前の僕の文章とくらべて少し変容しているはずだ。翻訳しやすいように、言葉の主語が文中に何度も登場する。日本語だったら本来省略できるところでも、わざわざ主語を使っているのはそういう理由だ。
    機械翻訳の作業がこのあとあることを考えながら日本語を書いているので、まだ頭が慣れていない。なので、若干ぎこちない日本語だ。

    そもそも、流暢な日本語というのは、どんどん余計なものを削ぎ落として勢いでスラスラと書いたものだ。文法として少々間違っていても問題がない。でも、翻訳を意識した文章は、どこか窮屈だ。この折り合いの付け方を模索している。

    勝間和代さんは、文章を書くときはAndroidスマホに喋りかけ、Googleの音声認識で文字起こしをさせているという。これはすごいことだ。僕も口述筆記には憧れて、過去に何度もトライしたことがある。でもことごとく敗北している。

コメントする

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください