元
現在、AI(人工知能)の大規模言語モデル(LLM)は、人間と同じようなテキストや画像を生成する能力を持つようになっている。
これらのAIモデルは、科学的なエッセイのような説得力のある文章を生成し、それが従来のピアレビュー(同分野の専門家による査読)を受けたときにどのように評価されるかについて、体系的な研究はまだ行われていない。
この点を明らかにするため、2024年に人間とAIの両方の参加者を対象とした競争的なエッセイコンテストが行われた。
エッセイのテーマは、脳卒中ケアと転帰(治療後の回復状況や予後など)に関する議論を呼ぶような内容である。
AIと人間が同じテーマでエッセイを作成し、その内容がどのように評価されるかをくわしくしらべてみたそうな。
人間の著者と4つの異なるAIモデル(LLM)を使って、脳卒中ケアと転帰に関する論争的なトピックについてエッセイを書かせた。
人間の著者によるエッセイは22本、AIモデルによるエッセイは合計12本で、AIエッセイは4つの異なるモデルから作成された。
これにより、合計34本のエッセイが生成された。
エッセイは、脳卒中の専門誌「Stroke」の編集委員会のメンバー(主に脳血管神経学者)によって評価された。
評価者たちは、エッセイの著者がAIか人間かを知らない状態で、それぞれのエッセイの質、説得力、トピックごとのベストエッセイ、そして著者のタイプ(AIか人間か)について評価した。
評価者のAIに対する専門知識のレベルは様々であった。
次のようになった。
・34本のエッセイ(人間による22本、AIによる12本)を38人のレビューアー(査読者)が評価した結果、人間のエッセイとAIのエッセイはほぼ同じ評価を受けた。
・ただし、AIのエッセイは特に「構成の質」においてより高く評価されたことが分かった。構成の質とは、文章の流れや論理的な展開、明確さなどを指す。
・また、著者がAIか人間かを特定することは非常に難しく、レビューアーたちが正確に識別できたのはわずか50%の確率であった。これは、AIと人間の文章を区別するのが非常に困難であることを示している。
・さらに、AIについての事前の経験があるレビューアーは、識別の精度が少しだけ向上したが、それでも確実ではなかった。
・多変量解析(複数の要因を考慮した統計的分析)の結果、著者の属性(AIか人間か)やエッセイの質を考慮した上で、説得力が高いエッセイであるほど「AIが書いたものである」と判断される傾向があった(調整後のオッズ比 1.53、95%信頼区間 1.09-2.16、P=0.01)。これは、AIによるエッセイが説得力を持つ場合、逆にAIが著者だと思われやすいことを意味する。
・また、AIが書いたと判断されたエッセイに対しては、「そのトピックで最も優れたエッセイ」と評価される確率が低くなるバイアス(偏見)があることもわかった。これにより、レビューアーが無意識にAI生成エッセイを低く評価する可能性が示唆された。
経験豊富な編集委員会のメンバーであっても、人間とAIのエッセイを区別するのは非常に難しいことがわかった。さらに、AIが生成したと見なされたエッセイに対しては、「ベスト・イン・トピック」(そのテーマで最も優れたエッセイ)として評価される確率が低くなる傾向があった。これには、AIが書いた文章に対する無意識のバイアスが影響していると考えられる、
というおはなし。
感想;
救急救命以外の医師をいますぐにすべてAIで代替すれば、きっとおおくの命が救われる。
さもありなん
「日本の99.9%以上の医師は、新型コロナウイルスのワクチンを少なくとも黙認した。これは後世に語り継がれるべき事実である。
当時の医師は、地域の人々から厚い信頼を寄せられ、また彼らの中には家庭で立派な親である者もいた。」edited by
GPT-4
予想外の人口減少が拡大中。2019年までの自然減傾向から予測される外挿値とくらべて、現在すでに100万人以上が「余計に」亡くなっている。