AI: テクノロジーが誤解を助長している方法

2021 年 1 月、人工知能研究所の OpenAI は、Dall-E と呼ばれるソフトウェアの限定バージョンをリリースしました。このソフトウェアを使用すると、ユーザーは頭に浮かんだ画像の簡単な説明を入力することができ、少し間を置いた後、ソフトウェアは、雇用されたイラストレーターまたはアドビに精通したデザイナーにふさわしい、彼らの提案のほとんど不気味なほど良い解釈を提供しました。より速く、無料で。たとえば、「アントワーヌ・ド・サン=テグジュペリが描いた翼を持って月の上を飛んでいる豚」と入力すると、1、2 分の処理の後で、星の王子さまの作成者のしみがありますが認識できる水彩ブラシを思い起こさせる結果が得られました。

 

AI DALL-E スクリーンショット

 

約 1 年後、ソフトウェアがより広くリリースされると、インターネットは暴走しました。ソーシャル メディアには、あらゆる種類の奇妙で不思議な作品が殺到し、空想と芸術的スタイルがあふれています。そして数か月後、今度は音声と、これも OpenAI によって作成された ChatGPT という製品で再び起こりました。ChatGPT に詩人のアレン ギンズバーグ スタイルのヨブ記の概要を作成するように依頼すると、数秒で適切な試みが提供されます。ギンズバーグの詩「遠吠え」をビジネス コンサルタントのスライド デッキ プレゼンテーションの形式でレンダリングするように依頼すると、そのようになります。これらのプログラムが言葉とイメージで奇妙な新しい世界を呼び起こす能力は、聴衆を喜ばせました。

 

後者の能力は、「プロンプト エンジニアリング」として知られるようになりました。これは、システムが最も明確に理解できる言葉で自分の指示を定式化し、期待に最も近い、またはおそらくそれを超える結果を返す技術です。技術コメンテーターは、コードのない未来では、インテリジェント システムと対話する最も強力な方法が人間の言語を介して行われる場合、迅速なエンジニアリングが切望され、高給の職務記述書になるだろうとすぐに予測しました。コンピュータ コードを描画したり記述したりする必要はもうありません。希望を機械にささやくだけで、後は自動で処理してくれます。AI の創造の限界は、私たち自身の想像力の限界です。

Dall-E の模倣者とさらなる開発がすぐに続きました。Dall-E mini (後に Craiyon に改名) は、OpenAI のプライベート サービスに招待されていない人々に、同様の、それほど強力ではないが非常に印象的なツールをいじる機会を与えました。一方、独立系営利企業の Midjourney とオープンソース プログラムの Stable Diffusion は、画像の分類と生成に異なるアプローチを使用して、本質的に同じ目標を達成しました。数か月のうちに、この分野は短いビデオや 3D モデルの生成へと急速に進化し、学術部門や愛好家のプログラマー、ソーシャル メディアの確立された巨人、そして現在は AI である Facebook (別名メタ) から新しいツールが毎日登場しています。、グーグル、マイクロソフトなど。研究、ソフトウェア、および競争の新しい分野が開かれました。

Dall-E という名前は、ディズニーの Wall-E に登場するロボットの主人公と、スペインのシュールレアリスト、サルバドール・ダリを結びつけています。一方では、崩壊した人類文明の瓦礫を一掃する、大胆で自律的で愛らしい小さな機械の性格を持っていますが、他方では、最も一般的な口癖が「模倣するものを何も求めない者は何も生み出さない. " 「重要なことは、混乱を取り除くことではなく、作成することです。」どちらも、AI 画像ジェネレーターとして知られるようになったさまざまなツールの立派な名前です。

消費者向け AI の新しい波

この 1 年間、画像生成と ChatGPT などのツールの両方を含む消費者向け AI の新しい波は、あらゆる人の想像力をかき立ててきました。また、多くの努力にもかかわらず、ブロックチェーンまたは仮想現実 (「メタバース」) のいずれかが私たち全員が望む未来であることを私たちのほとんどに納得させることができなかった大規模なテクノロジー企業の運命を後押ししました. 少なくとも、これは 5 分間ほど楽しいと感じます。そして「AI」には、巨大なロボットや超人的な頭脳を連想させる、まばゆいばかりの SF の質が今も残っており、真に新しいものへの露出はほとんどありません。もちろん、ボンネットの下で起こっていることは決して新しいことではありません。

数十年間、人工知能の学問分野に大きなブレークスルーはありませんでした。ニューラル ネットワークの基礎となる技術 (物理的な脳の働きに基づく機械学習の手法) は理論化され、1990 年代にはすでに実用化されていました。それでも、それを使って画像を作成することはできましたが、それらはほとんど形のない抽象化であり、感情的または美的共鳴がほとんどない色の塊でした. 最初の説得力のある AI チャットボットの登場はさらに前のことです。1964 年、マサチューセッツ工科大学のコンピューター科学者であるジョセフ ワイゼンバウムは、Eliza というチャットボットを開発しました。エリザは、「人中心」の心理療法士をモデルにしています。あなたが言ったことは何でも反映されます。

初期の AI は世界についてあまり知りませんでした。学術部門には、それを大規模に使用するための計算能力がありませんでした。今日の違いはインテリジェンスではなく、データとパワーにあります。大手テクノロジー企業は 20 年を費やして、文化や日常生活から膨大な量のデータを収集し、それを処理するためのますます強力なコンピューターで満たされた、電力を大量に消費する巨大なデータ センターを構築してきました。かつてはぎくしゃくした古いニューラル ネットワークが超大国になり、私たちが目にしている AI の急増はその結果です。

AI 画像生成は、何百万ものタグ付き画像の編集と分析に依存しています。つまり、コンテンツの何らかの説明がすでに提供されている画像です。これらの画像と説明は、ニューラル ネットワークによって処理されます。ニューラル ネットワークは、画像の具体的で深いニュアンスのある品質 (形、色、構図) を特定の単語やフレーズに関連付けることを学習します。次に、これらの品質が互いに重ね合わされて、単純なプロンプトによって生成された何十億もの異なる重み付けの関連付けに基づいて、形、色、および構成の新しい配置が作成されます。しかし、これらすべての元の画像はどこから来たのでしょうか?

ドイツの非営利団体である LAION によって公開されたデータセットは、大規模な AI モデルのトレーニングに使用される画像テキスト コレクションのタイプの良い例です (それらは Stable Diffusion と Google の Imagen の基礎を形成しました)。もう 10 年以上にわたり、別の非営利 Web 組織である Common Crawl は、公開されている World Wide Web のインデックスを作成して、アクセスできる限り保存し、毎月最大 30 億ページをアーカイブしています。LAION の研究者は、Common Crawl データの一部を取得し、「alt」タグ、テキスト行、または Web ページ上の画像を説明するために使用される何かを含む各画像を取り出しました。

Lapineというデジタルアーティスト
 
2022 年 9 月、サンフランシスコを拠点とする Lapine という名前のデジタル アーティストは、Have I Been Trained というツールを使用して、アーティストが自分の作品が AI 画像モデルのトレーニングに使用されているかどうかを確認できるようにしました。Have I Been Trained は、アーティストの Mat Dryhurst と Holly Herndon によって作成されました。彼ら自身の作品により、アーティストの作品が AI に取り込まれる方法を探求することになりました。Lapine を使用して LAION データベースを検索すると、自分の顔の画像が見つかりました。彼女は、まれな遺伝子疾患の治療中に医師が撮影した写真から、この画像をたどることができました。写真は彼女の臨床文書の一部として撮影されたものであり、彼女はその使用を医療記録のみに制限する文書に署名しました。関与した医師は2018年に亡くなりました.どういうわけか、これらの私的な医療画像はオンラインになり、Common CrawlのアーカイブとLAIONのデータセットにありました. 画像の意味と新しい画像の作成を学び、最終的にニューラル ネットワークに入りました。私たちが知っている限りでは、サン=テグジュペリ スタイルの豚のまだら模様のピンク色のテクスチャーは、微妙ではありますが、がん患者の生の肉からブレンドされた可能性があります。

サン=テグジュペリ風ピギー

「これは、盗品を手に入れることとデジタルで同等です。誰かが私の亡くなった医師のファイルから写真を盗み、インターネットのどこかに行き着き、それがこの記録にこすり落とされたのです」とラピーヌ氏は Ars Technica に語った。 . そして、それはすべての写真、医療記録に当てはまります。そして、将来の悪用の可能性は非常に高いです」(彼女の Twitter アカウントによると、Lapine は Dall-E のようなツールを使用して自分のアートを作成し続けています)。

この種の公的に利用可能な AI はすべて、画像であれ言葉であれ、この種の多くのデータ駆動型アプリケーションは、既存の文化のこの膨大な流用に基づいており、その程度はほとんど理解できません。公立か私立か、合法かどうかに関わらず、これらのシステムによってまとめられたほとんどのテキストと画像は、「フェアユース」のあいまいな領域にあります (米国では許可されていますが、EU では完全に違法ではないにしても疑わしいものです)。高度なニューラル ネットワークのほとんどの操作と同様に、Lapine のようなまれな遭遇を除けば、それらが外部からどのように機能するかを理解することは本当に不可能です。   しかし、確かなことは、  この種の AI の結果は、魔法のようなものとはかけ離れているということです。

AI独自のART

AI による画像とテキストの生成は、純粋に原始的な蓄積です。  シリコン バレーの一部のテクノロジー企業とその億万長者の所有者を豊かにし、発展させるために、多くの人の労力を収用しています。これらの企業は、私たちの生活の中で最も個人的で創造的な分野を含む、日常生活のあらゆる側面に干渉することで利益を上げています。私たちの秘密の情熱、プライベートな会話、似顔絵、夢などです。土地所有者や強盗男爵がかつて共有地を取り囲んだのと同じように、彼らは私たちの想像力を取り囲みました。そうすることで、人間の経験の新しい領域が開かれ、すべての人間の知識にアクセスできるようになり、新しいタイプの人間のつながりが生まれると約束しました。

AI イメージングの奇妙さは、出力と入力の両方にあります。あるユーザーは無意味な表現を入力しようとしましたが、Dall-E mini が「Crungus」が何であるかを非常によく理解しているように見えて混乱し、少し不快になりました。様のフィギュアを製作。クルングスは、プログラムの想像力の中で非常に明確だったので、簡単に操作できました。他のユーザーは、古代のクルングスのタペストリー、ローマ様式のクルングスのモザイク、クルングスの油絵、さまざまな有名人を抱きしめるクルングスの写真の画像をすぐに提供しました。インターネット、「セクシー」クランガス。

では、クランガスとは誰または何ですか?Twitter ユーザーはすぐに彼を「最初の AI cryptid」と呼びました。この場合、ビッグフットのような生き物は、AI の想像力の未知の領域に存在します。システムがどのように機能するかについての理解が限られていることを考えると、これが現時点で得られる最も明確な答えです。これらのニューラル ネットワークが「考える」方法は本質的に非人間的であるため、その意思決定プロセスを調べることはできません。それは、人々が思考を順序付ける歴史的、感情的な方法とは対照的に、信じられないほど複雑で数学的な世界の順序付けの産物です。クルングスは、AI の世界モデルから出現する夢であり、何十億もの参照で構成されています。これらの参照は、その起源を逃れ、人間の経験から切り離された神話上の人物に融合しています。どっちがいい、驚くべきことですが、ここで私たちは誰の夢を描いているのでしょうか? この悪夢を生み出したのは、人間文化のどの構成、それに対するどのような見方ですか?

同様の経験は、否定的なプロンプトを実験していた別のデジタル アーティストによって経験されました。アーティストが「Brando::-1」と入力すると、システムは DIGITA PNTICS というビデオ ゲーム会社のロゴのようなものを返しました。これが、システムの世界観の複数の次元にわたってマーロン・ブランドの反対である可能性があることは、十分に合理的であるように思われます. しかし、彼らが「DIGITA PNTICS skyline logo::-1」と入力して逆方向に行ったことを確認したところ、はるかに奇妙なことが起こりました。すべての画像は、アーティストが Loab と名付けた、目がくぼんで頬を紅潮させた不吉な女性を示していました。発見されると、Loab は異常に気がかりなほどしつこく見えました。画像をプログラムに再フィードすると、

Loab とおそらく Crungus についての説明は次のとおりです。マシンの想像力がどのように機能するかを想像するのは非常に難しいですが、形があると想像することは可能です。この形は決して滑らかでもきれいな丸みでもありませんが、谷と山、山と谷、情報が豊富なエリア、機能がまったくないエリアがあります。情報量の多いこれらの領域は、システムが多くのことを「知っている」連想ネットワークに対応しています。たとえば、人の顔、車、猫に関連する領域は、インターネット全体を調査して見つかった画像の分布を考えると、非常に密集していると想像できます。

AI 画像ジェネレーターは、画像を作成するときにこれらの領域に最も依存します。しかし、否定的なプロンプト(または実際には無意味なフレーズ)が使用されると、あまり訪問されない場所が他にもあります. そのようなクエリに答えるために、マシンはより難解で安全性の低い接続に頼らなければならず、おそらくその知識全体から反対のことを推測することさえあります. ここ奥地にはローブとクランガスがいます。

それは満足のいく理論ですが、なぜクランガスとローブがこのように見えるのかについて、いくつかの不快な疑問が生じます。なぜ彼らは恐怖と暴力に傾き、なぜ悪夢をほのめかすのか。AI 画像ジェネレーターは、人間の視覚文化をすべて理解し複製しようとする試みの中で、私たちの最も暗い恐怖さえも再現したようです。おそらくこれは、これらのシステムが人間の意識を模倣するのに非常に優れていることを示しているにすぎません. もしそうなら、これらは私たちが独自のイメージで構築するマシンの永続的なコンポーネントになることを認めなければなりません. そのような強迫観念や危険から逃れることはできず、人間存在の現実を緩和したり構築したりすることはありません。

これは重要です。なぜなら、AI イメージ ジェネレーターは、以前のすべてのテクノロジが行ったことを実行するだけでなく、さらに先に進むこともあるからです。白人の顔しか認識しないウェブカメラや、低所得地域を包囲する予測警察システムなど、作成者の偏見や偏見を再現します。AI のパフォーマンスの規模は、チェスや囲碁をプレイしたり、交通ルールを守ったりするパズルやチャレンジの狭い領域から、想像力と創造性のはるかに広い領域に移行します。

AI の「創造性」の主張は誇張されているかもしれませんが (画像生成には真の独創性はなく、非常に熟練した模倣と模倣のみです)、これは、長い間熟練者の特権と考えられてきた、多くの一般的な「芸術的」タスクを実行できないという意味ではありません。イラストレーターやグラフィック デザイナーからミュージシャン、ビデオグラファー、さらにはライターまで、さまざまな職業に就いています。それは大きな変化です。AI は現在、感情、感情、気分の根底にある経験に関与しており、これにより AI はより深く、より説得力のあるレベルで世界を形成し、影響を与えることができます。

AIと人間の創造性が相互作用するかもしれない

2022 年 11 月に OpenAI によって導入された ChatGPT は、AI と人間の創造性がどのように相互作用するかについての私たちの理解を変革し続けてきました。チャットボット (人間の会話を模倣するプログラム) として構成されている ChatGPT は、会話以上のことができます。プロンプトが表示されると、動作するコンピューター コードを記述し、数学の問題を解決し、書評から学術論文、結婚式のスピーチ、法的契約まで、一般的なライティング タスクを模倣することができます。

たとえば、電子メールやエッセイを書くのが難しいと感じる人にとって、このプログラムがどのように役立つかだけでなく、画像ジェネレーターのように、これらのタスクで生計を立てている人の代わりにどのように使用できるかがすぐに明らかになりました. 多くの学校や大学は、学生がエッセイを書くために ChatGPT を使用するのではないかとの懸念から、ChatGPT の使用を禁止するポリシーをすでに導入しています。一方、学術雑誌 Nature は、このプログラムが実施された研究著者と見なされない理由を説明するポリシーを公開しなければなりませんでした (同意は得られません)。責任を問われることはありません)。しかし、教育機関自体もこのツールの不適切な使用を免れているわけではありません。ミシガン州の学校での銃乱射事件の後、お悔やみとアドバイスの手紙を発行したとき、学生に衝撃を与えました。この手紙は、コミュニティ、相互の尊重、団結の価値について語っていますが、最後のメモは、それが ChatGPT によって書かれたことを示していました。機械の介入がより深い思考を必要とする生活の多くの分野があるようです。相互の尊重と一体感、最後のメモはChatGPTによって書かれたと述べました-それは道徳的に間違っており、多くの人にとってどういうわけか間違っているか不気味であると感じました. 機械の介入がより深い思考を必要とする生活の多くの分野があるようです。相互の尊重と一体感、最後のメモはChatGPTによって書かれたと述べました-それは道徳的に間違っており、多くの人にとってどういうわけか間違っているか不気味であると感じました.

すべてのコミュニケーションを ChatGPT に置き換えるのが不適切であるとすれば、ChatGPT は一種の巧妙なアシスタントになりつつあり、利用可能な知識の泥沼を抜けて探している情報に私たちを導くという明らかな傾向があります. Microsoft はこの方向のパイオニアであり、しばしば軽蔑されていた Bing 検索エンジンを ChatGPT を使用したチャットボットとして再構成し、その人気を大幅に高めました。しかし、想像できるほぼすべての問題についてChatGPTに相談しようとするオンライン(およびジャーナリズム)のラッシュにもかかわらず、ChatGPTと知識自体の関係は少し不安定です.

ChatGPT との最近の対面でのやり取りは次のようになりました。私は彼女に、興味のある新しい分野に基づいて読むべき本をいくつか提案するように頼みました: 多民族民主主義、政治的意思決定に人間以外の生き物を巻き込むという考え. これは、このツールの最も便利なアプリケーションです。そしてChatGPT義務。それは、この新しい興味のある分野を深く掘り下げた数冊の本のリストを私に与え、説得力のある人間の言葉でそれらを読むべき理由を説明しました. それはすごかった!しかし、リストされた 4 冊の本のうち実際に存在することが判明したのは 1 冊だけであり、ChatGPT がさらに探求すべき概念のいくつかは、

ChatGPT は本質的に右翼なので、そうはなりませんでした。それは本能的にバカだからです。それはインターネットのほとんどを読んでおり、人間のスピーチがどのように聞こえるべきかを知っていますが、現実とは何の関係もありません. それらはほぼ正しいように聞こえる夢のフレーズであり、正直なところ、彼の話を聞くことは、誰かの夢を聞くのと同じくらい興味深いものです。理にかなっているように聞こえるものを生み出すのは非常に得意であり、食事の大部分を構成する決まり文句や平凡な表現を生み出すのが最も得意ですが、実際の世界と有意義に関連付けることはできません。これが反響や意識の近似でさえあるふりをする人を信用しないでください。(この作品が発売された頃、

このタイプの AI が実際に知識があり、有意義であると信じることは、非常に危険です。集団的思考の井戸と私たちの考える能力をまったく汚染するリスクがあります。テクノロジー企業が示唆するように、ChatGPT クエリの結果がオンラインで知識を検索する人々への回答として提供され、一部のコメント作成者が示唆するように、ChatGPT が教育ツールとして教室で使用されている場合、幻覚は起こります。永続的な記録に入り、私たちとより合法的で検証可能な情報源との間に事実上入り込み、両者の間の境界線がぼやけて見えなくなるまで. さらに、個人としての私たちの能力 私たち自身のために知識を探求し、批判的に評価することは、これまで以上に必要とされています。特に、テクノロジー企業が情報を広める方法にすでに損害を与えているためです。不完全にプログラムされたマシンの夢に完全な信頼を置くことは、そのような批判的思考を完全に放棄することです.


 AI テクノロジーは地球にも悪影響を及ぼします。2019 年に発表された研究によると、単一の AI モデルをトレーニングすると、284 トン以上の二酸化炭素を排出する可能性があります。これは、製造を含めた平均的なアメリカ車の全寿命のほぼ 5 倍に相当します。これらの排出量は、今後 5 年間で 50% 近く増加すると予測されています。地球が温暖化し続け、海が酸性化し、山火事が発生し、暴風雨が引き起こされ、種が絶滅に追いやられているからです。今日実践されている人工知能よりも愚かなものを想像するのは難しい.

それでは、一歩後退しましょう。これらの現在の「人工」「知性」の化身がそれほど退屈である場合、代替手段は何ですか? 私たちを搾取したり、悪用したり、誤解を与えたり、置き換えたりしない、情報を分類して伝達するための強力なテクノロジーを想像できますか? はい、できます。現在の AI の波を定義する企業の電力ネットワークから抜け出してしまえば。

実際、企業の定着した力を迂回して、特定のコミュニティに利益をもたらすために AI が使用されている例はすでにあります。先住民族の言語は世界中で脅威にさらされています。国連は、2 週間ごとに 1 人が行方不明になると推定しており、これらの行方不明により、何世代にもわたる知識と経験がもたらされます。この問題は、何世紀にもわたる植民地主義と人種差別的な同化政策の結果であり、機械学習言語モデルの優位性が高まることで悪化しています。機械学習言語モデルは、人気のある言語がその力を高め、あまり知られていない言語がその名声と専門知識を奪われていることを保証します.

ニュージーランドのアオテアロアでは、テ ヒク メディアと呼ばれるマオリ語で放送している小さな非営利ラジオ局が、さまざまな言語がテクノロジーでどのように表現されているかというこの矛盾に対処することを決定しました。彼の 20 年以上にわたる放送の膨大なアーカイブは、幅広いイディオム、スラング表現、およびその多くがもはや誰も話していない独自のイディオムを表しており、デジタル化されましたが、言語学者や言語研究者が使用できるように転写する必要がありました。マオリのコミュニティ。それに応じて、ラジオ局は独自の音声認識モデルをトレーニングして、アーカイブを「聞いて」文字起こしを作成できるようにすることを決定しました。

次の数年間で、オープンソース テクノロジと自家製のシステムを使用して、Te Hiku Media はほとんど不可能なことを達成しました。それは、独自の言語コミュニティが構築および所有する高精度のマオリ語音声認識システムです。それはソフトウェアの費用以上のものでした。ステーションは、見つけたすべてのマオリ コミュニティ グループに連絡し、モデルのトレーニングの要件である注釈付きのスピーチのコーパスを提供するために、事前に作成されたステートメントを話していることを録音するよう依頼しました。

最も多くの文章を提出した人には賞金がありました.1人の活動家であるテ・ミヒンガ・コメネは、一人で4,000の文章を記録しました.地域社会・共同体。数週間以内に、86% の精度で録音された音声を認識するモデルを作成しました。これは、アーカイブ全体の文字起こしを開始するのに十分な精度です。

Te Hiku Media の成果は、現在、カナダ南東部のモホーク族とハワイ先住民による同様のプロジェクトに取り組んでいる他の先住民グループへの道を開きました。また、先住民族の言語、および他の形式の先住民族の知識との関係におけるデータ主権の原則も確立しました。国際的な営利企業が独自のモデルの構築を支援するためにマオリ語の話者に目を向け始めたとき、Te Hiku Media はこれらの取り組みに反対するキャンペーンを行い、次のように主張しました。サービスとして私たちに言語を返します。」


「データは植民地化の最後のフロンティアです。Te Hiku のすべての作品は、Kaitiakitanga ライセンスとして知られているライセンスの下でリリースされています。これは、言語モデルやその他のプロジェクトに入ったすべてのデータが、それらを作成したコミュニティの所有物であり続けることを保証する法的保証です。この場合、 、彼らの支援を提供したマオリ語話者 - そして彼らは彼らのティカンガ(マオリの慣習とプロトコル)に従って、彼らが適切だと思うように彼らにライセンスを与えるかもしれないし、与えないかもしれません. このように、マオリ語は、デジタル植民地主義のシステムに逆らい、変革しながら復活しつつあります。

現在の「人工」「知能」の波の教訓は、企業が想像する知能は悪いものだということだと思います。あなたの世界観が、利益の最大化が美徳の王であり、すべてが株主価値の基準によって保持されるべきものである場合、あなたの芸術的、想像的、美的、感情的な表現はもちろん惨めに貧弱になります. 私たちは、使用するツール、消費するメディア、住んでいるコミュニティにおいて、より良いものに値するものであり、それに参加するために最善を尽くすことができる場合にのみ、私たちが値するものを手に入れることができます. そして、彼らがあなたを怖がらせないようにしてください - それらは実際にはそれほど複雑ではありません.   Ursula K. Le Guin は   次のように書いています。

 

 

コメントを投稿

0コメント
コメントを投稿 (0)

#buttons=(Accept !) #days=(20)

当社のウェブサイトでは、Cookie を使用してエクスペリエンスを向上させています。 詳細
Accept !