高度な技術にも関わらず、AIはまだ「burrito」を正しく綴れない!?
ぴかぴかの夜、街の看板が「hello」と挨拶するビジーな道路脇、その光景はまるでAdobe Fireflyの写真のよう。AIはSAT試験を余裕でクリアし、チェスのグランドマスターを打ち負かし、コードのデバッグをあっという間にこなすけれど、中学校のスペルビー(スペリングコンテスト)に出たら、”diffusion”と言う間にKOされちゃうんだって。なんでAIってスペルがこんなにも苦手なの?
- メキシコレストランのメニューを作ってってDALL-Eに頼むと、「taao」、「burto」、「enchida」といったおいしそう?なアイテムが登場するけど、実際はスペルミスのオンパレード。
- ChatGPTに10文字で「A」も「E」も含まない単語を考えてって言うと、「balaclava」とか言い出すし、InstagramのAIに「new post」ってステッカーを作ってもらったら、家族向けじゃない何かが出てきたって!
画像より文字に弱い?AIの挑戦
画像生成モデルは車や人の顔なんかは得意なんだけど、細かいもの、例えば指や手書き文字には苦手意識が…。画像生成AIは、ノイズから画像を再構築するdiffusionモデルを使ってるんだけど、このプロセスでは、画像のごく一部を占める文字なんかは、パターンとして認識しにくいんだって。
サブタイトル: 文字再生の難しさと、それに挑むAI
- AIは学習データに基づいて、何かを再現しようとするけど、実際には「hello」が「heeelllooo」じゃないことや、人間の手が通常五本の指を持っていることなど、当たり前のルールを知らない。
- 昨年まで、これらのモデルは指の表現にも苦戦してたけど、それと同じ問題が文字にも。手や指は改善されつつあるけど、文字はもっと複雑で、すぐには解決しないかもね!
AIのスペル問題、笑い話から学ぶべきこと
RedditやYouTube、Xでは、ChatGPTがASCIIアートのスペルを間違える様子を面白おかしくアップしてるけど、この背後には、AIが文字を本質的に理解していないという大きな課題がある。トランスフォーマーアーキテクチャに基づくLLM(Large Language Models)は、実際にはテキストを「読んでいる」わけではなく、プロンプトをエンコーディングに変換して、そのパターンに基づいて回答を生成しているんだって!
AIが生成した不自然なレストランのメニューの画像は面白いかもしれないけど、AIが間違えることは、偽情報を見分けるうえで役立つんだ。街の看板やTシャツの文字、本のページなど、ランダムな文字列が合成画像の起源を裏切るかもしれないし、手に余分な指があることも、AI生成の手がかりになる。
見極める目を養う、AIの未来
AIが生成した音楽店の画像を見て、一般人は本物と思うかもしれないけど、音楽に詳しい人なら、ギターに七つの弦があるとか、ピアノの黒と白の鍵の間隔がおかしいことに気づくかも。これらのAIモデルは急速に進化しているけど、こうした問題に直面する限り、技術の能力には限界がある。
まとめると、AIは文字に弱いけど、それが私たちにとっては識別の手がかりになるし、この技術の進歩を見守りつつ、その制約を理解することが大事ってわけ。鳴り響く警鐘のように、AIのハイプには冷静な目を持とうね!
https://techcrunch.com/2024/03/21/why-is-ai-so-bad-at-spelling/