『開かれたAIの波、コードとデータセットの海にダイブ!』
はいはいはい、速報ですよー!みんな集まれー!今回のニュースは、なんとAI2、つまりアレン人工知能研究所が、今までにない「オープン」な言語モデル、その名もOLMoというモデルをリリースしたんだって!え?AI2って何?って?あ、それはね、故マイクロソフト共同創設者のポール・アレンさんが立ち上げた非営利のAI研究機関のこと。さて、このOLMo、略して「オープン言語モデル」なんだけど、なんとその訓練に使われたデータセットも一緒に公開されているの!その名もDolma!これがまた大きな公開データセットなんだって!
では、箇条書きでポイントを抑えてみよう!
- AI2がOLMoという新しい言語モデルを発表!
- 訓練にはDolmaという巨大なデータセットが使われている!
さて、このOLMo、どうやら他の言語モデルとは一線を画して「オープン」であることに大きな意味を置いている様子。なんでも、これまでのモデルがどこぞの秘密の部屋で訓練されてたのに対し、OLMoはその全プロセスを公開しているんだって!これって、開発者にとってはもう、宝の山ってわけ。研究も実験も商用利用も、これでバンバン進むってわけ!
しかし、こんなに素晴らしいことばかりじゃない?って、あなた思ったでしょ?でもちょっと待って!このOLMo、英語以外の言語での出力はちょっと…ってところがあるみたい。そして、コード生成に関してもまだまだこれから、って感じ。でもでも、ディルク・グローエンヴェルドさん(AI2のシニアソフトウェアエンジニアだって!)によると、これはまだ始まりに過ぎないんだって。これから多言語対応も、コード生成も、バンバン強化していく予定らしいの!
でもね、ここで一つ気になることが。このOLMo、悪いことに使われちゃったりしないの?って。実は最近の研究で、オープンなテキスト生成モデルが、悪意のあるプロンプトに対して有害なコンテンツを生成しちゃうことがあるって指摘されてるんだ。でもグローエンヴェルドさんは、このオープンプラットフォームを作ることで、モデルがどう危険になり得るか、そしてそれをどう直せるかの研究が進むと信じているんだって。つまり、オープンであることのメリットの方が大きい、ってわけ!
というわけで、AI2はこれからもっと大きく、もっと能力の高いOLMoモデルをリリースしていく予定だって。もちろん、テキスト以外のモダリティを理解できる多モーダルモデルもね!そして、トレーニングやファインチューニングに使える追加のデータセットも公開していくって。全部無料でGitHubとHugging FaceのAIプロジェクトホスティングプラットフォームで利用できるようになるんだって!
はい、というわけで今回のニュースはここまで!AIの未来、ほんとに楽しみだよね!どんな素敵なことが待っているのか、わくわくするね!さあ、みんなもこの波に乗り遅れないようにね!
https://techcrunch.com/2024/02/01/ai2-open-sources-text-generating-ai-models-and-the-data-used-to-train-them/