アップルの「画像の意味を捉える」マルチモーダルAIモデル「4M」、画像編集の自動化などへの布石か | AMP[アンプ] - ビジネスインスピレーションメディア
Catch the business inspirations. アップルがスイス連邦工科大学ローザンヌ校(EPFL)と共同開発した小型AIモデル「4M」の 公開デモ をHugging Faceプラットフォームで公開した。このモデルは、テキストや画像、3D空間など複数のモダリティを統合的に処理できるマルチモーダルモデルだ。数カ月前に、GitHubで リリース されたオープンソースモデルだが、今回人気のAIプラットフォームであるHugging Faceで公開されたことで、認知度がさらに高まった格好となる。 4Mは、Massively Multimodal Masked Modelingの略称で、多様なモダリティ/コンテンツの処理と生成が可能だ。ユーザーはテキスト記述から画像を生成したり、複雑な物体検出を実行したり、自然言語入力で画像空間を操作したりすることができる。 この4Mの公開は、アップルの従来の研究開発アプローチから大きな転換を示すもので、AIコミュニティで注目される動きとなっている。Hugging Faceは、業界スタンダードといっても過言ではない、AIモデルのリポジトリプラットフォーム。メタやマイクロ