学習データと出力結果から能動的にAIを知覚する

 

‘2023年10月18日’

1-1. はじめに
1-2. 背景
1-3. 目的

1-1. はじめに

私はこれまで、物理空間における身体運動のデータや、物理的な形のデータを用いて作品制作を行ってきた。これは、実在する現象や形を、離散的な性質をもつデータに変換し、その差異を操作することを起点に制作してきたことが要因である。
一方で現代社会に目を向けると、実在しないデータが主体性を持って動いているように感じることがある。
そこで挙げられるのが、「AI」とよばれるような概念である。例えばchatGPTは人の問いに応じて画像やテキストを生成し、あたかも主体的な存在を意識させる。そのAIの主体性と情報を受け取る人の受動性は、利用者の思考を止めるきっかけにもなりかねない。
この現状で私は、AIとの関わり方を考えることと同様に、そもそもそのAIの学習データを明らかにする必要があるだろうと考えていた。
それらをきっかけとして、3Dデータを扱った機械学習のプロセスに興味を持ち、リサーチをはじめた。

1-2. 背景

インターネットやAIなどの情報技術が世の中に浸透したことによって、見ず知らずのうちにデータに関わるようになった。なかでもchatGPTをはじめとした生成AIは、相互関係をもつはずの学習データと出力結果は切り離され、尤もらしい出力が見えても、見えない学習データがあることは明らかである。
学習データの見えない「AI」との関わりは、出力結果に対して受動的になることを助長してしまう。
AIとの関わりにおいて重要なのは、学習データと出力結果が明らかになっている上で、双方の内容を見ながら出力に至るまでの学習プロセスを確認し、解り得ない部分も含めて理解し想像することだろう。
現代では、今もなおAIをはじめとした様々な最新技術が開発されるなかで、AIを用いて3Dデータを生成する研究に興味を持った。
それは従来のAIとは異なり、以下の二点に特徴がある。
①電子機器から切り離された媒体でAIの出力を確認できる。動かない、変わらない、消えない。
②立体的な「かたち」と学習データを比較して確認できる。
これを契機としていくつかのリサーチから、深層学習を用いた3Dデータを生成するいくつかの手法の実践に至った。

1-3. プロジェクトの目的

本プロジェクトは、深層学習のプロセスを用いて、複数枚の撮影画像から被写体の3Dデータを生成し、それをもとに彫刻作品を制作する実践である。
この実践において、①学習データと出力結果の関係性を明らかにすること②デジタルデータの支持体として立体彫刻作品を制作することの二つの要素から、デジタルデータの根源的な構造を確認し、見ず知らずのうちに関わるデジタルデータついて再考することを試みる。
最終的には、被写体の3Dデータの形状を学習したAIを用いて、新たな形状を生成することで作品として昇華することを目指す。

2-1. 3Dデータを扱う深層学習

3Dデータを用いた深層学習は2016年から、生成AIで用いられることの多いGAN(Generative Adversarial Network)をベースに3Dデータを扱う3D GANや、Pytorch3D、Pytorchライブラリのkaolin、最近ではNeRF(ナーフ)3D Gaussian Splattingなどの論文が確認できる。
これらの中から、まずは画像から3Dデータを生成するPytorch3DやPytorchライブラリのkaolin、最新の研究であるNeRFや3D Gaussian Splattingの利用の検討をはじめた。
Pytorch3Dやkaolinは画像や3Dデータを学習データとして用いて、3Dデータの出力に至るまでのAIモデルを設計でき、学習前や出力後のデータ編集までサポートしている。
具体的には、カテゴリーに倣う画像から3Dデータの生成ができたり、球体などの抽象的な形状を持つ3Dデータをターゲットとなる3Dデータの形状に近侍させることができる。
この3Dデータの生成は、「GanVerse3D」と「DIB-R」の二つの深層学習アルゴリズムを用いて、形状の生成と3Dデータ空間の可視化をしている。
一方、NeRF(ナーフ)や3D Gaussian Splattingもkaolinと画像から3Dデータを生成する点では同様であるが、その生成プロセスに差異がある。
NeRFと3D Gaussian Splattingは、全て深層学習のアルゴリズムで動作しているわけではなく、写真測量と呼ばれる複数枚の画像から3Dデータを生成する技術が前提となり、その画像の間を補完する画像生成において深層学習が用いられることが基本的な構造である。
これはデジタル写真が高精細になるほど、より高品質な3Dデジタル空間を高速に可視化する。

本プロジェクトにおいては、①学習データと出力結果の関係性を明らかにすること②デジタルデータの支持体として立体彫刻作品を制作することを主眼とするため、学習データの生体形状を汎用的な状態で高精細に取得することができる、NeRFを用いることを検討した。

なお3D Gaussian Splattingは、写真測量によって生成する点群データを微分可能レンダリング(2D画像を用いて3D空間アウトプットするためのレンダリング)を用い、高速かつ高精細なデジタル3D空間の生成を目的としているため利用しない。

KolinライブラリとNeRFの紹介、と違い
なぜNeRFを選択したのか?

2-2. NeRF(ナーフ)について

NeRFはNeural Radiance Fieldsと記載し、複数枚の画像からそれを模倣したデジタル3D空間を生成を指す。また、写真測量における画像と画像の間を補完する画像生成によって3Dデジタル空間を生成するが、今回必要なのは3Dデジタル空間ではなく、物理的に出力するための閉じた3Dデータである。
NeRFの様々なライブラリのプラットフォームとなっているnerfstudioでは、学習プロセスにNerfactoというアルゴリズムを採用している。
そこでは写真測量の後にHash EncordingSpherical Hamonics EncordingMLPのプロセスがあることがわかる。

これは生成したデジタル3D空間を深層学習を用いてメッシュ形状の3Dデータに変換しているプロセスとなる。それによってnerfstudio内のNerfactoによる学習を実行すると、OBJデータを書き出すことが可能となる。
つまりNeRFはデジタル3D空間を生成するための画像生成で、その先には3Dデータを生成する際の必須のプロセスがあることがわかる。
しかしnerfstudioのNerfactでは、生体形状の細やかなディティールの再現がなされなかったため、再度、メッシュ化する際のプロセスを検討した。

NeRFとは?(Neural Radiance Fields)
COLMAP
NeRFStudio

2-3. NeRFを前提とした深層学習について

NeRFStudioでは点群データとメッシュデータの書き出しが可能である。これは、学習プロセスの、写真測量で生成される(x,y,z)の位置情報や、深層学習のプロセスから生成されるメッシュデータからも推測できる。
nerfstudioのNerfactでは精度があまり良くなかったため、他の最適な手段を検討した。
そこで最も重要なプロセスとして考えられるのは3DデータにおけるSDF(signed distance function)のデータ形式でアウトプットすることである。
SDFは物体の3Dデジタル空間内で物体を検知するデータ形式で、画像(pngやjpgなど)におけるRAWデータのような位置付けて、メッシュデータにおいて位置付けることができる。よってメッシュの細かさなどの解像度の概念はなく、物体の内側と外側をそれぞれ-1と1でデータが管理される。
それはSigned Distance Functionsのアルゴリズムを利用することで実現できる。
またNeural Volumeの深層学習を組み合わせることで、SDFをVolumeデータに変換しメッシュデータ以前の3Dデータの調整が可能となる。
この二つの深層学習を用いて、NeRFでサンプリングした3Dデジタル空間を、物理的な生体形状により近いかたちで閉じた3Dデータを生成することが可能となる。
本展示では、この3Dデータの生成プロセスを用いて、透明のガラス花瓶と花の3Dデータ化を実践した。

Neural Image
multi hash encording
SDF

3-1. 学習データ

3-2. 3Dデータの生成のアルゴリズム

COLMAP
multi hash encording→SDF(signed distance function)
NeuralVolume NeuralImage
パラメーター
エクスポート

3-2. 今後の課題

これは他の生成AIとは異なり、電子装置から切り離した立体的な表現が可能となり、

学習データと出力結果の極端な乖離もなく、

そこで本作品では、3Dプリントするための3Dデータを複数枚の画像から生成する。

~~をはじめた

私もchatGPTを日常的に利用するが、インターネット上にある画像とテキストデータを常に学習し、成長するとされているAIと私自身の関わりは、-検索エンジンのリーチに対する回答の最適化-として位置付け、受動的になりすぎない関係性を意識している。

これはおそらくこれからもさらに発展を続けて、私たちの生活に浸透するように入り込んでくるだろう。

AIという言葉で包み隠すのはやめてほしい

主体的な存在と受動的な感じ

むしろ主体性を感じてしまう受動的な関わり

私はこのAIという概念的な言葉によって、多くの人がそれを知った気になることを危惧している。
これはAIそれ自体が、学習データからくる離散的な数値の統計と計算の結果だと考えているからである。

chatGPTにおいても、学習データがインターネット上の画像やテキストならば、それはもはや検索エンジンでサーチする答えの最適化でしかない。

Pytorch3Dやkaolinは画像や3Dデータをそれぞれ学習データとして用いることができ、学習前や出力後のデータ編集までサポートしている。
つまり、カテゴリーに倣う画像から3Dデータの生成ができたり、一般的な形状を持つ3Dデータをターゲットとなる3Dデータに形状に近侍させることができ、3Dデータにまつわる深層学習の機能的なものも含めて様々なことが可能である。

3D Gaussian Splattingは、写真測量によって生成する点群データを微分可能レンダリング(2D画像を用いて3D空間アウトプットするためのレンダリング)を用い、早く綺麗なデジタル3D空間を生成することを目的としているため、閉じた3Dデータの生成には向いていない。