GAN (GENERATİVE ADVERSARİAL NETWORKS)

Kadriye Aksakal
Nov 19, 2020

Generative Adversarial Networks kısacası GAN; Üretken Ters Ağlardır. İki ağdan oluşan ve birisini diğerine (yani “rakip”) isabet eden derin sinir ağı mimarileridir. GAN yapısı ilk olarak görüntüler üzerinde kullanılmaya başlanmıştır. Son zamanlarda görüntüye ek olarak ses verileri üzerinde de denemeler yapılmaktadır. Ses verileri üzerinden GAN yapısını ele alalım. Ses verilerini görüntüye dökmek için Spectogram kullanılır. Spectogramlar elimizde bulunan ses verilerinin dalga boylarına karşılık gelen sinyalleri parçalara bölerek yığın içindeki frekansın büyüklüğünü alır. Sonuç olarak ortaya çıkan her vektör spectogram da bir sütunu ifade eder.

Spectogramlar gösterimleri , insanların duymaya daha eğilimli olduğu genlikleri ve frekansları vurgular.

GAN yapımıza dönecek olursak spectograma dökülmüş ses verileri GAN yapısı ile işlenebilir. GAN yapısında elimizde bulunan ses verileri haricinde yazmış olduğumuz uygulamaya farklı bir ses eklendiğinde bu sesin fake mi yoksa gerçek ses mi olduğunu bulmaya yardımcı olur. Aynı şey görüntü verileri içinde geçerlidir. Yeni eklenen görselin fake mi yoksa gerçek mi olduğunu bulmamıza yardımcı olur. Aşağıda GAN yapısının çalışma şeklini görebilirsiniz.

GAN yapısı ile ilgili hem ses hem de görüntü örnekleri için githuba bakabilirsiniz. Birkaç örnek bırakıyorum aşağıya:)

https://github.com/pritishyuvraj/Voice-Conversion-GAN

https://github.com/hujinsen/StarGAN-Voice-Conversion

--

--