Büyük veri (big data) ne kadar büyük? | Otonom Fabrika | Endüstri 4.0

Büyük veri (big data) ne kadar büyük?

Tahmini Okuma Süresi:3 Dakika, 15 Saniye

Büyük veriyi ‘büyük’ yapan elimizdeki veri işleme sistemlerinin kabiliyetleridir:

  • Depolanmış veriler için (örn. disklerimizdeki durağan veriler); istenilen zamanda analiz edilemeyecek kadar ‘büyük’ olması,
  • Akan veriler için (örn. sensörlerden gelen gerçek zamanlı veriler); gerçek zamanlı olarak analiz edilemeyecek kadar ‘büyük’ olması, veriyi bizim için büyük yapar.

Depolanmış ya da akan veri, bir işletmenin sahip olduğu donanım, kullandığı mimariler ve geliştirdiği algoritmalar ile (on premise) belki 1 ayda değerli bir analiz sonucu verebilirken, Google gibi işletmelerin sahip olduğu altyapı/analiz kabiliyetleri ile (cloud computing) 1 dakikada sonuç verebilir. İşlenecek bu veri bu işletmenin kendisi için büyüktür, Google için değildir. Performans beklentiniz arttıkça Google, Microsoft gibi işletmelerin sahip olduğu altyapıya ihtiyaç duymaya başlarsınız. Bu işletmelere başvurulmadan hedeflerin aynı performansla gerçekleştirilebilmesi için büyük yatırımlar yapmak gerekebilir. Ancak işletmelerin birçoğu için bu yatırım yapılabilir (feasable) olmadığından As a Service iş modellerini kullanarak IBM, HP, Google, Microsoft, Oracle, Amazon, SAP gibi işletmelerin altyapılarını kullanabilirsiniz(!). Verilerini onların bulutlarına taşır, onların veri değerlendirme alt yapısını ve mimarilerini kullanabilirsiniz. Hali hazırda, bu işletmeler küresel verinin büyük kısmına zaten sahip. Bu işletmelerin sahip olduğu verileri herkesin kullanması mümkün olmasa da, bu işletmeler As a Service uygulamalarından başka, büyük veri analiz sonuçlarını satabiliyorlar. Örneğin, büyük veri analizleri sonucu daha net hedef kitle tespiti sağlayarak yayınlanan reklamların getirilerini artırabiliyorlar.

Küresel Veri Artış Hızı

Peki küresel verinin durumu nedir? Grafik 1‘de görüldüğü üzere dünyadaki bilinen toplam veri miktarı eksponansiyel (artış hızı artıyor) olarak Zetabaytlar cinsinden büyüyor.

veri artış miktarı, veri artış hızı, büyük veri ne kadar büyük, büyük veri artış hızı
Grafik 1. Küresel Veri Miktarı Değişimi [1]

Tablo 1. zetabaytın büyüklüğünü gösteriyor. Depolanan her veri (telefonlarımızdan akan veriler, sosyal medya hareketleri, adımıza yazılmış trafik cezaları, dijital termometrelerden kaydettiğimiz veriler, sağlık bilgilerimiz, kredi kartı hareketlerimiz, bankacılık işlemlerimiz, akademik yayınlar, Youtube’a yüklenen videolar, Instagram’a eklenen resimler, akademik yayınlar, blog yazıları, sensörlerden alınan veriler, GPS aracılığıyla akan konum bilgileri vb.) küresel büyük verinin bir parçasını oluşturmaktadır.

BirimKısaltmaBüyüklük
MegabaytMB1024xKB
GigabaytGB1024xMB
TerabaytTB1024xGB
PetabaytPB1024xTB
EksabaytEB1024xPB
ZetabaytZB1024xEB
Tablo 1. Veri Büyüklüğü Birimleri

Veriden elde edilen/edilecek değer düşünüldüğünde verinin günümüzün dijital petrolü olduğu gerçeği yadsınamaz. Büyük miktarda veri depolayan mobil uygulamaların/web sitelerinin, en değerli uygulamalar arasında yer almasının nedenlerinden biri budur. Veri miktarındaki bu artış artarak sürecek ve bilgiden elde edilen değer daha yüksek performanslı veri değerlendirme sistemlerine olan ihtiyacı artıracaktır.

Günümüz dünyasından yüksek performans gerektiren büyük veri örneklerine bakacak olursak [2];

  • Mobil cep telefonu sayısının milyarın üzerinde olması,
  • Her gün 1 milyarın üzerinde Google araması yapılması,
  • Facebook kullanıcılarının oluşturduğu petabaytlarca verinin saklanıp analiz edilmesi,
  • Akamai firmasının daha iyi hedefli reklamlar için günde 75 milyon olayı analiz etmesi,
  • Walmart’ın her saat 1 milyondan fazla müşteri verisini analiz etmesi,
  • Youtube kullanıcılarının dakikada 48 saatlik yeni bir video
    yüklemeleri,
  • Dünyada her yıl 1.8 zetabayt veri üretilmesi,
  • Internet üzerinden yapılan iş işlemlerinin milyarların üzerinde olması gibi pek çok örnek…

Veriyi Büyük Yapan diğer Bileşenler

Yukarıda, veriyi büyüten ana faktörün beklentiler (performans) olduğunu, ana alt faktörlerin ise durağan veri için verinin hacmi (volume), akan veriler için de verinin akma hızı (velocity) olduğunu belirtmiştik. Veriyi büyük yapan -işlenmesini zorlaştıran- diğer faktörler verinin çeşitliliği (variety) ve geçerliğidir (veracity).

Çeşitlilik (Variety) ile kasıt verinin kaynağının ne olduğudur. Veri, satır-sütunlardan oluşan bir Excel dosyası olabileceği gibi (Yapısal), Youtube’a yüklenen bir video dosyası da olabilir (Yapısal olmayan veri). Yapısal olmayan verilerin öncelikle daha kullanılabilir hale dönüştürülmesi gerektiğinden, bu verileri işlemek için daha yüksek performansa ihtiyaç duyulur.
Geçerlik (veracity) kavramı, işlenecek verinin ne kadar sağlıklı ve doğru veri olduğuyla alakalıdır. Örneğin, bazı ses verileri üzerine çalışma gerçekleştirilecek. Ancak, ses verileri kaydedilirken, hedef sesten başka, ilgilenmediğimiz başka sesler de kayıt edilmiş olabilir. Bu durum sağlıksız veri için ayıklama/filtreme gerektirirken, hatalı verinin kullanımı ise analiz işlemlerinin tekrarını gerektireceğinden ekstra efora neden olacaktır.

Peki, durağan veri nasıl işlenir? Akan veri nasıl yönetilir? Veriyi işlerken, işlemeye hazır olarak ne kadarını hafızada tutacağım? Ne kadarı uykuda kalacak? Yapısal olmayan verileri nasıl hızlı analiz edebilirim? Tüm bu sorular halen sorulmakta ve cevap olarak platformlar (Hadoop, Spark vb.), veritabanları (NoSQL, in-memory) kısaca mimariler geliştirilmektedir. Konu ile alakalı bir sonraki yazımızda büyük veri mimarilerinden bahsedeceğiz. Daha sonra geleceğin endüstriyel tesislerinden örnek uygulamalar paylaşacağız.

Bunları da sevebilirsiniz

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir