Veri Bilimi Mülakat Soruları

Her geçen gün internete dev miktarda bilgi giriliyor. Girilen bilgi miktarının sayısını algılamak zor! Böylesine dev miktarda verinin anlaşılmabilmesi için yapılandırılması ve organize edilmesi gerek. İşte burada devreye veri bilimi giriyor. Tüm bu bilgilyi anlamak için bir yol sunuyor. Haliyle piyasada kalifiye veri bilimciler için büyük bir talep var. Bu pozisyon için iş olanakları sürekli olarak artıyor. Veri bilimci pozisyonuna başvurmak istiyorsanız veri bilimi mülakat soruları hakkında bilgi sahibi olmanız gerek. Rehberimiz de bu konudaki iş görüşmesi soruları ve cevapları üzerinde duruyor.

Veri Bilimi Mülakat Soruları: Veri BilimiVeri bilimi mülakat soruları rehberimiz iki büyük bölümden oluşuyor; temel düzey ve ileri düzey. Veri bilimi hakkındaki iş görüşmesi soruları ve cevapları üzerinde konuşacağız. Veri bilimcilerinin veri analistlerinden farkına bakacağız. Rehberin son bölümünde birkaç ipucu verip yazımızı sonlandıracağız.

İçindekiler

Veri Biliminin Tanımları

Gelin öncelikle tanımlar hakkında konuşalım.

Karşılacağınız ilk veri bilimi mülakat soruları görünüşte benzer olan ancak özünden farklı olan şeyler üzerine olacak. İşte bu yüzden "Veri bilimi nedir?" gibi tanımlara yönelik sorular üzerinden başlamak daha iyi. İlerledikçe daha iyi anlayacaksınız.

Soru 1: Veri bilimi nedir?

Veri bilimi dev veri kaynaklarından (hem yapılandırılmış hem yapılandırılmamış) çeşitli veri ve bilgileri çıkarmak ve organize etmek için kullanılan bir tür metodolojidir.

Bu bilim türünde faydalı bilgilerin ve verilerin çıkarılması ve anlaşılabilecek, kullanılabilecek şekilde düzenlenmesi için birtakım algoritmalar ve uygulamalı matematik kullanılıyor.

Soru 2: "Veri bilimi" ve "büyük veri" arasındaki fark nedir?

Pek çok insan aradaki açık farkı belirtmede başarısız olduğundan daha zor veri bilimi mülakat soruları arasında yer alıyor. Sebebi de konu hakkındaki bilgi eksikliği.

Cevap aslında oldukça basit. "Büyük veri" dev miktardaki veri ve bilgiyi kastetiğinden analizi için belli bir yöntem gerektiriyor. Yani veri bilimi nedir dendiğinde büyük verinin veri biliminin analiz  ettiği şey olduğunu görüyoruz.

Soru 3: "Veri bilimci" ve "veri analisti" arasındaki fark nedir?

Basit veri bilimi mülakat soruları arasında yer alsa da zaman zaman karışabiliyor.

Veri bilimciler veriyi çıkarır, işler ve analiz eder. İşletmelere karşılaşabilecekleri sorunlar hakkında tahminler sunar.

Veri analistleri tahmin yerine kaçınılmaz işletme sorunlarını çözer. Sorunu belirler, istatistiksel bilgi analizi gerçekleştirir ve her şeyi belgeler.

Soru 4: Büyük veriyi temsil eden temel özellikler neler?

Veri bilimi mülakat soruları için tanımları hallettiğimize göre daha spesifik iş görüşmesi soruları ve cevaplarına yönelebiliriz. Unutmayın; size veri bilimci, analisti ve büyük veri hakkında sorular gelecek. Sebebi ise tüm bu alt kategorilerin iç içe olması.

Veri bilimini beş kategori temsil eder, "5 V" olarak adlandırılırlar;

  • Value;
  • Variety;
  • Velocity;
  • Veracity;
  • Volume.

Tüm bu terimler büyük veriyle öyle ya da böyle uyuşur (terimler sırasıyla değer, çeşitlilik, hız, doğruluk, hacim).

Soru 5: "Öneri sistemi" nedir?

Belli öğelere (film, müzik, ürün vb.) kullanıcıların ne kadar yüksek oy vereceğini tahmin etmek için kullanılan bir sistem türü. Böyle bir sistemde oldukça karmaşık formüller yer alıyor.

Soru 6: Python'ın veri biliminde kullanımı diğer programlama dillerine kıyasla neden daha iyi?

Veri bilimi mülakat soruları üzerinde başarılı olmak için Python hakkında bilgi sahibi olmanız önemli. Python veri bilimi kütüphaneleri konusunda çok zengin. İnanılmaz derecede hızlı, öğrenmesi veya okuması kolay. Python'un bünyesinde özelleştirilmiş derin öğrenme ve makine öğrenmesi kütüphaneleri yer alıyor. Scikit-learn, Keras ve TensorFlow gibi popüler araçlar veri bilimcilerinin üretim sistemine tam oturan sofistike veri modelleri geliştirmesine olanak sağlıyor.

Veriden öngörü çıkarmak adına Python için veri analiz kütüphanesi olan Pandas'ı kullanmanız gerekiyor. Excel'deki gecikmeleri yaşamadan büyük miktarda veri saklayabiliyor. Numpy ile nümerik modelleme analizi yapabilirsiniz. SciPy ile bilimsel bilgi işlem ve hesaplama yapabilirsiniz. Scikit-learn kod kütüphanesiyle birçok güçlü makine öğrenmesi algoritmasına erişebilirsiniz. Anaconda bünyesinde yer alan Python API ve Python Notebook ile verilerinizi görselleştirmek için güçlü seçeneklere sahip olursunuz. 

Soru 7: A/B testi nedir?

Pek çok farklı nişte uygulanabilen A/B testi öne çıkan veri bilimi mülakat soruları arasında. Peki tam olarak nedir?

A/B testi istenen sonucu almak adına aynı şeyin hangi sürümünün kullanmaya daha değer olduğunu öğrenmek için uygulanan bir tür testtir.

Diyelim ki elma satmak istiyorsunuz. Ancak müşteriler kırmızı elma mı yoksa yeşil elma mı tercih eder bilmiyorsunuz. İkisini de denemeye karar veriyorsunuz; önce kırmızı elma satmaya çalışıyorsunuz sonra da yeşil. Deneme tamamlandığında hangisinin karlı olduğunu hesaplıyorsunuz. İşte A/B testi!

Soru 8: Hadoop nedir ve neden önemsenmeli?

Dikkat! Hadoop kümelenmiş sistemlerde çalışan büyük veri uygulamaları için bilgi işlem ve depolamayı yöneten açık kaynaklı dağıtımlı framework'üdür.

Veri bilimi üzerine sorular içerisinde bu soruyu çok iyi bir şekilde cevaplamak gerekirse; Apache Hadoop, dev miktarda veri ve bilgi işlemle alakalı sorunları çözmek adına birçok bilgisayardan oluşan bir ağ kullanan açık kaynaklı bir yazılım koleksiyonudur. MapReduce programlama modelini kullanarak dağıtımlı depolama ve büyük veri işleme için yazılım framework'ü sağlar.

Hadoop dosyaları büyük bloklara böler ve kümedeki nodlara dağıtır. Sonrasında verileri paralel bir şekilde işlemek için nodlara paketlenmiş kod aktarır. Böylelikle veri setleri daha geleneksel süper bilgisayar mimarisinden daha hızlı ve verimli bir şekilde işlenir.

Soru 9: "Seçim yanlılığı" nedir?

Seçim yanlılığı (selection bias) düzgün rastgeleleştirmenin ulaşılmadığı analizler için belli bireyler, gruplar veya veriler tarafından öne sürülen yanlılıktır. Böylelikle elde edilen örneğin analiz edilmek istenen nüfusun bir temsili olmadığından emin olunur.

Seçim yanlılığı dikkate alınmazsa bazı çalışma sonuçları doğru olmayabilir.

Soru 10: "Güç analizi" nedir?

Veri bilimi mülakat soruları arasında yer alan tanımlardan başka bir tanesi de "güç analizi". Boyutuna göre bir birimin ne tür etkisi olacağını belirlemek için kullanılan bir analiz türüdür.

Güç analizi doğrudan hipotez testeleriyle alakalıdır. Güç analizinin ana amacı araştırmacıya istenen önem düzeyinde belli bir testin etkisini belirlemek için uygun olan en küçük numune boyutunu belirlemeye yardımcı olmaktır.

Soru 11: "Normal Dağılım" hakkında ne biliyorsunuz?

Veri, sağa veya sola ya da karışık yanlılıkla farklı şekillerde dağıtılabilir. Ancak sağa veya sola yanlılık olmadan verinin çap şeklinde biçime ulaşma şansı da bulunur.

Normal Dağılımın Özellikleri:

  • Unimodal - tek modlu
  • Symmetrical - sağ ve sol yanlar simetrik
  • Bell-shaped - Çan şeklinde; ortada maksimum yükseklik
  • Mean, Mode, Median merkezde
  • Asymptotic (asimptotik)

Soru 12: Hassasiyetin istatistiksel gücü nedir?

Biraz daha dikkat gerektiren veri bilimi mülakat soruları arasında yer alıyor. Hassasiyet, Lojistik, Rastgele Orman, SVC gibi bir sınıflandırıcının doğruluğunu onaylamak için yaygın bir şekilde kullanılır.

Hassaslık "Tahmin Edilmiş Gerçek Olaylar/Total Olaylar"dır.

Gerçek olaylar hem gerçek olan hem de modelin doğru tahmin ettiği olayladır.

Sezonsallık hesabı kısa ve özdür. Formülü şöyledir; Mevsimsellik= (Gerçek pozitifler) / (Güncel Bağımlı Değişkendeki Pozitifler).

Soru 13: Aşırı öğrenme ve eksik öğrenmenin farkları neler?

Veri bilimi üzerine sorular içerisinde bu soruna tanım yaparak başlayabilirsiniz. Aşırı öğrenmede bir istatistiksel model altında yatan ilişki yerine rastgele bir hata veya sorun tanımlar. Bir model aşırı karmaşık olduğunda gerçekleşir. Görnsem sayısıyla alakalı çok fazla parametreye sahip olmak buna örnektir. Aşırı öğrenmiş modelin tahmin performansı zayıftır, çünkü eğitme verilerindeki küçük dalgalanmalara aşırı tepki verir.

Eksik öğrenme de bir makine öğrenmesi algoritmasının veya istatistiksel modelin verinin altında yatan trendi belirleyemediğinde gerçekleşir. Eksik öğrenme doğrusal bir modele doğrusal olmayan veriler yerleştirilmeye çalıştığınızda oluşur. Tahmin performansı yine zayıftır. Veri bilim mülakat soruları sorulduğunda bu ikisini karıştırmadığınızdan emin olun, ciddi etkisi olabilir.

Soru 14: Eigenvector ve Eigenvalue nedir biliyor musunuz?

Veri bilimi üzerine sorular içerisinde bu soru geldiğinde yanıtını tabii ki de bilmeniz gerekiyor. Eigenvector'ler doğrusal dönüşümü anlamak için kullanılıyor. Veri analizinde eigenvector'ler bir korelasyon veya kovaryans matrisi için hesaplanır.

Eigenvalue, eigenvector veya sıkıştırmanın gerçekleştiği etkenin yönünde değişimin gücünü belirtmek için kullanılır. 

Soru 15: Validation set ve test setin farkı ne?

Validation set, parametre seçiminin yanı sıra ML modelinin geliştirici olarak aşırı öğrenmesinden sakınmak için de kullanılan bir eğitim setinin parçasıdır. Test seti ise eğitici ML modelinin performansını değerlendirmek veya test etmek için kullanılır.

İleri Düzey Veri Bilimi Mülakat Soruları

Temel düzeydeki veri bilimi iş görüşmesi soruları ve cevapları bittiğine göre ileri düzey konulara geçebiliriz.

Veri Bilimi Mülakat Soruları: Veri Bilimi

Aşağıda yer alan veri bilimi mülakat soruları veri bilimciler, büyük veri ve veri analistleri hakkında karışık sorulardır. Açıklama yapmanız istenebilir.

Soru 1: "İşbirlikçi filtreleme"yi tanımlayın.

İşbirlikçi tanımlama adından da anlaşılacağı üzere birçok tavsiye sisteminin kullandığı bir filtreleme işlemidir. Bu filtreleme türü belli modelleri bulmak ve kategorize etmek için kullanılır

İşbirlikçi tanımlama pek çok kullanıcıdan (işbirlikçi) tercih  bilgisi toplayarak bir kullanıcının ilgileri hakkında otomatik tahminler (filtreleme) yapma yöntemidir.

Soru 2: "fsck" nedir?

Veri bilimi mülakat soruları arasında önemli olan şeylerden biri de "fsck" kısaltmasını bilmektir. "File System Check" ifadesinin kısaltmasıdır (Dosya Sistemi Kontrolü).  Bir dosya içerisinde  olası hataları arayan bir komut türüdür. Hata veya sorun bulunursa fsck bunu Hadoop Dağıtımlı Dosya Sistemine bildirir.

Soru 3: "Çapraz doğrulama" nedir?

Veri analisti sorularından biri olan çapraz doğrulamayı basit bir şekilde açıklamak oldukça zordur.

Çapraz doğrulama bir öğenin canlı sunucularda göstermesi beklenen performansa verip veremeyeceğini analiz etmek için  kullanılır. Başka bir deyişle bağımsız bir veri setine yerleştirildiğinde belli istatistiksel analiz sonuçlarının ne kadar doğru ölçeceğini kontrol eder. 

Soru 4: Hangisi daha iyi; iyi veri mi iyi modeller mi?

Veri bilimi mülakat soruları arasında yer alsa da aslında popüler büyük veri sorularından biri.

Sorunun cevabı gerçekten subjektif ve olaya dayalı. Büyük şirketler iyi veri terci ediyor çünkü herhangi başarılı bir işletme için merkez rolünde. İyi modeller iyi veri olmadan oluşturulamıyor.

Kişisel tercihinize göre seçim yapmalısınız. Doğru ya da yanlış bir cevap yok (şirket özellikle birini aramıyorsa). 

Soru 5: "Gözetimli" ve "gözetimsiz" öğrenmenin farkı nedir?

Çok yaygın veri bilimci mülakat soruları arasında yer almasa da makine öğrenmesiyle alakalı bir soru olmasına rağmen veri bilimi bünyesinde de yer aldığından bilmekte fayda var.

Gözetimli öğrenme sırasında eğitim için tasarlanmış etiketli veri bölümünden fonksiyon çıkarabilirsiniz. Makine hedeften öğrenir ve sunduğunuz örnekleri gerçek olarak sayar.

Gözetimsiz öğrenme etiketsiz cevaplar kullanan bir makine öğrenmesi yöntemidir. Makine girdi verilerinin tanımlarından öğrenir.

Soru 6: "Beklenen değer" ve "ortalama değer"in farkı nedir?

Fonksiyonellik açısından aralarında fark yok. Ancak ikisi farklı durumlarda kullanılıyor.

Beklenen değerler genellikle rastgele değişkenleri yansıtırken ortalama değer numune yoğunluğunu belirtiyor.

Soru 7: "İki değişkenli", "çok değişkenli" ve "tek değişkenli"nin farkı nedir?

İki değişkenli analiz aynı anda iki değişkenle ilgilenirken çok değişkenli analiz birden fazla değişkenle ilgilenir. Tek değişkenli analiz veri analizinin en basit türüdür. "Uni" ifadesi "bir" anlamındadır. Yani verinizin tek değişkeni vardır. Sebeplerle veya ilişkilerle (regresyonun aksine) ilgilenmez. Ana amacı tanımalmaktır; veriyi alır, özetler ve verideki modeli bulur.

Soru 8: İki kullanıcı aynı anda aynı HDFS dosyasına erişmeye çalışsa ne olur?

Popüler veri bilimci mülakat soruları arasında yer alsa da biraz zordur. Sorunun kendisi zor olmasa da programların benzer tepkisinden dolayı karıştırmak kolaydır.

İki kullanıcı HDFS'de bir dosyaya erişmeye çalışırsa ilk kişi erişim sağlar, ikinci kişi (yavaş kaldığından) reddedilir.

Soru 9: Kaç tane Hadoop girdi biçimi var? Adları ne?

Zor sorulardna biridir. Sebebi de hem numarayı hem de formatların kendisini bilmeniz gerekmektedir.

Toplamda üç yaygın Hadoop girdi formatı bulunur: Key-value formatı, sequence file formatı ve text formatı.

Udacity Review Logo
İyi Yönler
  • Basit tasarım (gereksiz bilgi yok)
  • Yüksek kaliteli dersler (ücretsizler dahil)
  • Çeşitli özellikler
Ana Özellikler
  • Nanodegree programları
  • Firmalara uygun
  • Ücretli tamamlama sertifikası
Udemy Logo
İyi Yönler
  • İnanılmaz çeşitlilikte dersler
  • Gezinmesi kolay
  • Teknik sorunlar yok
Ana Özellikler
  • İnanılmaz çeşitlilikte dersler
  • 30 günlük para iade politikası
  • Ücretsiz tamamlama sertifikası
Udacity Review Logo
İyi Yönler
  • Kullanması kolay
  • Kaliteli içeriğe sahip
  • Fiyat konusunda saydam
Ana Özellikler
  • Tamamlamada ücretsiz sertifikalar
  • Veri bilimi becerilerine odaklanıyor
  • Esnek eğitim programları

Soru 10: "Küme örneklemesi" nedir?

Küme örneklemesi bir örnekleme yöntemi türüdür. Küme örneklemesiyle araştırmacı yoğunluğu küme adlı iki ayrı gruba ayırır. Yoğunluktan basit bir rastgele küme örneği seçilir. Araştırmacı veri analizini örneklendirilmiş kümeden yapar. 

Genel İpuçları

Temel ve ileri düzey veri bilimi mülakat soruları üzerinde konuştuğumuza göre gelin öğrendiklerimize bir göz atalım.

Veri Bilimi Mülakat Soruları: Veri Bilimi

İş görüşmenizin başında dikkat etmeniz gereken en önemli şey tanımlar. Tanımları biliyor ve kolaylıkla anlaşılır bir şekilde açıklıyorsanız iyi ve etki bırakan bir izlenim oluşturabilirsiniz.

İleri düzey sorulara göz attığınızdan emin olun. Binlerce soruya bakmanıza gerek yok. Ana konulara göz atıp hala alışamadığınız konseptleri öğrenebilirsiniz.

İş görüşmesinde ana hedefiniz sahip olduğunuz bilgileri sunmak olmalı. İster veri bilimi ister başka bir konuda sorular olsun, işveren bilginizi görürse sizin potansiyel çalışan olarak görebilir.

Unutmayın; bilgi denklemin sadece bir tarafı. İşverenler alçak gönüllülük, saygı, saygınlık, güvenilirlik gibi şeyler de arıyor. Bunları da göstermeyi hedeflemelisiniz. Böylelikle iş görüşmeniz iyi geçer. Kendiniz hakkında konuşmaktan çekinmeyin ancak mütevazı olun. Değerinizi bilmek ve böbürlenmek arasında ince bir çizgi var. Veri bilimi uzmanı olmak konusunda rehbere ihtiyaç duyarsanız BitDegree öğrenme yollarına göz atıp hemen maceranıza başlayabilirsiniz!

Dürüst geri bildirimde bulunun

Gerçek fikrinizi bırakarak en iyi online eğitim platformunu seçmek isteyen binlerce insana yardımcı olun. Pozitif veya negatif de olsa tüm geri bildirimler dürüst oldukları sürecek kabul ediliyor. Taraflı geri birimleri veya spam'leri yayınlamıyoruz. Deneyiminizi, fikrinizi veya tavsiyenizi paylaşmak istiyorsanız sahne sizin!

SSS

Hangi online ders sitesini inceleyeceğinizi nasıl seçiyorsunuz?

Piyasa boyutuna, popülerliğe ve en önemlisi kullanıcılarımızın taleplerine veya belli online eğitim platformları hakkında gerçek MOOC incelemesi okumak isteme talebine göre online eğitim platformlarını seçiyoruz.

E-öğrenme incelemelerinizi yazmadan önce ne kadar araştırma yapıyorsunuz?

MOOC uzmanlarımız haftalarca araştırma yapıyor. Sonrasında farklı etkenler hakkında değerlendirmelerini yapabiliyorlar. Çok fazla zaman alsa da online eğitim platformundaki tüm gerekli özelliklerin denenmesi, test edilmesi ve gerçek verilere dayalı bir hükümde bulunulmasını garanti edebilmemiz için tek yol bu.

En iyi online eğitim platformlarını seçerken en önemli etken hangisi?

Tek bir etken seçmek yanlış olur. Öncelikler her kişinin değerlerine, isteklerine ve hedeflerine göre değişiyor. Biri için önemli olan bir özellik başkası için önemsiz olabiliyor. Tüm kullanıcıların öğrenme materyallerinin iyi kalitesi konusunda hemfikir olması bir online eğitim platformu olmazsa olmaz.

Bu e-öğrenme inceleme platformu diğerlerinden nasıl farklı?

Her MOOC inceleme platformu eşsizdir. Kendi hedefleri ve değerleri vardır. Bizim e-öğrenme incelemelerimiz %100 gerçektir ve dikkatli bir analizden sonra kaleme alınır. Çoğu e-öğrenme inceleme sitesinde bu bu özellik bulunmadığından bunu süper gücümüz gibi görüyoruz!

Gün
Saat
Dakika
Saniye