Nasıl Yapılır?

Veri Merkezi Genişlemeleri ve AI Talebi: Ne Zaman, Nasıl ve Neden Bu Kadar Hızlı?

Giriş: Bir dolabın içine sığmayan fikirler

Hiç ofiste küçücük bir sunucu dolabının başında, “Şu modele biraz daha veri yüklesek harikalar yaratacak” deyip sonra fan sesiyle irkildiğiniz oldu mu? Benim oldu. Masanın kenarında kabloları etiketlerken, bir anda ağ geçidinin soluk kesen uğultusu yükseldi; yan tarafta ekip, yeni bir yapay zekâ özelliğini test etmeye çalışıyor. Model biraz nefes alınca, sunucular bir şeyler söyledi: “Bize daha çok güç, daha çok soğuk, daha çok alan gerek.” O an kafamda şimşek çaktı; fikirler büyüyünce sadece kodlar değil, duvarlar da genişlemek zorunda.

Bugün tam da bunu konuşalım istiyorum: Veri merkezi genişlemeleri ve AI talebi. Neden bu kadar hızlı koşuyoruz, neye çarpıyoruz, nasıl yumuşak bir iniş yapıyoruz? Güçten soğutmaya, ağdan depolamaya, bütçeden operasyonlara kadar hepsi bir hikâyenin parçaları. Mesela şöyle düşünün: Mahalle arasındaki bir fırın, aniden şehrin favorisi oluyor. Sabah kuyruğu uzuyor, fırın daha çok ısınıyor, un çuvalları yetmiyor. Ve bir gün “Ya bu dükkânı büyütsek mi?” sorusu kaçınılmaz. Bizim işte de o gün, genelde bir GPU kümesi eklemeye niyetlendiğimizde geliyor.

Yazının devamında, o dükkânı büyütürken atacağımız adımları birlikte yürüyelim. Yol üstünde ara sokaklara da gireriz: küçük ipuçları, can sıkıcı beklemeler, tatlı kestirme çözümler. Hazırsanız, ilk kapıyı güç ve soğutma tarafına aralayalım.

AI talebi neden birden büyüyor? Görünmeyen zincir

AI denince gözümüzde kodlar canlanıyor ama perde arkasında asıl değişen, akım ve ısı. Bir modelin “biraz daha doğru” olması için çoğu zaman “biraz daha veri, biraz daha matris çarpımı” gerekiyor. Bu da daha yoğun işlem, daha fazla GPU ve doğal olarak daha yüksek güç tüketimi demek. Eğitim safhası ayrı bir dünya, çünkü uzun süreli, kesintisiz bir koştan bahsediyoruz. İnferans dediğimiz canlıda cevap üretme tarafı da kendi başına bitmeyen bir yağmur; kullanıcınız arttıkça, yanıt süresini düşük tutmak için dilimlerce kapasite parçalamak zorundasınız.

İşte bu zincir beklenmedik yerlerden geriliyor. Elektrik panosunda boşta duran bir kaç sigorta yetmiyor. Merkezinizin bulunduğu binanın trafo kapasitesi, mahalledeki altyapı, hatta şebekeye olan uzaklık bile bir gün karşınıza çıkıyor. Sonra soğutma sahneye giriyor: GPU yoğun iş yükleri klasik hava akışıyla bir yere kadar idare ediyor, sonra sıcak hava koridoru kış güneşi gibi içeri doluyor. Birkaç ay önce “sadece iki sunucu daha” derken, bugün “arka kapı ısı değiştirici mi, yoksa doğrudan sıvı soğutma mı?” sorusuna bakıyorsunuz.

Buradaki kritik nokta şu: Bu büyüme doğrusal değil, sıçramalı. Bir adım daha derken bir eşiği aşmak zorunda kalıyorsunuz. Tıpkı apartman dairesinden atölyeye, oradan küçük bir fabrikaya geçmek gibi. Her geçiş yeni kurallar, yeni alışkanlıklar getiriyor.

Nereye, nasıl genişlenir? Eski binayı mı büyütelim, yoksa yeni alan mı kuralım?

Bir gün toplantı odasında şu cümle havada asılı kalır: “Mevcut odanın duvarlarını biraz daha geri itsek?” Kulağa pratik geliyor, çünkü kablolar orada, güvenlik orada, insanlar orada. Fakat gerçek hayatta, mevcut alana ek güç ve soğutma getirmek bazen yeni bir yer kurmaktan daha zor olabilir. Binanın altındaki altyapı, çatıdaki kondenser alanı, dış üniteler için izin, komşu parselin duvarı… Hepsi birer “acaba?” sorusu.

Yeni bir alan kurmak ise bambaşka bir koşu. İnşaat izinleri, trafo için bekleme süresi, fiber çekilecek güzergâh, jeneratörün koyulacağı yer… İlk bakışta yorucu görünüyor ama uzun vadeli nefes alanı sağlıyor. Burada kilit, geçiş sürecini iyi planlamak. Mesela şöyle düşünün: Önce küçük bir çekirdek oda ile başlayıp, modüler adımlarla genişlemek. Böylece hem yatırımın ritmini gerçek ihtiyaçlarınız belirler, hem de gereksiz boş kapasiteye bakıp iç çekmezsiniz.

Bir ayrıntı daha var: Bekleme süreleri. Trafo ve anahtar ekipmanlarını beklemek bazen projenin yarısı kadar zaman alabiliyor. O yüzden, niyet belirir belirmez enerji şirketiyle konuşmak, alternatif hatları düşünmek ve geçici çözümleri cebinizde tutmak işe yarıyor. Bazı ekipler bu bekleme döneminde yazılım tarafındaki verimlilik çalışmalarını hızlandırarak hem faturayı hem de ısıyı kontrol altında tutuyor.

Soğutma: Havadan sıvıya giden sessiz yol

Soğutma tarafı, veri merkezi hikâyelerinin asıl başrolü. İlk başta sıcak-soğuk koridor düzeni, iyi bir hava akışı, doğru basınç yönetimi derken gayet mutlusunuz. GPU yoğun iş yükleri arttıkça, hava hâlâ iyi ama yetmez hale gelebiliyor. İşte arka kapı ısı değiştiricileri burada devreye giriyor; sıcak hava kabinin içindeyken ısının büyük kısmını su devresine bırakıp daha serin bir çıkış sağlıyor. Bu sayede odanın tamamını buzhaneye çevirmeden hedefe odaklanıyorsunuz.

Daha ileri bir adım, doğrudan çipe sıvı ile dokunmak. Kulağa ürkütücü gelebilir ama pratikte düzenli ve kontrollü bir sistem. Boruların güvenliği, sızıntı algılama, bakım süreçleri işin mutfağında disiplin istiyor. Bir de daldırma soğutma var; bütün sunucu şasisi, ısıyı taşıyan özel bir sıvının içinde çalışıyor. Gürültü azalıyor, ısı yönetimi bir üst seviyeye çıkıyor. Karar verirken sadece derece hesabı yapmıyorsunuz; bakım alışkanlıklarınızı, rezerv parça stoklarınızı, ekibin rahat ettiği çalışma biçimini düşünüyorsunuz.

Suyun hikâyesi burada bitmiyor. Isıyı dışarı bırakma şekliniz, su tüketimi ve çevresel etkiler bir gün kapınızı çalıyor. Kimi ekip, kuru soğutucularla su kullanımını azaltmayı tercih ediyor; kimi, atık ısıyı binanın ısıtma sistemine taşıyarak faydaya çeviriyor. ASHRAE’nin veri merkezi soğutma rehberleri bu yolculukta iyi bir harita sunuyor; ama nihayetinde sizin sahadaki tecrübeleriniz ve iklim koşullarınız kararın en güçlü pusulası oluyor.

Güç: Şebeke ile barış yapmak

Enerji tarafında ilk soru hep basit: “Kaç kilovat?” Sonra ikinci soru geliyor: “Peki, her zaman mı?” Çünkü eğitim dönemlerinde güç ihtiyacı pik yapıyor, gündüz-gece farkı oluşuyor, bakım planlarıyla kesişiyor. Şebeke ile iyi bir ilişki kurmak burada altın değerinde. Talep yönetimi, pikleri bölmek, bazı işleri uygun saatlere kaydırmak, hatta güneş-batarya gibi destekleri düşünmek rahatlatıyor. Enerji şirketi ile erken konuşmak, trafo kapasitesi ve hat güzergâhı için yol almanızı sağlıyor.

UPS ve jeneratör tarafı da ayrı bir oyun planı istiyor. Yük profili düz bir çizgi değilse, batarya boyutlandırmayı daha esnek ele almak iyi geliyor. Jeneratör testi yaparken AI işlerini nereye park edeceğiniz, bu sırada hangi servislerin “her koşulda” ayakta kalacağı ekip içinde net olmalı. Bazı ekipler, acil durum senaryolarında daha hafif modellerle minimum hizmet düzeyini korumayı seçiyor. Bu, hem kullanıcıyı yalnız bırakmıyor hem de kritik anlarda gereksiz gerilimi alıyor.

Bu noktada, yatırımı yalnızca PUE gibi tek bir sayıya indirgememek gerektiğini eklemek isterim. Güzel bir hedef ama hikâyenin tamamı değil. En önemlisi, işinize hizmet eden bir dengeyi kurmak. Aksi halde kağıt üzerinde pırıl pırıl duran bir merkez, pratikte ekip için ağır bir yüke dönüşebiliyor.

Ağ ve depolama: AI treninin raylarını döşemek

AI için hesap gücünü artırdınız diyelim. Peki veri nereden, nasıl akacak? Model eğitimi sırasında depolama ile sunucular arasındaki hat, bir anda otoyola dönüşüyor. Doğu-batı trafiği yükseliyor, gecikmeye takılmak istemiyorsunuz. Burada fiber sayısı, omurga topolojisi, erişim katmanının düzeni sessizce belirleyici oluyor. Küçük bir dokunuşla, çekirdek-omurga düzenine eklenen bir yedek hat, gece yarısı yaşanacak bir kablo kazasını sadece loglarda bırakabiliyor.

Canlı serviste, kullanıcıların modelle konuştuğu anlarda akış çok değişken. Kimi saniyeler boş, kimi anlar tıklım tıklım. L4/L7 yük dengeleme ile kesintisiz ölçek kurma yaklaşımı bu iniş çıkışları sakince karşılamaya yardımcı oluyor. Trafiği akıllıca bölmek, sağlık kontrolleriyle sorunlu düğümleri kibarca kenara almak, hatta seans bazlı yapışkanlıkla kullanıcı deneyimini sakin tutmak güzel sonuç veriyor.

Depolama tarafında da şu soruyla tanışırsınız: Sıcak veri nerde, soğuk veri nerde? Modelinizi her dakika aynı dosyaya baktırmak istemezsiniz. Kademeli bir yaklaşım; hızlı erişim için daha yakın, arşiv için daha uzak demektir. Böyle olunca, yedekleme ve replikasyon da ritmini buluyor. Geceleri daha ağır işler yürütmek, gündüz gelen trafiğe geniş yol bırakmak herkesin yüzünü güldürüyor.

Sürdürülebilirlik: Hesap kitapla birlikte iç rahatlığı

Bir veri merkezinin kalbinde sürekli bir ısı diyaloğu var. İçeri giren enerji, işini görüp dışarı ısı olarak çıkıyor. Bu ısıyı yok saymak yerine işe dönüştürmek, şehrin vicdanına iyi geliyor. Bazı kampüslerde atık ısıyı yakındaki binalara taşıyan sistemler kuruluyor. Böylece hem suyu hem elektriği daha verimli kullanmak mümkün. Bir de gürültü ve görünmez ışık kirliliği gibi konular var; gece geç saatlerde dönen ekipmanların sesi, komşu binalarla ilişkide ince ayar gerektiriyor.

Standartlar ve rehberler burada pusula. Kimi ekip Uptime Institute’un Tier standardı anlatımlarını yol haritası gibi kullanıyor; bir başkası içerideki operasyonu tatlı dille sadeleştirip riskleri azaltmaya odaklanıyor. Önemli olan, duvara asılı bir sertifikadan çok, sahada işleyen bir alışkanlık seti. İşte o alışkanlık seti, bakım penceresinden yakıt ikmaline, yedek parça çantasından kablo etiketlerine kadar sessizce hayat kurtarıyor.

Ekip ve operasyon: Güvenlik kapısından grafik paneline

Veri merkezi büyüdükçe, “kim, nereye, ne zaman girecek?” sorusu sadece kartlı geçişle çözülemez hale geliyor. Ziyaretçi planlama, teslim noktaları, uzaktan eller dediğimiz sahadaki destek ekipleriyle uyum zamanla bir koreografiye dönüşüyor. Bir saat geç kalmış bir kargo, tüm günün planını bozabilir; bunu görüp planları esnek kurgulamak, moralin düşmesini engelliyor.

İzleme konusuna gelince, tek bir gösterge tablosuna bakıp “her şey yolunda” demek romantik bir hayal. Gerçek hayatta, güç, sıcaklık, nem, ağ, disk, uygulama ve kullanıcı deneyimi birlikte akmalı. Bir grafiğin yükselmesi, diğer bir ekranda sakin bir düşüşle anlam kazanır. O yüzden izlemeyi, ekip içinde anlaşılır ve paylaşılır bir dile çevirmek çok kıymetli. Grafiklerin altındaki notlar, küçük olay günlüğü, devreye alma sonrasında yapılan kısa değerlendirmeler; hepsi geleceğinize yazılan sessiz mektuplar.

Bakım pencerelerini seçerken, her şeyi geceye yığmak zorunda değilsiniz. Kullanıcı davranışını tanıdıkça, bazı işlerin gündüz yürütülmesi daha az stresli olabilir. Hele ki yapay zekâ özellikleriniz, bazı saatlerde daha az kullanılıyorsa, orayı nazikçe değerlendirmek işlerliği artırıyor.

Donanım, raflar ve kablolama: Küçük dokunuşlarla büyük fark

Raf yerleşimi yaparken ilk akla gelen “nasıl sığdırırım” oluyor. Oysa asıl mesele “nasıl nefes aldırırım.” Ağ ekipmanını kabinin ortasına yakın konumlandırmak, kablo yollarını mümkün olduğunca kısa ve düzenli tutmak, kör panellerle hava akışını yönetmek; günün sonunda sıcak noktaları yatıştırıyor. Bir kablonun bir santim kısa olması, bakım günü parmağınıza batacak bir kenarı eksiltir, moralinizi yüksek tutar.

Etiket konusu, her seferinde dostunuz. Basit ama tutarlı bir etiketikleme dili, gece 03:00’te aradığınız kabloyu tek seferde buldurur. Yedek parça çekmecesinde sık kırılan plastik bir klips, en kritik anda yoksa bütün planı bekletebilir. O yüzden küçük bir liste, “en çok istenenler” köşesi yapıp düzenli doldurmak büyük kazanım.

Modüler düşünmek: Parça parça büyümek neden içimizi rahatlatıyor?

AI talebi öngörülemeye açık. Bugün sakin olan bir özellik, yarın viralleşebilir. Bu belirsizlikte modüler yaklaşım, panzehir gibi. Küçük bir çekirdek kapasite ile başlamak, aynı kalıbı çoğaltarak genişlemek, işin ritmini yakalatıyor. Kablo kanallarından soğutma devresine, güç dağıtımından izleme panellerine kadar “bir modül daha eklersek ne olur?” sorusuna hazır bir cevabınız olsun.

Burada açık donanım tasarımlarını takip etmek de rahatlatıcı. Open Compute Project’in açık donanım tasarımları, raf yerleşiminden güç dağıtımına kadar bir sürü pratik ipucu barındırıyor. Kendi ortamınıza birebir uyarlamak zorunda değilsiniz; bazen sadece kablo yönü hakkında göreceğiniz tek bir fikir, üç saatlik bir masayı kurtarıyor.

Riskler ve beklenmedik misafirler: Zaman, izinler ve mevsimler

Genişleme planları sayfalarda mükemmel görünür ama sahada mevsimler söz sahibi. Yazın bir anda gelen sıcak hava dalgası, kondenser alanında farklı bir düzen isteyebilir. Yağmurlu günlerde dış ünite montajı iki kez ertelenebilir. İzin süreçleri bayram tatiline denk gelir, imza için beklerken sabrınızı sınarsınız. Bu yüzden planı kağıtta değil, takvimde ve hava durumunda tutun.

Bir de “küçük kesinti” dediğimiz şeyin psikolojisi var. Kullanıcıya duyurusu, ekip içi rolleri, geri dönüş planı… Şık bir yedek akışla, önbelleğe alınmış içerikle, kullanıcıyı karanlıkta bırakmadan ilerlemek mümkün. Önden prova yapmak, rol dağılımını netleştirmek, bir kişi yerine bir çift gözle kontrol etmek; basit ama güçlü adımlar.

Bütçe ve iş modeli: Kolokasyon mu, kendi alanınız mı, hibrit mi?

Geldik para kısmına. Kolokasyon seçmek, şebeke ve bina derdini büyük ölçüde devretmek demek. Kendi alanınızı kurmak, her cıvatayı tanımak ve uzun vadede birim maliyeti düşürme şansı. Hibrit yaklaşım ise nefes aldıran bir orta yol. Burada sihirli bir formül yok. Takımınızın uzmanlığı, büyüme hızınız, finansal esnekliğiniz, hatta şehrinizin iklimi bile kararın rengini değiştiriyor.

Benim pratik önerim şu: Duygusal kararlardan kaçın, ama sezgilerinizi çöpe atmayın. Küçük bir PoC odası, birkaç ay boyunca gerçek iş yükleriyle sınansın. Hangi metrekarede, hangi akışta, hangi izleme panelinde içinize sinmiyor; not alın. Sonra o sıkıntıları büyüteçle büyütüp asıl yatırım planına yedirin. Böyle olunca sürprizler azalıyor, moral yüksek kalıyor.

AI mimarisi büyürken uygulama katmanı nasıl sakin kalır?

Altyapıda her taş yerli yerine otururken, uygulama katmanının da yeni düzeni benimsemesi gerekiyor. Daha çok örnek işlemek, daha çok kullanıcıya cevap vermek demek; ama bunu her an aynı gürlükte yapmak zorunda değilsiniz. Önbellek katmanları, ön ısıtma dediğimiz tekniklerle kullanıcı ilk geldiğinde karşılaştığı beklemeyi azaltabilirsiniz. Bazı cevapları arka planda tazelemek, sıcağı sıcağına üretmek yerine akıllıca servis etmek, hem maliyeti hem stresi indiriyor.

Gözden kaçan bir detay da sürüm yönetimi. Büyük bir model güncellemesi, küçük bir kernel güncellemesinden daha gürültülü olabilir. Versiyon geçişlerini porsiyonlara bölmek, yeni sürümü az sayıda düğümde denemek, hatayı izolasyon altına alır. Sakin sakin yükseltmek, “yine mi gece 2 oldu” hissini azaltır.

Kapanış: Büyük resim, küçük adımlar

Bir veri merkezini büyütmek, bir ekip olarak aynı şarkıyı farklı enstrümanlarla çalmaya benziyor. Güç, soğutma, ağ, depolama, güvenlik, uygulama ve kullanıcı deneyimi; hepsi tek tek güzel ama birlikteyken anlamlı. AI talebi bu orkestrayı daha hızlı tempoya çağırıyor. Bizim işimiz, hızlanırken ritmi bozmamak.

Pratik birkaç not bırakayım: Ne yapmak istediğinizi erkenden yazın, enerji ve soğutma için alternatif planlar hazırlayın, izleme panellerini ekipçe konuşulan bir dile indirin. Modüler adımlarla ilerleyin, küçük bir pilotla sahayı tanıyın, tedarik sürelerini takvimin baş köşesine koyun. Ve her şeyi bitirince kısa bir “ne öğrendik” seansı yapın; gelecekteki siz, şimdiki size teşekkür edecek.

Umarım bu yazı kafanızdaki düğümleri biraz gevşetmiştir. AI rüzgârı arkadan eserken, veri merkezini sakin ve sağduyulu büyütmek mümkün. Sorularınız olursa not bırakın, bir sonraki yazıda belki onları konuşuruz. Şimdilik hoşça kalın.

Sıkça Sorulan Sorular

İkisi de olur; karar, binanızın elektrik ve soğutma sınırlarına bağlı. Mevcut alanda küçük bir pilot yapın, tıkanan noktaları görün. Eğer güç ve soğutma eklemek zorlaşıyorsa yeni bir alana modüler başlayıp kademeli genişlemek genelde daha rahat ilerletiyor.

Önce hava akışını tertipleyin; sıcak-soğuk koridor, kör paneller, kablo düzeni. Sonra arka kapı ısı değiştirici gibi odaklı çözümleri düşünün. İhtiyaç artarsa doğrudan sıvı soğutmaya geçmek, hem gürültüyü hem sıcak noktaları sakinleştirir. Ekibin bakım alışkanlıklarına uygun çözümü seçmek kilit.

Akıllı önbellekleme, arka planda yenileme ve iyi bir yük dengeleme düzeni çok işe yarar. Trafiği sağlıklı düğümlere yönlendirmek, yeni sürümleri küçük bir yüzdeyle yayına almak ve yoğun saatleri önden tahmin eden basit kurallarla kapasiteyi esnetmek kullanıcı deneyimini korur.