Xeon sunucu ailesinin yeni üyesi ve tek
başına bir süper bilgisayar gücündeki İntel Xeon
Phi.
Uluslararası Süper Bilgisayar Konferansı’nda tanıtımı yapılan Intel’in Xeon Phi
sunucu işlemcisi gelecekteki Entegre Core mimarisine sahip işlemcilerin yeni yüzü
olarak belirtildi. Phi , 60 çekirdekli
işlemciye sahip olması ,her bir çekirdeğin büyük L2'si olması, değişik ring-bus sisteminin olması sabebiyle önemli
özellikleri barındırıyor. X86
programlama modelleri ile tamamıyla uyumlu Intel Xeon Phi, ana işletim
sisteminden bağımsız olarak kendi Linux tabanlı bir işletim sistemi ile
çalışıyor. Intel Xeon Phi işlemcisi en yüksek performansı sağlamak için
tasarlanmıştır.
İntel Xeon
Phi İşlemcisinin özellikleri aşağıdaki resimde belirtilmiştir.
SİSTEM YAPILANDIRMA
Intel iş
istasyonu iki Intel Xeon işlemci, ™ bir PCIe * x16 veri yolu bağlı coprocessors
ve bir GPU grafik ekran için bir veya iki Intel ® Xeon Phi.
Şekil1:Yazılım Bloğu
Şekil 1'de gösterildiği gibi Intel ®
Xeon Phi ™ işlemci yazılım yığını katmanlı
yazılım mimarisinden oluşur.
Çok Entegreli Çekirdek Mimarisine Genel Bakış
Intel ® Xeon Phi ™ işlemci 61 tane , ®
1GHz (en fazla 1.3GHz için) çalışan MIC Mimarlık işlemci çekirdeğine sahiptir.Intel
® MIC Mimari 64-bit adresleme ve yeni 512-bit genişliğinde SIMD vektör
talimatları ve kayıtları ile
uzatılabilir x 86 ISA, dayanmaktadır. Her bir çekirdek 4 donanım konularını
destekler.Çekirdekte ek olarak, on kalıp
hafıza kontrol ve diğer bileşenler vardır.
Şekil 2: Çok çekirdekli mimarinin
gösterimi
Her bir çekirdek yeni tasarlanmış
Vektör İşlem Birimi (VPU) içerir. Her vektör ünitesi 32 512-bit vektör
kayıtları içerir. Yeni vektör işleme modeli desteklemek için, yeni bir 512-bit
SIMD ISA tanıtıldı. VPU Intel ® MIC Mimarlık-tabanlı çekirdek önemli bir
özelliğidir. Tam vektör birimi kullanan en iyi Intel ® Xeon Phi ™ işlemciye
performans için önemlidir. Bu Intel ® MIC Mimarlık çekirdeği diğer SIMD ISA’yı
(örneğin, MMX ™, Intel ® SSE, veya Intel ® AVX gibi) desteklemeyen birimler için önemlidir.
Her bir çekirdek bir 32 KB L1 veri
önbelleği, bir 32 KB L1 yönerge önbelleği ve 512 KB L2 önbelleğe sahiptir. Tüm
çekirdek L2 önbellek birbirleri ile bağlantılı ve bir çift yönlü halka ile bellek denetleyicileri vardır. Yüksek ön
belleğe sahip olması önemlidir. . Xeon Phi de , SB/IB'deki
gibi bi tür ring bus var. Çekirdekler ana bellek veya birbirleri ile bu
ring-bus üstünden iletişim kuruyorlar.
Her bir çekirdek kendine has 512kb L2 önbelleği vardır.( 60 çekirdek
için 30mb L2 var). Her çekirdek yüksek
L2 'ye sahiptir. Her çekirdeğin yüksek
L2 'ye sahip olması, simulasyon sırasında her çekirdeğin daha az kartın ana belleğine erişmesini sağlıyor. Bu
da inanılmaz performans ve güç tasarrufu
demektir. Kepler GK110 ile karşılaştırırsanız gk110 da 1.5MB L2 var. Simulasyon
sırasında her bir işlem grubunun işi bitince mutlaka karttaki belleğe çıkması
erişmesi yeni veri alması gerekiyor ki, Phi'de çekirdeklerin belleğine çıkma
ihtiyacı çok daha az. İlave olarak çekirdekler birbirleri ile bir tür Coherent
Bus ile bağlı, yani bir çekirdek başka bir çekirdeğin ne tür veriyi tuttuğunu
biliyor. Bir şekilde o veriye ihtiyaç duyulursa kartın ana belleğine çıkmadan
ulaşılabiliyor.
Yüksek-Paralel Uygulamalar için İntel Xeon Phi
Yüksek paralel uygulamalardan yüksek
performans yakalamak İntel Xeon Phi ile çok daha kolay.Dayanan Intel ® Xeon Phi
™ işlemcisi 5110P, Intel Çok Entegreli Çekirdek (MIC) mimarisine sahiptir.Intel
® Xeon ® işlemci performansı ve enerji performansı zorlu paralel uygulamalarda
çok daha iyi.
X86 programlama modelleri
ile tamamıyla uyumlu Intel Xeon Phi, ana işletim sisteminden bağımsız olarak
kendi Linux tabanlı bir işletim sistemi ile çalışıyor. HPC için
optimize edilmiş, yüksek-paralel, ayrı işlem düğümü gibi komplex uygulamaların
üstesinden geliyor. PCIe form faktöründeki Xeon Phi, Intel’in yeni 22nm, 3-D tri-gate transistör
teknolojisini kullanıyor. İçerisinde 50′den fazla çekirdek ve 8GB GDDR5 bellek içeren
Xeon Phi, 1 teraflop’luk (saniyede 1 trilyon kayan nokta işlemi) işlem gücü ile
tek başına bir süper bilgisayar gücüne ulaşabiliyor. 2012 yılının ikinci
yarısında çıkan Xeon Phi için Intel, aralarında Bull, Cray, Dell, HP, IBM,
Inspur, SGI ve NEC’in de yer aldığı 44 kadar destekçiyi de arkalarına alarak
sektörün lideri olduğunu da bir kez daha kanıtlamış oldu. Son olarak 2013 yılı
içerisinde Intel, Xeon işlemci ailesinin Petabayt sınıfı süper bilgisayarı
kategorisine Intel Xeon Phi ailesinin en yeni üyesi “Stampede” kod adlı işlemcisi ile noktayı
koyacak.
Temel İntel
Xeon Phi İşlemci mimarisinin blok diyagramı gösterilmiştir.
"Intel
Xeon Phi oturarak ve birkaç satır ekleyerek birkaç dakika da çok büyük işler
başarabilirsiniz. Hareketli bir GPU için bir kod bir projedir.
Dan Stanzione,
-
Müdür
Yardımcısı Texas Advanced Computing
Center
Tüm Kodunuz için Tek Programlama
Modeli
Programlama dilleri, modelleri ve araçları
geniş bir ürün yelpazesinde Intel mimarisini destekler ve hepsi Intel Xeon
işlemci ve Intel Xeon Phi de kullanılabilir.Bir işlemci ailesi üzerinde çalışan
uygulamalar büyük ölçüde optimize ve yazılım bakımı, geliştirme karmaşıklığını
azaltabilir.Paralel uygulamalarda büyük başarı sağlanır.
Şekilde de
görüldüğü gibi yüksek paralel uygulamalarda İnet Xeon Phi en iyi performansı
gösterir.
İntel Xeon
Phi Performans Bilgileri
Şekilde hassasiyet ve hafıza bant
genişliğinin grefikleri ve İntel Xeon Phi inin yüksek performansı
görülmektedir.
Yapay Deney Özet
İntel Matematik Çekirdek
Kütüphanesi
İşlemcisi sonucu: İşlemci merkezden
yardım almadan %100 işlem yapıyor .
İŞLEMCİ GÜÇ DEĞERLERİ(WATT BAŞINA PERFORMANS)
İntel
Xeon Phi İşlemcisi: Uygulama
Performansları 10x e kadar artar.
Phi adını alan yonga Intel’in
alışageldiğimiz işlemcilerinden farklı bir yapıya sahip. Aslına bakılacak
olursa yonga bir CPU’dan çok yapısal olarak bir GPU’ya daha çok benziyor.
Ayrıca, işlemci kendine ait bir PCB ile beraber kullanılıyor. Phi’nin 2009 yılında sona erdirilen ve Intel’in tek başına
pazarlayacağı GPU projesi olan Larabee’den elde edilen tecrübe ile
geliştirildiği belirtiliyor.Phi deki işlemciler basit yapılı eski pentiumlardan
oluşuyor(P54c ilk pentiumlar ) , vektör üniteleri, L2 önbellek, iletişim
birimleri. x86 / x86-64 / x87 desteği var, SIMD üniteleri farklı. Bizim bildiğimiz
bizim bilgisayarlardaki işlemcilerdeki SSE / AVX yerine 512bit başka bir SIMD ünitesi
var.Pci-ex slotuna takılıyor, harici güç girişi var, 225-300w güç tüketimi var, 6-8 gb gddram takılıdır. Kartın üstünde Linux işletim sistemi
çalışıyor, kartın takıldığı ana bilgisayar ile SSH terminalinden faln iletişim
kuruluyor. Network için takılı olduğu ana bilgisayarın kaynaklarını kullanıyor.
Ana bilgisayarla iletişim kurması gerekirse pci-e üstünden veri aktarıyor.
Mevcut bir program bunun üstünde çalışacak şekilde uyarlanmak isteniyorsa, eğer SSE vs. kullanmıyorsa hiçbir şey yapmadan direk çalışabilir. Eğer SSE vs. kullanıyorsa program recompile edilerek yine çalıştırılabilir oluyor. Phi'nin en büyük getirisi simulasyon gibi işlerdeki yüksek performansıdır. Her bir çekirdeğin kendine has 512kb L2 önbelleği var(çarparsanz da 60 çekirdek için 30mb L2 var). Her çekirdeğin yüksek L2 'ye sahip olması, simulasyon sırasında her çekirdeğin daha az kartın ana belleğine erişmesini sağlıyor. Bu da inanılmaz performans ve güç tasarrufu demektir. Kepler GK110 ile karşılaştırırsanız gk110 da 1.5MB L2 var. Simulasyon sırasında her bir işlem grubunun işi bitince mutlaka karttaki belleğe çıkması erişmesi yeni veri alması gerekiyor ki, Phi'de çekirdeklerin belleğine çıkma ihtiyacı çok daha az. İlave olarak çekirdekler birbirleri ile bir tür Coherent Bus ile bağlı, yani bir çekirdek başka bir çekirdeğin ne tür veriyi tuttuğunu biliyor. Bir şekilde o veriye ihtiyaç duyulursa kartın ana belleğine çıkmadan ulaşılabiliyor.
Intel Xeon Phi'yi AMD veya Nvidia'dan en büyük şekilde ayıran kısmı bu zaten, onlarla kıyaslanınca devasa toplam L2 belleğe sahip olması ki bunun ne kadar avantaj getirdiği çok açıktır.
Mevcut bir program bunun üstünde çalışacak şekilde uyarlanmak isteniyorsa, eğer SSE vs. kullanmıyorsa hiçbir şey yapmadan direk çalışabilir. Eğer SSE vs. kullanıyorsa program recompile edilerek yine çalıştırılabilir oluyor. Phi'nin en büyük getirisi simulasyon gibi işlerdeki yüksek performansıdır. Her bir çekirdeğin kendine has 512kb L2 önbelleği var(çarparsanz da 60 çekirdek için 30mb L2 var). Her çekirdeğin yüksek L2 'ye sahip olması, simulasyon sırasında her çekirdeğin daha az kartın ana belleğine erişmesini sağlıyor. Bu da inanılmaz performans ve güç tasarrufu demektir. Kepler GK110 ile karşılaştırırsanız gk110 da 1.5MB L2 var. Simulasyon sırasında her bir işlem grubunun işi bitince mutlaka karttaki belleğe çıkması erişmesi yeni veri alması gerekiyor ki, Phi'de çekirdeklerin belleğine çıkma ihtiyacı çok daha az. İlave olarak çekirdekler birbirleri ile bir tür Coherent Bus ile bağlı, yani bir çekirdek başka bir çekirdeğin ne tür veriyi tuttuğunu biliyor. Bir şekilde o veriye ihtiyaç duyulursa kartın ana belleğine çıkmadan ulaşılabiliyor.
Intel Xeon Phi'yi AMD veya Nvidia'dan en büyük şekilde ayıran kısmı bu zaten, onlarla kıyaslanınca devasa toplam L2 belleğe sahip olması ki bunun ne kadar avantaj getirdiği çok açıktır.
Çok Çekirdekli İşlemci Mimarisi
Tilera vs. gibi yapılara
Tiled Mimariler deniyor, toplam çip 8x8 şeklinde dizili, toplam 64 çekirdek
var, her bir çekirdek komşu 4 çekirdeğe bir tür router ile bağlı. Xeon Phi bu
tür tiled mimariler ile tamamen alakasız farklı bir yapısı var. Xeon Phi de ,
SB/IB'deki gibi bi tür ring bus var. Çekirdekler ana bellek veya birbirleri ile
bu ring-bus üstünden iletişim kuruyorlar. Tilera ile Phi birbiri ile tamamen alakasız
olduğu gibi, tiled mimarilerin sorunlu olduğu bir sürü alan var (problemin özel
olarak dizayn edilen bir çözümle çözülmeye çalışlması, özel bi şekilde
kodlanması özel compiler kullanılması gibi). Phi'de ise mesela, x86 için olan
bir kod, Intel Parallel Studio vs. ile Phi için yeniden compile edilerek
(derlenerek) bu Phi kartı üstünde çalışacak hale getirilebiliyor ki en büyük
avantajıdır. Phi ile diğer Tiled mimarili çipler veya mips/arm karşılaştırılabilir
bir durumda değildir.Tek ortak noktaları hepsinin özel amaçlar için
kullanılacak olması. Phi'nin Intel'in ürünü olmasından , hem x86 uyumlu
olmasından, hem Paralel Studio gibi gelişmiş bir ürünle desteklenmesi gibi
devasa avantajları var.
Ayrıca HPC/Süper bilgisayar alanını hedeflerken daha alt düzeye bizim seviyemize indirilebilme imkanı var, bu da çok ilginç bir noktaya taşıyor. GPU kullanmayan birçok süper bilgisayar var, Xeon E5 kullanan, bunların programlama modelleri kodları üzerinde hemen hemen hiç belki çok çok az değişiklik ile Phi üstüne taşınabilir hale getirilebilir oluyor. Esnek çalışma modları var, programın tamamen ana sistemin CPU 'su çalıştırsın (sadece 2x Xeon ), off load-programın işlem gücü isteyen kısmı Phi üstünde çalışsın, simetrik-hem Ana Makinadaki 2x Xeon hem Phi aynı anda işlem hesap yapsın, MIC-only, bütün işi programı sadece Phi çalıştırsın gibi.
Bizim seviyemize inmesini değerlendirecek olursak, açık kaynak olmayan commerical programlar için bizim yapabileceğimiz bir şey yoktur. Vray Cpu işinin bir kısmını bu karta yüklemesi modifiye etmesi gerekir. Ama ilginç olan kısmı, Phi'nin simetrik / offload gibi işleri destekledğinden, OpenCL / Cuda'nın aksine yapılacak işi yeniden kod yazma gerektirmeden programın Phi'ye taşınmasına imkan veriyor olması. Vray de mesela kullanıcılar render motorunun opencl/cuda için özel olarak yeniden tasarlamak zorunda kaldılar, render kısmını Gpu ya nasıl taşınacağı, nasıl bir grid oluşturulup işlem yapılacağı vs. vs. Phi için de benzerini yapacaklar ama bunu yapması çok daha kolay. Phi, kartı hızlandırıcı olarak kullandırtmak, GPGPU'ya göre çok daha kolay, ikincisi de CPU gücü konusunda Xeon ile ciddi anlamda karşılaştırılabilecek kapasitesi var. Gerçek dünya yüklerinde 2 soket E5 2600 serisi işlemcilere göre 2.5-3x gibi performans farkı ölçülmüş. Bu son kullanıcı taraflı işlerde, her durumda tam olarak GPU kullanılamayan durumlarda(render gibi mesela, yada bazı finansal araçlar yada GPGPU için yeniden kod yazmanın kısıtlayıcı olduğu durumlar vs. vs. gibi), 2 soket Xeon E5'in fiyatını düşününce çok büyük bi avantaj demek. GPU üstünde tam olarak yapılamayan bi işi, 3000$ lık 2x Xeon E5 sistemden 2.5-3x daha hızlı yapmak, üstelik de bunu 2000$ seviyeli bir kart ile yapmak çok cazip görünüyor. Xeon Phi 3100 model adıyla önümüzdeki sene piyasaya çıkacağı açıklanan işlemci yongası sanırım Cambridge Üniversitesi gibi elinde süper bilgisayarları olan yerlerden büyük talep görücektir.
Phi , her bir çekirdeğin büyük L2'si olması, değişik ring-bus olması sistemde, düşük teorik SP değerine rağmen belki GPU render ile karşılaştırılabilecek CPU render performansı verebilir.
Ayrıca HPC/Süper bilgisayar alanını hedeflerken daha alt düzeye bizim seviyemize indirilebilme imkanı var, bu da çok ilginç bir noktaya taşıyor. GPU kullanmayan birçok süper bilgisayar var, Xeon E5 kullanan, bunların programlama modelleri kodları üzerinde hemen hemen hiç belki çok çok az değişiklik ile Phi üstüne taşınabilir hale getirilebilir oluyor. Esnek çalışma modları var, programın tamamen ana sistemin CPU 'su çalıştırsın (sadece 2x Xeon ), off load-programın işlem gücü isteyen kısmı Phi üstünde çalışsın, simetrik-hem Ana Makinadaki 2x Xeon hem Phi aynı anda işlem hesap yapsın, MIC-only, bütün işi programı sadece Phi çalıştırsın gibi.
Bizim seviyemize inmesini değerlendirecek olursak, açık kaynak olmayan commerical programlar için bizim yapabileceğimiz bir şey yoktur. Vray Cpu işinin bir kısmını bu karta yüklemesi modifiye etmesi gerekir. Ama ilginç olan kısmı, Phi'nin simetrik / offload gibi işleri destekledğinden, OpenCL / Cuda'nın aksine yapılacak işi yeniden kod yazma gerektirmeden programın Phi'ye taşınmasına imkan veriyor olması. Vray de mesela kullanıcılar render motorunun opencl/cuda için özel olarak yeniden tasarlamak zorunda kaldılar, render kısmını Gpu ya nasıl taşınacağı, nasıl bir grid oluşturulup işlem yapılacağı vs. vs. Phi için de benzerini yapacaklar ama bunu yapması çok daha kolay. Phi, kartı hızlandırıcı olarak kullandırtmak, GPGPU'ya göre çok daha kolay, ikincisi de CPU gücü konusunda Xeon ile ciddi anlamda karşılaştırılabilecek kapasitesi var. Gerçek dünya yüklerinde 2 soket E5 2600 serisi işlemcilere göre 2.5-3x gibi performans farkı ölçülmüş. Bu son kullanıcı taraflı işlerde, her durumda tam olarak GPU kullanılamayan durumlarda(render gibi mesela, yada bazı finansal araçlar yada GPGPU için yeniden kod yazmanın kısıtlayıcı olduğu durumlar vs. vs. gibi), 2 soket Xeon E5'in fiyatını düşününce çok büyük bi avantaj demek. GPU üstünde tam olarak yapılamayan bi işi, 3000$ lık 2x Xeon E5 sistemden 2.5-3x daha hızlı yapmak, üstelik de bunu 2000$ seviyeli bir kart ile yapmak çok cazip görünüyor. Xeon Phi 3100 model adıyla önümüzdeki sene piyasaya çıkacağı açıklanan işlemci yongası sanırım Cambridge Üniversitesi gibi elinde süper bilgisayarları olan yerlerden büyük talep görücektir.
Phi , her bir çekirdeğin büyük L2'si olması, değişik ring-bus olması sistemde, düşük teorik SP değerine rağmen belki GPU render ile karşılaştırılabilecek CPU render performansı verebilir.
Önemli bir nokta: Phi diğer işlemcilerde olduğu gibi normal
kullanıcılar için değil, bir tür
yardımcı hızlandırıcı niteliğindedir.
Örnek yazılımsal olarak
kullanımı
Doğru kullanım
|
Yanlış kullanım
|
Intel® Xeon Phi™ coprocessor
|
Xeon® Phi™
|
Intel® Xeon Phi™ coprocessor
|
Phi™
|
Intel® Xeon Phi™ coprocessor
|
Intel® Xeon Phi coprocessor
|
Server with Intel® Xeon Phi™ coprocessors
|
Intel Xeon™ Phi™ server
|
Intel® Xeon Phi™ product family
|
Intel® Xeon® product family
|
Intel® Xeon Phi™ coprocessor
|
Xeon® Phi™ coprocessor
|
ABC system with an Intel® Xeon Phi™ coprocessor
|
ABC Intel® Xeon® Phi™ based system
|
UYUMLU
ÜRÜNLER
Server/Workstation Board (Ürünler: 11)
Intel® Server Board S5520UR
Intel® Server Board S5520HC
Intel® Workstation Board S5520SC
Intel® Server Board S5500BC
Intel® Server Board S5500WB
Intel® Server Board S5500HCV
Intel® Server Board S5500HV
Intel® Server Board S5500WB12V
Intel® Compute Module MFS5520VIR
Intel® Server Board S5520HCT
Intel® Server Board S5520URT
Sistem
Intel® Server System SR1680MV
Intel® Workstation System SC5650SCWS
Intel® Server System SR1630BCR
Intel® Server System SC5650BCDPR
Intel® Server System SC5650HCBRPR
Intel® Server System SR2625URLXR
Intel® Server System SR2625URLXT
Intel® Server System SR2625URBRPR
Intel® Server System SR1600URR
Intel® Server System SR1600URHSR
Intel® Server System SR1625URR
Intel® Server System SR1625URSASR
Intel® Server System SR2600URBRPR
Intel® Server System SR2600URLXR
Intel® Server System SR2600URSATAR
Intel® Server System SR2612URR
Intel® Server System SR1695WBAC
Intel® Server System SR1695WBDC
Intel® Server System SR1690WBR
Uyumlu
Yonga Setleri
Intel® 5520 Chipset
Kaynakça:
·
http://ark.intel.com/tr/products/71993/Intel-Xeon-Phi-Coprocessor-SE10X-8GB-1_100-GHz-61-core
Not: Xeon-Phi-Software-Developers-guide
mayıs 2013 de yayınlanmıştır.Ekte bulabilirsiniz.
Hazırlayan:Aysun Düşmez
0 yorum :
Yorum Gönder