FPGA를 이용한 고성능 컴퓨팅 가속화

개요애플리케이션의 요구가 기존 프로세서가 제공할 수 있는 능력보다 빠르게 높아지고 있다. 이의 해결책은 특정 용도 코프로세서를 이용해서 프로세서를 보강하는 하드웨어 가속화이다. 이러한 코프로세서 디자인의 토대로 FPGA를 이용함으로써 적절한 수준의 가격대비 성능 및 사용의 편의성뿐만 아니라 대폭적인 소비전력 절감을 달성할 수 있다.마이크로프로세서는 40여 년 전에 처음 등장한 이후로 그 성능이 현저히 향상되었다. 이 기간에 성능이 거의 매 18개월마다 두 배로 향상되었는데 이 경향을 “무어의 법칙”이라고 한다. 이러한 결과로서 프로세서가 장난감 같았던 것에서 한 때는 꿈으로 불렸던 Cray-1 수퍼컴퓨터의 성능을 능가하는 장치로 발전했다.새로운 단계의 프로세서가 나올 때마다 더 복잡하고 더 뛰어난 성능을 요구하는 애플리케이션을 구현할 수 있게 되고 사용자의 경험의 폭이 확대되었다. 마이크로프로세서의 역사 대부분에 걸쳐 애플리케이션의 요구사항은 프로세서 성능이 향상됨에 따라 일어났기 때문에 프로세서의 성능은 애플리케이션의 요구보다 한 발씩 앞서 나갔다. 하지만 지난 수년 동안에 그러한 상황이 변화되었다. 이제 고성능 컴퓨팅(HPC) 애플리케이션은 프로세서만으로 제공할 수 있는 것 이상을 요구함으로써 요구와 성능 사이에 기술 격차가 발생하게 되었다(그림 1).애플리케이션의 요구가 이와 같이 현저히 높아진 데는 여러 가지 이유가 있다. 그 한 예가 금융 분석으로서, 이 분야에서는 금융기관들이 자신의 애플리케이션을 가속화해서 시장에서 경쟁 우위를 확보하는 방법을 찾고 있다. 금융 애플리케이션 가속화는 금융기관이 경쟁사보다 더 신속하고 더 정확하게 거래를 수행할 수 있게 한다. 빨라진 애플리케이션은 금융기관들이 더 신속하게 더 우수한 결과를 달성함으로써 대대적인 금융 이득을 얻을 수 있도록 한다. 이를 위해 필요한 성능 향상을 달성하기 위해서는 프로세싱 성능이 최소한 두 배 늘어나야 하는데, 이런 전 방위적 성능향상을 위해 수십 배의 프로세싱 성능이 필요하게 된다.많은 기존의 애플리케이션들이 갈수록 더 복잡한 알고리즘을 채택함으로써 프로세서에 대한 요구를 높였다. 예를 들어서 통신 인코딩 및 디코딩(CODEC), 데이터 압축 및 웨어하우징, 암호화를 위한 알고리즘은 애플리케이션 성능을 높이기 위해서 복잡성이 대폭적으로 높아졌다. 일부 애플리케이션은 심지어 스스로 점점 더 복잡해지는 순환구조를 가지고 있다. 예를 들어 해커들이 기존의 수단을 우회하는 방법을 터득함에 따라서 보안을 위해 갈수록 더 정교한 암호화가 필요해진다.애플리케이션의 성능 한계 도전또한 필요한 성능이 충족됨에 따라 다수의 새로운 애플리케이션이 등장하고 폭넓게 채택되었다. 프로세싱 성능이 충분히 높은 수준에 도달하자 초음파, 컴퓨터 단층촬영(CAT) 스캐닝, 자기 공명 영상(MRI) 등의 의료 영상이 등장했으며, 그 이후로 계속해서 더 높은 해상도를 요구하고 있다. 연구 시뮬레이션 및 모델링 또한 마찬가지로 등장해 주류 기술로 자리 잡음으로써 모델 복잡성이 갈수록 높아지고 있다. 금융 서비스 분야에서도 HPC를 채택해서 모델 및 시뮬레이션을 이용해서 금융 의사결정에 있어 실시간 지원을 제공한다.이와 같이 더 높은 성능에 대한 요구뿐만 아니라 더 신속한 결과에 대한 요구 또한 충족해야 한다. 이러한 요구는 부분적으로는 사용자의 기대가 높아짐으로써 애플리케이션 성능에 대한 새로운 기준을 제시하기 때문이다. 사용자들은 애플리케이션이 갈수록 더 빠르게 실행되기를 기대하며 느린 반응 속도를 견디지 못하게 되었다. 하지만 현재의 성능을 뛰어넘도록 하는 또 다른 그리고 더 강력한 동력은 연산 속도가 제공할 수 있는 경쟁 우위다. 예를 들어서 유전자를 이용한 의료 연구의 경우에 시뮬레이션 결과를 더 빨리 내놓을 수 있다면 시장을 선점하느냐 아니면 단순히 뒤쫓아가느냐의 차이를 만들어낼 수 있다. 금융 시장의 컴퓨터 제어 상품 거래에 있어서는 밀리초가 수백만 달러의 이윤 또는 손실을 의미할 수 있다. 이제 더 높은 성능은 더 높은 수익성을 의미하며, 시장은 프로세서가 뒤따라오기를 기다리려고 하지 않는다.성능에 대한 요구의 증가 속도가 무어의 법칙을 앞서기 시작함에 따라서 프로세서가 요구를 따라잡지 못하기 시작했다. 지난 40여 년 동안의 성능 향상의 대부분은 반도체 기술이 향상됨에 따라서 처리속도 및 시스템 성능이 향상된 결과였다. 하지만 그러한 기술 향상이 심각한 한계에 도달하고 있다. 회로가 갈수록 복잡해짐에 따라서 개발비가 디자인당 수백만 달러로 치솟았으며 새로운 생산 용량을 달성하는 비용이 플랜트당 수십억 달러로 상승하였다. 클럭 속도가 높아짐에 따라서 디바이스 전력 소비 또한 증가했으며 이제는 열을 충분히 신속하게 제거할 수 없는 수준에 도달했다.다행히 프로세서 성능을 높이는 것만이 갈수록 높아지는 애플리케이션 요구를 충족하는 유일한 방법은 아니다. 특정 용도 프로세서를 이용해 프로세서를 보강하는 것은 오래 전부터 성능 부족을 해결할 수 있는 실현 가능한 기법으로 인정되었다. 그와 같은 코프로세서를 사용하는 것은 모뎀이나 이더넷 컨트롤러 같은 특수한 I/O 프로세싱에서부터 시작되었으며, 디스플레이 요구가 높아짐에 따라 그래픽 렌더링 엔진을 이용하고 높아진 보안 요구를 위해 암호화 엔진을 이용하는 것으로 점차적으로 확대되었다. 뿐만 아니라 곱셈 및 나눗셈을 처리하기 위해 최초로 연산 가속화기의 형태로 다수의 범용 코프로세서가 등장했다. 그리고 이어서 빌트인 연산 하드웨어를 통합하고 파이프라인 및 병렬 구조를 특징으로 하는 새로운 아키텍처를 채택해서 복잡한 수학적 알고리즘을 처리하도록 설계된 코프로세서로서 디지털 신호 프로세서가 등장했다.하지만 그러한 특수한 구조는 오늘날의 기술 격차를 해소하기 위해 아주 적합한 해결책은 아니다. 이들 구조는 문제의 한 측면만을 해결하기 때문이다. 과거에는 프로세서 성능이 대다수 용도를 해결할 수 있었으며 비용 및 이점에 있어서 매력적인 특정한 애플리케이션에서만 코프로세서가 이용되었으므로 그러한 구조가 수용될 수 있었다. 오늘날의 기술 격차를 해소하기 위해서는 기존의 코프로세서가 제공하는 것보다 더욱 더 다양한 속성의 조합이 요구된다. 뿐만 아니라 디지털 신호 프로세서 같은 소프트웨어 기반 구현을 피해야 한다. 메인 프로세서와 동일한 확장 한계에 부딪히기 때문이다.특정 용도 코프로세서 필요오늘날의 이상적인 코프로세서는 세 가지의 주요한 특징을 가진 하드웨어 기반 디자인이어야 한다. 첫째, 애플리케이션이 어떤 것이든 애플리케이션 내의 주요 프로세스에 대해서 특정한 하드웨어 가속화를 제공하는 디자인이어야 한다는 것이다. 둘째, 성능 요구가 증가하는 것에 따라서 이를 따라갈 수 있도록 파이프라인 및 병렬 구조를 이용해서 성능을 확장할 수 있는 코프로세서 디자인이어야 한다는 것이다. 셋째, 메인 프로세서 및 시스템 메모리 모두에 대해서 대역폭이 높고 지연시간이 짧은 인터페이스를 제공하는 코프로세서여야 한다는 것이다.이상적인 코프로세서는 하드웨어적 요구 이외에도 HPC 시장이 요구하는 “4P”를 충족해야 한다. 그것은 바로 성능(performance), 생산성(productivity), 전력(power), 비용(price)이다. HPC 시장의 성능 요구는 단순히 개별 단계에 대해서뿐만 아니라 최소한 전체 알고리즘의 가속화에 대한 것이며, 전체 애플리케이션의 가속화에 대한 것이라면 더 이상적이다. 생산성 요구는 최종 사용자로부터 비롯된다. 코프로세서는 기존 컴퓨터 시스템에 설치하기가 간편해야 하며 기존 애플리케이션 소프트웨어를 가속화하기 위해 시스템을 구성하기 위한 간편한 기법을 제공해야 한다.HPC 시장의 전력 요구는 컴퓨팅 시스템의 설치 및 이용에 있어서 전력 소비가 부과하는 한계에 의해서 비롯되는 것이다. 많은 사용자의 경우에 컴퓨터가 이용할 수 있는 공간이 제한적이다. 컴퓨팅 시스템이 필요로 하는 전력이 적을수록 이 공간을 적절한 온도 한계 이내로 유지하기 위해 필요한 냉각이 줄어든다. 그러므로 코프로세서의 전력소모가 적을수록 컴퓨팅 시스템의 작동 비용이 감소하거나 아니면 그 공간에 더 많은 컴퓨팅 시스템을 집어넣을 수 있다는 뜻이 된다.비용 역시 HPC 시장에서 갈수록 더 중요한 요소가 되고 있다. 10여 년 전에는 단일 프로세서가 제공할 수 있는 것보다 더 높은 성능을 필요로 하는 몇몇 애플리케이션들의 경우 대량 병렬 프로세싱(MPP)이나 대칭적 멀티프로세싱(SMP) 같은 특수한 아키텍처를 이용했다(그림 2). 하지만 이러한 시스템은 주문제작 프로세서 및 고유의 데이터 패스웨이를 이용해야 했으며 이런 시스템을 구축하고 프로그램하는 비용이 높았다.오늘날의 HPC 시장은 그와 같은 고비용 기법들을 포기하고 더 비용 효율적인 클러스터 컴퓨팅 기법으로 변화했다. 클러스터 컴퓨팅은 인텔 및 AMD의 제품과 같은 상용화된 표준 아키텍처, 기가비트 이더넷이나 InfiniBand 같은 산업표준 네트워크, 그리고 저비용 리눅스 운영 체제 상에서 작동하는 애플리케이션을 C언어와 같은 표준 프로그래밍 언어를 이용한다. 뿐만 아니라 오늘날의 코프로세서 디자인은 클러스터에 노드를 추가할 때와 같은 수준의 비용으로 대량생산 클러스터 컴퓨팅 환경으로 매끄럽게 통합되어야 한다.이와 같은 시장 조건에서 특정 용도 하드웨어 가속화를 제공하는 코프로세서를 설계하는 것은 매우 까다로운 작업이다. 과거에 개발자들은 그래픽이나 이더넷 컨트롤러 같이 각각의 여러 범용 애플리케이션 분야에 대해서 각기 다른 코프로세서를 설계해서 애플리케이션의 요구를 수용했다. 하지만 긴 개발 시간과 높은 개발 비용 때문에 이 기법은 배제되었다. 대부분의 애플리케이션에 있어서 투자 회수가 너무 느리고 사용자들이 기다리려고 하지 않기 때문이다. 뿐만 아니라 가속화를 필요로 하는 애플리케이션이 다양하다는 점과 기존의 컴퓨팅 클러스터로 매끄럽게 통합할 수 있어야 한다는 점 때문에 이러한 기존 기법은 비용 측면에서 이용이 불가능하게 되었다.FPGA 성능의 이상적 구현하지만 각각의 애플리케이션 요구에 따라 각기 다른 코프로세서를 설계하기 위한 또 다른 방법이 있다. FPGA를 이용해서 각각의 애플리케이션의 필요에 따라 구성하는 것이다. 프로세서를 성능 한계에 다다르게 했던 동일한 반도체 기술의 발전이 FPGA로 하여금 단순한 글루 로직 컬렉터에서 고도로 유능한 프로그래머블 패브릭으로 변화하도록 했다. FPGA는 HPC 시장의 “4P”를 모두 충족할 수 있다.오늘날의 FPGA는 엄청난 성능 잠재력을 제공한다. FPGA는 가변 깊이의 파이프라인 구조를 지원할 수 있으며 수천 개에 달하는 병렬 연산 자원을 제공하므로 고도로 복잡한 기능이라 하더라도 단일 클록 실행으로 구현할 수 있다. FPGA의 프로그램 가능성을 이용함으로써 맞춤화 코프로세서를 설계해야 하는 비용 또는 지연을 유발하지 않으면서 특정한 애플리케이션의 요구를 충족하도록 구성할 수 있다. FPGA가 재프로그램 가능성까지 제공한다면 단일 칩으로 다양한 애플리케이션에 대해서 고도로 맞춤화된 코프로세싱을 제공할 수 있다.FPGA가 온보드 메모리를 포함한다는 점이 또한 중대한 성능 이점을 제공한다. 첫째, 온칩으로 메모리를 포함함으로써 코프로세서 로직의 메모리 액세스 대역폭이 디바이스가 제공하는 I/O 핀 수에 의해서 제한되지 않는다. 뿐만 아니라 메모리가 알고리즘 로직과 매우 밀접하게 결합됨으로써 외부 고속 메모리 캐시가 불필요하다. 이는 다시 전력 소비적인 캐시 액세스 및 간섭성 문제를 피할 수 있다. 또한 내부 메모리를 이용함으로써 코프로세서가 액세스 가능 메모리 크기를 늘리기 위해 추가적인 I/O 핀을 필요로 하지 않으므로 디자인 확장을 간소화한다. 더 높은 용량의 FPGA가 이전 디바이스와 동일한 보드 면적만을 차지하므로 보드 변경 없이 성능 업그레이드가 가능하다.(Altera의 Stratix III FPGA 제품군 같은) 오늘날의 고성능 FPGA에서 이용할 수 있는 구조와 자원의 결과로서 이들 디바이스를 다양한 유형의 애플리케이션에 하드웨어 가속화 코프로세서로 이용할 수 있으며 중대한 성능 향상을 달성할 수 있다. 표 1에서 보듯이 FPGA 기반 코프로세서를 실제로 이용한 경우에 있어서 프로세서만을 이용했을 때와 비교해 알고리즘 실행 속도가 최소한 10배 향상되는 것을 알 수 있다. 속도가 100배 이상 더 빠른 경우도 매우 일반적이다.맞춤화를 간단하게 만드는 툴이와 같은 성능 향상이 매력적인 것이라 하더라도 이를 달성하기 위해서 상당한 개발 작업을 필요로 한다면 그 가치가 제한적일 것이다. 다행히 FPGA는 Impulse C 및 SRC Computers의 C-하드웨어 툴에서부터 FPGA를 특정 용도 코프로세서로 전환하는 프로세스를 간소화하는 Altera Quartus II 개발 소프트웨어의 우수한 배치-배선 툴에 이르기까지 다수의 성숙한 개발 툴을 이용할 수 있다. 코드 분석 툴은 사용자의 C 코드 중 하드웨어 가속화가 유리한 서브루틴들을 찾아낼 수 있다. 컴파일러는 가속화의 효율을 극대화하기 위한 병렬 및 파이프라인 실행을 위해서 이들 함수의 객체 코드를 자동으로 구조화할 수 있다. 그런 다음에는 설계 툴이 이 객체 코드를 하드웨어 기술 언어(HDL)로 매핑하고, 이를 FPGA 레이아웃 툴이 자동으로 최종적인 코프로세서 설계로 전환할 수 있다.이와 같은 포괄적인 설계 툴 체인을 이용할 수 있으므로 사용자들이 자신의 애플리케이션을 가속화하기 위해 고생하지 않아도 된다. 이 툴 체인이 기존 코드를 취해서 자동으로 FPGA 코프로세서를 구성해서 현저한 성능 향상을 제공할 수 있다. 뿐만 아니라 이들 툴은 사용자가 효율적이기 위해서 FPGA 하드웨어 전문지식을 알아야 할 필요도 없고 코프로세싱을 위해 자신의 소스 코드를 재작성할 필요도 없다. 이러한 점은 금융 서비스와 같이 소프트웨어가 엄격하게 규제되며 변경을 위해서 높은 비용 또는 시간 소모적인 재인가를 필요로 하는 애플리케이션에 이상적이다.세 번째 “P”인 전력(power)의 경우에 FPGA는 프로세서에 비해서 중대한 이점을 제공한다. 프로세서의 순차 연산이 수백에서 수천에 달하는 클록 사이클을 필요로 할 수 있는 것과 달리 FPGA의 대량 병렬 자원은 하드웨어가 한 번의 클록 사이클에 함수를 실행할 수 있도록 한다. 그와 같이 소수의 클록 사이클이 필요하므로 FPGA는 훨씬 더 느린 클록 사이클로 작동하면서도 성능 향상을 제공할 수 있다. 클록 속도가 낮으면 전력 소비가 낮아짐으로써 FPGA 코프로세서는 프로세서에 비해서 훨씬 전력 효율적이다(그림 3).비용(price)은 네 번째 “P”로서 이 요구 역시 FPGA가 충족할 수 있다. FPGA 코프로세서의 비용은 동일한 성능의 프로세서와 비슷하거나 때로는 그보다 낮을 수 있다. 결과적으로 프로세서와 FPGA 코프로세서의 부품 비용이 표준 클러스터 디자인에서 사용되는 2개의 프로세서보다 결코 높지 않다. FPGA 코프로세서는 또한 비용을 추가하지 않으면서 다양한 방식으로 표준 클러스 디자인에 추가할 수 있다. 그러한 방법으로서 멀티프로세서 보드 디자인의 프로세서를 교체하거나, 메모리 인터페이스를 통해서 프로세서로 연결하거나, 고성능 주변장치 카드로 삽입하는 등의 방법이 있을 수 있다(그림 4). FPGA는 패브릭의 일부로서 적절한 인터페이스를 구현하기만 하면 된다.완벽하게 적합한 위치를 점하고 있는 Altera 제품Altera의 Stratix III FPGA 제품군은 HPC 코프로세싱 디바이스로 이용하기에 적합하며 다른 FPGA에 비해서 다수의 이점을 제공한다. 한 가지 이점은 로직과 DSP 블록을 적절하게 조합할 수 있다는 점이다. 적절히 조합할 수 있으므로 배정도 FP 같은 고성능 함수에 매우 적합하다. 뿐만 아니라 Stratix III FPGA는 현장 구성이 가능하므로 사용자가 실행하고자 하는 애플리케이션에 따라서 코프로세서 디자인을 변경할 수 있으며 그럼으로써 사용자의 요구가 변화하는 것에 맞춰 지속적으로 가속화를 제공할 수 있다.Stratix III FPGA의 또 다른 이점은 메모리 업체들이 이용하는 것과 유사한 원주형 아키텍처이다. 이 아키텍처를 이용해서 Altera는 특정한 반도체 프로세스에 이용할 수 있는 최대 밀도의 부품을 만들 수 있다. 이는 높은 로직 게이트 수를 제공할 뿐만 아니라 특정한 애플리케이션에 대해서 충분한 온칩 메모리 자원을 이용할 수 있도록 한다.Stratix III FPGA는 자신의 자원으로 적절한 조합의 덧셈 및 곱셈 로직을 제공한다. 그러므로 행렬 곱셈 및 double precision 부동소수점 연산을 필요로 하는 연산 집중적 애플리케이션에 적합하다. 예를 들어서 IEEE 표준 부동소수점 곱셈 알고리즘의 대표적인 구현이 초당 48 GFLOPS로 측정된 피크 성능을 나타냈다. 적절한 조합의 자원 이외에도 Stratix III FPGA는 Avalon 라우팅 패브릭의 이점을 제공한다. 이 범용 인터커넥트 구조는 최적의 파이프라인 구조를 즉시 생성할 수 있다.Altera의 이점은 실리콘에만 머물지 않는다. Altera는 인텔이나 AMD와 같은 주요 프로세서 업체와 긴밀한 협력관계를 맺고 있으므로 이들 회사의 프로세서 제품군에 대해서 고성능 저지연 인터페이스를 제공할 수 있다. 예를 들어서 Altera와 인텔이 협력관계를 맺은 결과로서 FPGA가 인텔 프로세서와 연결할 수 있도록 FSB(Front Side Bus) 인터페이스(1)를 개발하게 되었다. 주변장치 연결을 위해 널리 이용되는 NB(North Bridge) 버스와 달리 FSB는 FPGA가 멀티프로세서 디자인에 있어서 마치 다른 프로세서인 것처럼 작동할 수 있다. 그러므로 Stratix III FPGA를 표준 클러스터 디자인에서 프로세서를 드롭인 교체하도록 구성할 수 있으므로 하드웨어 변경을 수반하지 않고 멀티프로세서 보드로 하드웨어 가속화를 구현할 수 있다. Altera와 AMD(Advanced Micro Devices)와의 협력관계의 결과로는 AMD 기반 디자인에서 동일한 유형의 드롭인 교체를 가능하게 하는 HyperTrans port 인터페이스(2)가 개발되었다.설계 툴을 위한 협력관계반도체 업체와의 협력관계 이외에도 Altera는 설계 툴 커뮤니티와 폭넓은 협력관계를 맺고 있다. 그럼으로써 Altera 디바이스를 이용해서 특정 용도 코프로세서를 개발하기 위해 다양한 툴들을 이용할 수 있다. 그러한 예로서 툴 개발회사인 Impulse와 협력해서 Impulse C를 내놓고 있다. 이는 애플리케이션 코드를 C로 컴파일하고 이를 FPGA 로직의 가속화를 위해서 최적화하는 설계 툴이다. Impulse C의 출력을 Altera의 Quartus II 개발 소프트웨어뿐만 아니라 Visual Studio, Eclipse, 그 외 표준 툴들과 호환이 가능하므로 개발자들이 자신의 애플리케이션 코드에 대해서 최적화된 코프로세서를 신속하게 생성할 수 있다. Altera의 툴 제휴에 의해 가능해진 호환성으로써 프로토타입 설계를 최적화하는 개발 작업을 수주일 단축할 수 있다.Altera는 또한 Stratix III FPGA를 이용해서 동급의 가장 우수한 디자인을 달성할 수 있도록 제품 개발사와 협력관계를 맺고 있다. HPC 시장에 있어서 최종 사용자가 자신의 컴퓨터 시스템에 곧바로 삽입해서 즉각적으로 성능 향상을 달성할 수 있는 코프로세서 모듈을 작성하기 위해서 여러 제품 개발회사와 협력하고 있다. 그러한 예로서 Xtreme Data는 보드 변경을 필요로 하지 않고 마더보드 상에서 AMD Opteron 프로세서용으로 드롭인 교체가 가능한 모듈을 개발했다. 사용자는 멀티프로세서 디자인으로 Opteron 프로세서와 FPGA 코프로세서를 필요에 따라서 조합할 수 있다.또 다른 예로서 SRC는 자사의 MAP 코프로세서 제품군을 개발하기 위해 Altera와 협력하고 있다. 이들 모듈은 메모리 버스 인터페이스를 통해서 AMD 및 인텔 프로세서 모두에 연결할 수 있으며 14GB/s의 데이터 대역폭을 달성할 수 있다. 소형의 MAP 모듈을 이용해서는 소켓의 DIMM 메모리 카드를 교체할 수 있다. 대형의 코프로세서 어셈블리를 이용해서는 디스크 드라이브 베이에 장착하고 드라이브의 전력 연결 및 메모리 카드 데이터 인터페이스를 이용해서 더 높은 용량을 제공할 수 있다. SRC는 또한 C 또는 포트란 프로그램을 FPGA 코프로세서 상에서 더 신속하게 실행되도록 변환하기 위한 Carte Tool Chain을 제공한다.결론Xtreme Data 및 SRC의 코프로세서는 HPC에 있어서 한 단계 도약을 의미한다. 애플리케이션 속도가 사용자에게 제공하는 경쟁 이점 때문에 속도에 대한 요구는 앞으로도 계속해서 프로세서 혼자서 달성하는 것보다 높을 것이다. Stratix III FPGA를 기반으로 한 코프로세서는 하드웨어 가속화가 필요로 하는 고속 저지연 인터페이스를 제공하며, Altera 파트너 회사들이 제공하는 툴 사슬 및 기타 지원은 HPC 사용자들이 요구하는 맞춤화된 가속화를 간편하게 달성할 수 있도록 할 것이다. 이들 툴 및 제품은 오늘날 검증된 고성능 솔루션으로 이용되고 있으며, Altera의 지속적인 제휴에 의해서 이들 부품, 제품, 툴들이 계속해서 미래의 HPC 요구를 충족할 수 있도록 할 것이다.<주석설명>(1) FSB(Front Side Bus)는 프로세서(CPU)-시스템 메모리 데이터 버스를 지칭하는 용어이다. 이를 CPU 버스 속도, 외부 CPU 속도, 메모리 버스, 시스템 버스라 하기도 한다. 이는 CPU가 RAM(메모리)과 통신하는 속도이다. 컴퓨터 상의 FSB가 프로세서를 메모리 버스, PCI 버스, AGP 버스로 이루어진 NS(North Side) 브리지로 연결한다. 일반적으로 FSB 버스가 고속일수록 프로세싱 속도가 높고 컴퓨터가 더 고속이다:www.intel.com/technology/platforms/quickassist/index.htm-iid=platform_home+qa(2) HyperTransport 기술은 컴퓨터, 서버, 임베디드 시스템, 네트워킹 및 원격통신 장비에서 IC 간의 통신 속도를 일부 기존 기술보다 최대 48배 더 빠르게 높이도록 설계된 고속 저지연 점대점 링크이다. HyperTransport 기술은 시스템 내에서 버스의 수를 낮출 수 있도록 함으로써 시스템 병목 문제를 줄이고 오늘날의 고속 마이크로프로세서가 하이엔드 멀티프로세서 시스템에서 시스템 메모리를 더 효율적으로 사용할 수 있도록 한다:www.hypertransport.org<감사의 말>- Bryce Mackin, Altera 애플리케이션 사업 부문 연산 및 스토리지 전략 마케팅 부장

회원가입 후 이용바랍니다.

개의 댓글

BEST댓글

BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.

댓글삭제

삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?

댓글수정

댓글 수정은 작성 후 1분내에만 가능합니다.

내 댓글 모음

신용진 (webmaster@techworld.co.kr)

기자의 다른기사 보기

434호

256호

FPGA를 이용한 고성능 컴퓨팅 가속화