IEEE 아시아 반도체 회로 학회 2011



 2011년 A-SSCC(Asian Solid-State Circuits Conference, 아시아 반도체 회로 학회)는 지난 11월 14일부터 16일까지 대한민국 제주도의 라마다 플라자 호텔에서 개최되었다. A-SSCC는 IEEE Solid-State Circuits Society의 후원을 받는 4개의 반도체 집적 회로 학회들 중 하나로 올해로 7번째를 맞이했다. 지난 6년을 보내며, A-SSCC는 IC 설계 분야에서 중요한 기술적 행사로 자리매김했다. 이 학회는 "Integrated Circuits for Sustainable Future"라는 주제로 열렸다. 더 나은 삶의 질을 추구하고자, 건강한 삶과 오래도록 지속 가능한 환경을 영유할 수 있도록 해주는 지능적인 전자 공학이 점차적으로 중요한 역할을 해오고 있다. 4개의 튜토리얼 코스와 4개의 기조연설, 2개의 인더스트리 세션과 16개의 테크니컬 세션으로 구성되어 있으며 총 98편의 논문이 발표되었다. 본 보고서에서는 SoC 이노베이션, I/O links, 인터페이스 관련 회로에 대해서 다룰 예정이다.

과제책임자: 윤원주 / Faculty of Science and Technology, Keio University
자료 협조 및 제공: KOSEN(한민족과학기술자 네트워크) / www.kosen21.org

A-SSCC 소개

A-SSCC 2011(Asian Solid-State Circuits Conference)는 11월 14일부터 16일까지 대한민국 제주도 라마다 플라자 호텔에서 열렸다. A-SSCC는 IEEE Solid-State Circuits Society가 공식 후원하는 반도체 회로 학회 4곳 중 한 곳이다. 2005년에 대만에서 처음 시작한 이래 한국, 중국, 일본에서 번갈아 가며 개최되며 올해로 7번째를 맞이하였다. 6년의 세월이 지나는 동안, IC 설계 분야에서는 명실공히 중요한 기술적 행사로 자리매김하였다.

올해는 25개국에서 총 270편의 논문이 제출되었고, 엄중한 심사를 거쳐서 총 98편의 논문이 선정되었다. 선정 비율은 약 36% 정도 이다. 이번 A-SSCC 2011의 주제는 "Integrated Circuits for Sustainable Future" 이다.

총 4개의 산업체와 학계의 리더들의 기조 연설이 있었다. Silicon Mitus의 대표이사이기도 한 허염 박사는 "Future Direction of Power management in Mobile Applications"에 대하여 발표하였고, Low-Power Electronics Association & Project의 회장을 맡고 있는 Dr. Toshiaki Masuhara는 "Challenge of Low Voltage & Low Power IC toward Sustainable Future"에 관하여 발표하였다. 대만 National Chiao-Tung University의 Professor Chung-Yu Wu는 "Medical Electronics - A Challenging Research and Industry Frontier"라는 제목으로 발표하였고, 마지막으로 영국 Imperial College London의 Professor Christofer Toumazo는 "Disposable Semiconductor Healthcare Devices; From Digital Plasters to DNA Sequencing"이란 주제로 발표하였다. 또한 두 개의 패널 토론이 있었는데, 각각은 "Will medical electronics be the next big engine for semiconductor industry?"와 "0.5V and beyond SoC platform; How and who can make it up?" 이었다. 기조 연설들과 패널 토론회의 주제와 내용을 보면, 최근 반도체 업계와 학계가 얼마나 의학, 생명공학과 협력하고, 인간 생활에 도움을 주려고 노력하는지를 알 수 있었고, 또한 에너지 소비와 지구 환경에의 영향을 고려해볼 때, 저전력과 파워 관리에 대한 중요성이 부각되었다.

이번 학회에는 4개의 tutorial 세션이 진행되었다. 각 분야의 우수한 업적을 보여준 연구자들의 강의로 이루어졌다. 그 주제들은 (1)Professor Jri Lee의 "Design of Modern CDR Circuits", (2)Dr. Noriyuki Miura의 "Inductive-Coupling Link Technology for 3D Integration", (3)Professor Byeong-Gyu Nam의 "High-Performance Mobile CPU and GPU Design", 그리고 (4)Professor Zhihua Wang의 "CMOS IC Design for Wireless Medical and Health Care"이다.

A-SSCC 만의 특징은 Industry Program과 SDC(Student Design Contest) 이다. Industry 프로그램은 올해는 6개의 논문이 2개의 세션에서 발표되었다. "System-on-Chip Innovation" 세션에서는 삼성전자, 인텔, 르네사스 전자에서 최신의 SoC 개발 작들을 소개하였고, "Power and Signaling Building Blocks" 세션에서는 르네사스 전자, 램버스, 오라클에서 파워와 시그널링 이슈를 해결하는 혁신적인 회로들을 발표하였다. 참고로 A-SSCC 2011의 SDC에서는 총 7개의 논문이 전시되었다. SDC에서 시연된 논문들은 7-1, 7-2, 5-3, 16-5, 8-5, 15-3, 그리고 2-2이다.

이번 A-SSCC를 보더라도, 최근의 반도체 회로 설계 분야에서 관심을 갖고 있는 연구 분야가 무엇인지를 가늠할 수 있었다. 물론 전통적인 회로 분야인 아날로그와 디지털 회로 설계 기술, 각종 컨버터, RF 통신 회로, 무선 송수신 회로 등은 그대로 세션의 수에서 작년과 비슷한 수준을 유지하였고, 올해는 "Circuits for Bio Sciences" 세션이 생기고, 또 그 외의 각 세션 안에 바이오나 메디컬, 헬스 케어 그리고 모바일 등의 응용 분야를 갖는 회로에 관한 논문들이 늘고 있는 추세이다. 이러한 경향은 튜토리얼 코스와 기조연설들의 구성을 보더라도 잘 반영되어 있다. 앞으로도 반도체 회로 분야는 전통적인 회로 설계 기술의 발전을 도모하는 것은 물론, 그 응용분야를 더 확장하여 그 생명을 연장시키는 방향으로 나아갈 것이라고 생각한다.

세션 별 주요 발표

1) Tutorial Session II
Tutorial 2의 제목은 "Non-Contact Interface for 3D Memory System"이다. 발표는 Keio University(慶應義塾大學)의 Noriyuki Miura 박사가 해주었다. Miura 박사는 다년간 non-contact 인터페이스 회로 연구에 힘써왔고, 다수의 논문들을 발표해 온 이 분야의 전문가이다. 튜토리얼에서는 차세대 3D IC 구현의 방향으로 제시되고 있는 TSV(Through Silicon Via)에 대비되어, 비접촉(Non-contact) 방식이 갖는 장점과 그 응용 분야에 대해서 여러 예를 들어 제시하였다.

2D로 집적화하는 데는 이미 CMOS 공정 기술이 20nm, 10nm로 가까워지면서 한계에 다다르고 있다. 따라서, NAND 플래시 쪽에서는 몇 년 전부터 단일 셀에 여러 비트의 데이터를 갖는 MLC(Multi-Level Cell)을 적용해 사용하고 있고, 또한 단일 패키지 안에 여러 개의 칩을 적층하는 것은 DRAM이나 플래시 메모리나 보편화되어 있다. 하지만 이 또한 한계점에 이르고 있어, 최근에는 TSV 기술이 각광받으면서 관련 연구가 활발하게 진행되고 있다. 그렇다면 Non-contact 방식의 3D 집적회로의 장점은 무엇일까? 우선 물리적 연결 대비 저비용이다. TSV 기술은 제조 공정상에 여러 가지 과정이 부가적으로 필요하다. 하지만, 비 접촉 방식은 칩 제작 당시에 필요한 인터페이스를 구현해놓기 때문에 추가적인 공정 과정은 필요치 않다. 또한 신호의 수를 줄일 수 있기 때문에, 불필요한 본딩 와이어를 줄임으로써 비용 절감과 성능의 이득을 볼 수 있다.

Miura 박사의 연구에서는 주로 인덕티브 커플링(Inductive Coupling)을 이용한 non-contact 인터페이스를 사용하였고, 최근에는 transmission line을 이용한 Directional Coupler를 사용하여 그 영역을 확장하고 있다. 칩 간 인터페이스(Through Chip Interface: TCI) 에는 주로 인덕티브 커플링을 이용하는데, 이는 무선랜과 같이 전방위로 전송하여 근접 채널 간에는 crosstalk을 신경 써야 하는 far-field 통신과는 달리, 인덕터 채널 내로만 집중되어 인접 채널과 crosstalk 간섭이 덜하여 채널 간 피치를 줄여 더 많은 수의 멀티 채널을 구현할 수 있다. 인덕티브 커플링 채널은 일반적으로 지름의 1/3 이내의 통신 거리를 가지며, 인덕터의 지름, 서로 간의 거리, 최대 전송 속도 등에 따라 인덕터와 송수신기의 설계 스펙이 정해진다.

TCI에서 중요한 응용 예로는 128개의 플래시 메모리 die를 적층한 것인데, 일반적인 16층 적층 패키지를 8개 사용한 SSD를 하나의 칩으로 구현 가능한 기술이다. 전원 신호만 본딩 와이어를 이용하여 연결해주고, 그 외 신호들은 모두 TCI의 인덕티브 커플링 채널을 이용하면 전체 3500여 개에 이르는 전선을 580개 정도로 줄일 수 있다.

이 같이 적층하기 위해서는 여러 채널이 겹치게 되는데, 이러한 간섭에 대한 분석이나 최적의 피치를 갖도록 설계하는 것도 많은 부분 연구가 행해져 왔다. 또한 인덕티브 커플링 인터페이스에 대해서 처음 접하게 되면 누구나 갖는 의문점이 과연 인덕터끼리 커플링이 일어날 때, 그 아래나 주변의 회로에 대한 영향은 없을지, 또 무시할 만큼 적을지 이다. Miura 박사는 이 점에 대해서도 다각도의 분석과 실험을 통해 '무시할 만큼 적다'고 제시하고 있다. 실제 예로 민감한 SRAM 셀을 인덕터 밑에 두었을 때, 동작 가능한 전압에 미치는 영향은 10mV에 불과한 수준이다. 실험 결과를 보면, 통상적인 SRAM의 동작 전원 전압이 1V ~1.2V 일 때, 영향을 미치기 시작하는 전원 전압은 0.65V 이하부터이다. 그러므로, 일반적인 동작 영역에서는 전혀 영향을 미치지 않는다고 볼 수 있으며, 전원 전압에서 10mV의 차이는 threshold 전압에 미치는 영향은 1mV 정도로 볼 수 있으므로, 무시할만 하다고 할 수 있다[9].

인덕티브 커플링을 이용한 TCI의 또 다른 하나의 장점은 바로 이종교배가 가능하고 TSV 기술에 비하여 쉽다는 점이다. 인덕터 채널의 위치만 정렬시키면 서로 다른 공정을 사용한 칩들, 서로 다른 전원 전압을 사용하는 칩들, 서로 성격이 다른 칩들(프로세서와 메모리 등) 간의 non-contact 적층이 가능하다. 이것은 물리적 연결이 아닌 인덕터를 통한 AC 커플링 인터페이스이기 때문에, 그러한 여러 가지 제약이 무시될 수 있는 것이다.
다른 전송방식으로는 인덕터 대신에 전송 선로(transmission line)를 이용한 Directional Coupler를 이용하는 방법이 있다. 이는 커플링 전송 선로(Coupled Transmission Line: CTL)가 전/자기장 커플링을 모두 이용하기 때문에 와이드밴드 특성을 가지며, 채널의 디자인 파라미터에 따라 쉽게 그 주파수 특성을 변화시킬 수 있다. 이를 이용하여 90nm 공정을 사용하여 1mm의 거리에서 12Gb/s의 데이터 전송 속도를 갖는 non-contact 인터페이스를 구현하였다. 아마도 이를 이용하여 더 광범위한 응용분야로 활용될 것이라 기대해본다.

이러한 연구 결과를 토대로 여러 가지 획기적인 애플리케이션에 적용해 왔는데, 데이터 전송용 인덕터와 파워 전송용 인덕터를 동시에 사용하여 무선 메모리 카드를 구현한다던가, 웨이퍼에 데이터를 저장하여 '로제타 스톤'처럼 천 년 동안 데이터 저장을 할 수 있는 애플리케이션도 구현하였다.

지금까지 인덕티브 커플링을 이용한 non-contact 인터페이스와 transmission line으로 구현하여 directional coupler를 이용한 non-contact 인터페이스에 관한 연구가 진행되어 왔다. 그리고 그 기술을 여러 애플리케이션에 적용하려는 시도가 보이고 있다. 기존의 bonding wire를 이용한 적층 방식이나 TSV를 이용한 방식으로는 한계가 있는 응용 분야에서는 유망하다고 생각된다. 메모리를 적층하는 데 있어서도 애초에 신호라인 자체가 많지 않은 플래시의 경우에는 상용화도 가능하다고 보는데, 반면 DRAM의 경우에는 워낙 데이터 신호나 그 외의 컨트롤, 전압 신호들이 많기 때문에 이를 모두 인덕터 채널로 꾸미기에는 무리가 있다고 생각되고, 시리얼 인터페이스로 변환하여 실제로 구현한다고 해도 다수의 채널이 필요하므로, DRAM에서 가장 중요시 생각하는 요소 중 하나인 Net Die의 손해는 불가피하다고 생각된다.

왜냐하면, 최근 DRAM은 비용 절감 차원에서 메탈 레이어의 수를 적게 쓰려고 노력하는데, 여기에 인덕터 채널을 위해서 공간을 확보하면 그만큼 회로를 위한 공간이 줄어들기 때문이다. 그리고, 이미 삼성과 하이닉스 등 메모리 회사들은 TSV로 멀티 칩을 적층하는 데 주력하고 있다. 그래서 튜토리얼에서도 좀 더 획기적인 응용분야를 찾는 듯 느껴졌고, 몇몇 분야에선 이미 성공을 거둔 듯하다. 개인적으로 비 접촉 웨이퍼 테스트 쪽이나 의료 분야, TSV의 부가적인 역할 등으로 활발히 사용될 것을 기대해 본다. 아래 그림들은 지금까지 실현된 새로운 응용분야들의 예들이다.
아래 목록은 본 튜토리얼의 참고문헌이므로, 연구 배경과 내용에 대해서 파악하기에 도움이 될 것이다.

참고문헌

[1] N. Miura, et al., "Analysis and Design of Inductive Coupling and Transceiver Circuit for Inductive Inter-Chip Wireless Superconnect," Symposium on VLSI Circuits, pp.246-249, Jun. 2004.
[2] N. Miura, et al., "An 11Gb/s Inductive-Coupling Link with Burst Transmission," ISSCC, pp.298-299, Feb. 2008.
[3] N. Miura, et al., "Cross Talk Countermeasures in Inductive Inter-Chip Wireless Superconnect," CICC, pp.99-102, Oct. 2004.
[4] T. Kuroda, et al., "Perspective of Low-Power and High-Speed Wireless Inter-Chip Communications for SiP Integration," ESSCC, pp.3-6, 2006.
[5] Y. Sugimori, et al., "A 2Gb/s 15pJ/b/chip Inductive-Coupling Programmable Bus for NAND Flash Memory Stacking," ISSCC, pp.244-245, Feb. 2009.
[6] M. Saito, et al., "A 2Gb/s 1.8pJ/b/chip Inductive-Coupling Through-Chip Bus for 128-Die NAND-Flash Memory Stacking," ISSCC, pp.440-441, Feb. 2010.
[7] M. Saito, et al., "47% Power Reduction and 91% Area Reduction in Inductive-Coupling Programmable Bus for NAND Flash Memory Stacking," CICC, pp.449-452, Sep. 2009.
[8] N. Miura, et al., "A 2.7Gb/s/mm2 0.9pJ/b/Chip 1Coil/Channel ThruChip Interface with Coupled-Resonator-Based CDR for NAND Flash Memory Stacking," ISSCC, pp.490-491, Feb. 2011.
[9] K. Niitsu, et al., "Interference from. Power/Signal Lines and to SRAM Circuits in 65nm CMOS Inductive-Coupling Link," ASSCC, pp.131-134, Nov. 2007.
[10] K. Niitsu, et al., "An Inductive-Coupling Link for 3D Integration of a 90nm CMOS Processor and a 65nm CMOS SRAM," ISSCC, pp.480-481, Feb. 2009.
[11] S. Kawai, et al., "A 4.7Gb/s Inductive Coupling Interposer with Dual Mode Modem," Symp. on VLSI Cir., pp.92-93, Jun. 2009.
[12] N. Miura, et al., "An 8Tb/s 1pJ/b 0.8mm2/Tb/s QDR Inductive-Coupling Interface Between 65nm CMOS and 0.1?m DRAM," ISSCC, pp.436-437, Feb. 2010.
[13] N. Nguyen, et al., "A 16-Gb/s Differential I/O Cell with 380fs RJ in an Emulated 40nm DRAM Process," Symp. on VLSI Cir., pp.128-129, Jun. 2008.
[14] T. Takeya, et al., "A 12Gb/s Non-Contact Interface with Coupled Transmission lines," ISSCC, pp.492-493, Feb. 2010.
[15] A. Radecki, et al., "6W/25mm2 Inductive Power Transfer for Non-Contact Wafer-Level Testing," ISSCC, pp.230-231, Feb. 2011.
[16] Y. Yuan, et al., "Simultaneous 6Gb/s Data and 10mW Power Transmission using Nested Clover Coils for Non-Contact Memory Card," Symposium on VLSI Circuits, pp.199-200, Jun. 2010.
[17] Y. Yuan, et al., "Digital Rosetta Stone: A Sealed Permanent Memory with Inductive-Coupling Power and Data Link," Symposium on VLSI Circuits, pp.26-27, Jun. 2009.


2) System-on-Chip Innovations
첫 번째로 발표된 논문은 삼성 DMC 연구소에서 발표한 "An 18ms-Latency Wireless High Quality Codec SoC for Full HD Streaming" 이다. 이 논문에서는 802.11n 규격을 지원하는 무선랜과 고품질 코덱을 집적한 SoC가 90nm CMOS 공정을 사용하여 구현되었고, Full HD 비디오를 지원하는 기기 간의 무선 연결을 가능하게 하였다. 무선랜은 2x3 MIMO를 이용하여 전송속도 270Mbps까지 동작 가능하고, 코덱은 30-bit의 RGB 포맷으로 1080P 60Hz 해상도를 지원한다. 이 시스템은 레이턴시를 18ms로 구현함으로써 게임콘솔이나 PC에 연결해도 사용 가능하고, 모든 기능이 동작할 때 1.5W의 전력을 소모한다.

두 번째 논문은 인텔에서 발표한 2세대 인텔 코어이다. 논문 제목은 "The Second Generation Intel Core: a Highly Integrated High Performance Multi IA-Core and Processor Graphics Chip"이며, 32nm 공정을 사용하여 4개의 인텔 아키텍처(IA) 코어, 그래픽 처리 장치, 메모리 컨트롤러를 내장했다. 다양한 마켓 세그먼트에 맞게 최적화된 성능/비용/전력 소모를 충족하기 위해서 모듈러 디자인 방식을 사용하였다. The Second Generation Intel Core(SGIC) 는 IA 코어, 시스템 에이전트(SA), 프로세서 그래픽(PG), L3 캐쉬와 I/O로 구성된 여러 모듈로 이루어져 있다. 그리고 순조로운 데이터 플로우를 위해 CPU 사이, PG, L3 캐쉬, SA 간에는 "ring" 이라 불리는 상호 연결 패브릭으로 고성능에 최적화되어 있다. 특히 주의 깊게 설계된 부분은 PG인데, 왜냐하면 이는 전혀 다른 설계 방식으로 설계되었기 때문이다. 심지어 이 그래픽 담당 프로세서 쪽은 기존의 다른 모듈과는 전혀 다른 라이브러리, 파워 네트워크를 사용한다.

전체적으로 조화로운 집적을 이룰 수 있었던 것은 공통적인 프로토콜을 사용하는 ring bus와 서로 다른 모듈 간에 자원을 공유함으로써 가능했다. 레이턴시 면에서 불리한 점이 있는 ring bus를 채택한 점은 SGIC가 모듈러 디자인을 지향하기 때문이다. 모든 블록에서 같은 프로토콜과 물리 레이어를 사용하기 때문에, 여러 가지 세그먼트에 대항하여 짧은 시간 안에 새로운 칩을 구현할 수 있다. 이는 칩의 여러 가지 변형 형태를 새로 만드는 개념이 아닌, 간단한 데이터 베이스의 관리에 해당하는 개념이다. 그러므로, 코어의 개수나 그에 따른 L3 캐쉬, 그리고 그래픽 프로세서의 execution unit(EU)의 개수도 세그먼트에 따라 다양하게 구현할 수 있다.

그리고 각 L3 캐쉬 등은 ring bus를 이용해 그 자원이 공유되므로, 다른 어떤 모듈에서도 액세스 가능하다. 실제 예로, SGIC는 3가지 다른 타입의 모델을 갖고 있는데 다음과 같다. 첫째로 i7 2820QM 모델은 4개의 IA 코어, 8MB의 L3 캐쉬, 12개의 EU를 가진 PG로 구성되고, 다이 면적은 216mm2 이다. 두 번째로 i7 2620M 모델은 2개의 IA 코어, 4MB의 L3 캐쉬, 12개의 EU를 가진 PG로 구성되고, 다이 면적은 149mm2 이다. 마지막으로 i3 2100 모델은 2개의 IA 코어, 3MB의 L3 캐쉬와 6개의 EU를 가진 PG로 구성되며 다이 면적은 130mm2 이다. 이와 같이, 다양한 세그먼트를 모듈러 디자인을 이용해 짧은 시간 안에 구현 가능하다. 그리고 칩의 집적도가 높아서 on-die probing은 불가능하기 때문에, GDXC(Generic Debug eXternal Connection) 포트를 사용하여 패킷 형태의 데이터를 ring bus에 실어서 logic analyzer로 디버깅 한다.


References
 
[1] Intel 64 and IA-32 Architectures Optimization Reference Manual,
http://www.intel.com/Assets/PDF/manual/248966.pdf


세 번째 논문은 Renesas 전자에서 발표한 영상인식 프로세서(XC core)에 관한 논문이다. 논문 제목은 "A Dynamic SIMD/MIMD Mode Switching Processor for Embedded Real-time Image Recognition Systems" 이다. 이 XC 코어는 하이 레벨의 병렬 SIMD (Single Instruction Multiple Data)와 중간 레벨의 병렬 MIMD(Multiple Instruction Multiple Data)를 모두 지원하며 이를 통해 대부분의 영상 인식 알고리즘에서 사용되는 다량의 데이터 레벨 병렬 처리와 업무 레벨 병렬 처리를 모두 지원할 수 있다. 하드웨어 재사용 전략을 사용하여, SIMD 내부의 4개의 프로세싱 단위(Processing Unit: PU)가 MIMD 내부의 한 개의 프로세싱 유닛(Processing Unit: PU)로 재구성 될 수 있다. 이렇게 함으로써, SIMD 또는 MIMD 단독 디자인보다 단지 15%의 면적 증가 만으로 두 가지 모드를 모두 지원할 수 있다. 이 칩은 55nm 1P8M CMOS 공정을 사용하여 제작되었고, 32개의 PE 또는 8개의 PU를 설계하여 다이 면적 3.35mm×2.30mm, 460만 게이트와 166KB의 온칩 SRAM을 집적하였다. 1.2V 전압으로 133MHz의 동작 속도로 42.5GOPS의 성능을 보여주며 421mW의 전력을 소모한다.

3) Phase Locked Circuits & I/O Links
이 세션에서는 총 6개의 논문이 발표되었는데, 한 편만 Industry에서 발표된 논문이고, 나머지는 모두 학교에서 발표된 논문이었다. 마찬가지로 "Dividers, VCO & PLL" 세션은 총 6편의 논문 중 학교에서 4편, 연구소에서 1편, 기업에서 1편이 발표되었다.
우선 첫 번째 논문은 AMD에서 발표한 "Extending HyperTransportTM Technology to 8.0Gb/s in 32-nm SOI-CMOS Processors"이다. AMD에서는 프로세서 간 연결은 자체적인 규격인 HT(HyperTransport)를 사용하는데, 기존의 45nm 공정의 Opteron 6100 시리즈 프로세서에서 사용된 6.4Gb/s의 HT 속도(HT3+)를 개선하기 위해 중점을 두었다. 새로운 32nm 공정의 설계에서 8Gb/s를 구현하기 위해 크게 2가지의 개선점이 있었는데, 하나는 수신된 클락 신호에서 고주파 지터 성분을 제거하기 위해서 와이드밴드 PLL(Phase Locked Loop)을 사용하는 것이고, 다른 하나는 파워 소모 비중이 큰 Tx 드라이버와 Rx deserializer를 부가적인 전력 소모 없이 재설계하였다는 점이다.

Source Synchronous 클락을 사용하기 때문에, 사실상 수신 단에서 받은 클락과 수신 받은 데이터의 전송 시간이 같아서 데이터를 샘플링하는 타이밍이 일치한다면 지터 모듈레이션이 있더라도 상대적으로 그 영향을 없앨 수 있다는 점에 착안하여, 수신 단의 PLL에서 지터 모듈레이션 주파수보다 넓은 주파수 밴드를 갖도록 하여 지터 성분을 효과적으로 따라가고, 샘플링 지터를 제거하였다. 아래 그림 9[S5-1-5]는 디지털 clean-up PLL의 블록도이고, 위상(proportional), 주파수(integral), 그리고 캘리브레이션의 세 가지 루프로 구성되어 있다. 위상 루프는 early/late 위상 비교기를 사용하여 그 결과를 직접 VCO에 전달하고, 주파수 루프는 위상 비교기의 결과를 14-bit 시그마 델타 DAC를 통하여 VCO를 구동하게 된다. 캘리브레이션 로직은 원하는 VCO 주파수를 얻어 내기 위해 공정 변화를 보상해 준다.

그림 11의 [S5-1-6]은 기존의 Tx 드라이버와 제안된 구조를 보여준다. 기존에는 전류모드를 사용했는데, 32nm 공정 디자인에서는 전압모드를 사용하였고, 스테이트 머신에서는 웨이트를 바꿔서 어떤 디앰퍼시스 레벨을 갖더라도 항상 출력 임피던스 값을 항상 50옴을 유지하도록 해준다. half-rate 구조를 채택하였기 때문에 듀티사이클왜곡 (Duty Cycle Distortion: DCD)의 정도가 중요한데, 클락 트리와 프리드라이버에서 주의하여 설계하였다. 45nm 설계는 6.4Gb/s에서 41mW를 소모하는데, 32nm에서는 20% 정도 줄여 33mW를 소모한다.

그림 12 [S5-1-7]과 같이 Rx의 deserializer는 기존에는 full-rate으로 동작하는 첫 번째 스테이지를 거쳐 4사이클마다 데이터 값을 두 번째 스테이지로 넘겨주었는데, 새 디자인에서는 half-rate을 사용하면서 클락의 rising edge와 falling edge를 모두 사용하여 전체적인 동작 주파수를 낮추고, 사용되는 플립 플랍의 개수도 줄여 35% 의 전력 소모 감소를 이루어냈다.

글로벌파운드리의 32nm SOI-CMOS 공정을 사용하였고, 최대 전송 속도는 8.0Gb/s에 이른다. 최대 지터는 0.12UI로 측정되었고, 기존 45nm 설계 대비 같은 전송 속도에서는 14%의 전력 소모 감소를 얻을 수 있었으며, 8.0Gb/s의 전송속도에서는 5%의 전력 오버헤드만으로 동작하였다.
두 번째 논문은 National Taiwan University에서 발표한 "A Leakage-Current-Recycling Phase-Locked Loop in 65nm CMOS Technology"이다. 나노스케일 CMOS 공정에서 액티브 디바이스는 스케일 다운 가능하지만, 패시브 소자는 한계가 있다. 따라서 면적을 적게 차지하기 위해 액티브 소자로 루프 필터를 구현하기도 하지만, 이 때는 누설전류가 문제가 될 수 있다. 본 논문에서는 면적 대비 커패시턴스 용량 밀도가 가장 높은 thin-oxide PMOS 소자를 이용하여 루프 필터를 구현하였고, 누설 전류를 재활용하여 PLL의 오동작을 막는 회로를 제안하였다.

그림 13[S5-2-2]에는 제안된 구조가 나타나 있다. 루프 필터를 구성하는 캐패시터 들을 PMOS 캐패시터를 사용하여 구현하였다. 그림 14[S5-2-3]은 본 논문에서 사용된 DMPFD(Dual-mode phase-frequency detector)이고, UP/DN 신호 외에 이들의 평균값인 VA를 출력한다. 그림 15[S5-2-4]를 보며 간단한 동작을 따라가 보면, VCTRL이 감소하면 ILeakage가 증가하고, 이는 다시 VA 노드에 그 양이 반영된다. CS의 replica 커패시터이고, 그 비율은 16:1이다. 아래쪽의 current mirror 부분도 역시 그 비율은 16이다. 따라서 VA 노드로 반영된 누설전류의 증가분은 Leakage-tracking 회로에서 네거티브 피드백처럼 동작하여 제거해 주게 된다. 그런데 DMPFD, divider, VCO는 누설 전류로부터 파워를 공급 받으므로 ripple이나 노이즈 등의 영향으로 VCO의 지터 특성이 나빠질 우려가 있다.

이 칩은 65nm CMOS 공정으로 설계되었고, 패드를 포함한 전체 면적은 0.78x0.87mm2 이며, 코어 부분만은 0.0131mm2 이다. 추가적인 보상 회로와 PMOS 커패시터 CS는 8%의 면적 추가에 불과하고, 1.2V에서 640MHz의 동작에 1.2mW의 전력이 소모되었다. peak-to-peak 지터는 52.2ps 이고, rms 지터는 9.6ps이다.

세 번째 논문은 Fudan University에서 발표했다. 제목은 "A 2.1-GHz PLL with -80dBc/-74dBc Reference Spur Based on Aperture-Phase Detector and Phase-to-Analog Converter"이며, 학생 설계 콘테스트에서 나온 논문이다. 이 논문은 APD(aperture-phase detector)로 레퍼런스와 VCO 출력의 위상 차를 타임 윈도우에서 비교함으로써 디바이더의 전력 소모와 노이즈 성분을 제거시켰다. 위상 검출의 끝 부분에서는 PAC(phase-to-analog converter)가 위상 에러에 비례하여 아날로그 전압을 생성해주고, 그 이후에 따라오는 차지 펌프(Charge Pump: CP)의 전류 amplitude를 조정한다. PLL 출력 단으로 전달될 때, CP 노이즈는 기존의 PLL처럼 N2 배가 되지 않으므로, 더 낮은 in-band phase noise를 얻을 수 있다. 그리고 제안된 CP에서는 PLL이 lock이 되었을 때, 차징, discharging 전류가 같은 펄스 폭을 갖고, 0에 가까운 같은 amplitude를 가지므로 낮은 레퍼런스 스퍼(spur)와 초저전력 소모를 구현할 수 있다. 제안된 PLL은 TSMC 0.13μm CMOS 공정을 사용하였고, 1.2V 전압에서 2.5mA의 전류를 소모한다. 코어 면적은 패드를 제외하고 0.48mm×0.86mm 이다. 측정 결과는 레퍼런스 spur 레벨이 -80dBc/-74dBc 이고 in-band phase noise는 100kHz 오프셋에서 -103dBc/Hz 이다. 그림 16[S5-3-4]는 APD의 회로도를 나타내고, 컨트롤 신호들의 타이밍도는 그림 17[S5-3-5]에 나타나 있다. 그리고 그림 18[S5-3-6]은 PAC와 CP의 회로도를 나타낸다.

네 번째 논문은 Keio University에서 발표한 "A 0.6V Noise Rejectable All-Digital CDR with Free-Running TDC for a Pulse-Based Inductive-Coupling Interface"이다. 이는 저전력 인덕티브 커플링 인터페이스를 구현함에 있어서 발생하는 문제점들을 인식하고, 수신단과 함께 내장된 클락 데이터 복원회로(CDR)에서 이를 해결하고자 했다. 전체적인 블록도는 그림 19[S5-4-1]과 같고, 인덕티브 커플링 인터페이스에서 mm의 통신 거리를 얻고자 pulse-based signaling을 사용하였으며, 저전력을 위해서 Tx와 Rx의 아날로그 회로들은 0.5V를 사용하였다. Rx에서 신호 수신 시 발생하는 data dependent error가 Rx2를 거쳐 숏펄스 형태의 노이즈 성분으로 보여지고, 이를 CDR 회로에서는 오버샘플링 TDC (Time-to-Digital Converter)와 버블 에러 수정(Bubble Error Correction: BEC)으로 디지털 도메인에서 제거하여 효과적으로 클락 위상을 복원하였다.

외부의 레퍼런스 클락을 사용하고, 내부에 주파수 루프가 없으므로, TDC는 입력 데이터 스트림을 놓치지 않기 위해 seamless로 동작하는 클락을 사용하였고, 이는 내부에 설계된 오실레이터와 동기화되어 있다. 그림 20[S5-4-3]은 간단한 기본 동작 개념도인데, 입력으로 들어온 숏펄스들은 TDC 출력 결과 전체 샘플링 결과 중 버블처럼 '1'의 값을 가질 것이고, 이는 차후의 BEC 블록들을 지나며 디지털 도메인에서 제거된다. 이는 원 데이터 신호는 적어도 그 펄스 폭이 3개의 유닛 딜레이보다는 클 것으로 가정하여 이루어진다. 이 칩은 90nm CMOS 공정으로 설계되었고, 0.6V에서 1.2Gb/s까지 동작하였다. 0.6V의 에너지 효율로서는 약간 크다고 생각되는 4.7pJ/b의 값을 보여주는데, 이는 다음 65nm 공정 디자인에서 개선의 여지가 있다고 본다.

다섯 번째 논문은 MIT에서 발표한 논문으로 제목은 "Injection-Locked Clock Receiver for Monolithic Optical Link in 45nm SOI" 이다. 이 논문에서는 고밀도 집적된 optical interconnect에 쓰이는 저전력 injection-locked 클락 리시버를 제안하였다. Injection-locked 설계는 TIA(Transimpedance amplifier)를 제외한 기존의 클락 리시버 디자인에 비교해서 높은 입력 감도를 제공한다. 그리고 또한, TIA가 갖는 gain/bandwidth tradeoff 관계도 깨버린다. 리시버는 45nm SOI로 설계되었고, 186μW에서 444μW를 소모하면서 1.0GHz에서 3.0GHz로 동작한다. 이 때 입력 감도는 8.6μA에서 33.2μA이고 출력 지터는 UI의 1% 이내이다.

그림 21[S5-5-2]는 제안된 클락 리시버의 회로도를 나타내며, 입력 전류에 따라 여러 단의 앰프 단을 거치고, auto tuning을 통해 reset 타이밍을 만들어 클락 신호를 복원한다. 그림 22[S5-5-3]은 입력 듀티사이클이 50% 일 때를 나타내고, 그림 23[S5-5-4]는 입력 듀티 비가 50%가 아닐 때, auto tuning을 하여 falling slope을 조절하고 이를 통해 다시 reset 타이밍을 50% 듀티 비를 갖는 클락 신호를 생성하게끔 조절한다.
측정 결과를 볼 때, auto를 사용함으로써 보다 넓은 동작 주파수와 동작 전압 영역을 얻을 수 있었다.

여섯 번째 논문은 University of Michigan에서 발표한 논문이며 제목은 "A 900Mbps Single-Channel Capacitive I/O Link for Wireless Wafer-Level Testing of Integrated Circuits" 이다. 이 논문은 무선으로 웨이퍼 테스팅을 하는 커패시티브 I/O 링크를 제안하였다. 단 채널 통신을 구현하기 위해서 데이터 신호에 PWM을 이용하여 클락 신호를 같이 실었다. 이 PWM 신호들은 DLL 기반의 bit-slicer를 통해서 다시 디모듈레이트 된다. I/O 프로토타입은 0.13μm CMOS 공정으로 구현되었고, 900Mbps의 전송속도에서 BER(bir-error-rate) 10-13을 이루었다.
그림 24[S5-6-4]는 펄스폭 모듈레이션으로 데이터 '0'와 '1' 값에 따라 다른 펄스폭을 생성해주는 블록을 나타낸다. 그림 25[S5-6-5]는 제안된 DLL 기반 bit-slicing 리시버의 전체 블록도이고, 그림 26[S5-6-6]은 DLL 내부에서 쓰인 1-cycle PD의 블록도와 동작 특성을 보여준다.
Tx 칩의 면적은 1328μm2이고, Rx 칩의 면적은 5041μm2이며 전체 전력 소모는 7.29mW이다. 그리고 900Mbps에서 BER 10-13을 얻어냈다.

4) Memory
메모리 세션에서 관심이 있었던 I/O 관련 논문은 하이닉스에서 발표한 DLL(Delay Locked Loop) 논문이며 제목은 "A Low-Power Small-Area Open Loop Digital DLL for 2.2Gb/s/pin 2Gb DDR3 SDRAM"이다. 이전까지 하이닉스에서 발표했던 디지털 DLL 관련 논문들은 올해 VLSI symposium 에서 발표된 한 편을 제외하고는 대부분 레지스터 컨트롤드 타입이었다. 즉, 입력과 출력 측의 딜레이 라인을 모델링 한 replica 피드백을 갖는 구조였다. 그러한 경향으로 볼 때, 하이닉스 내부에서는 디지털 DLL을 저전력, 작은 면적을 차지하는 오픈 루프 구조로 대체하는 듯 하다.

그림 27. 28 [S6-1-2]와 [S6-1-3]을 보면 듀티 에러 보정(Duty Cycle Correction: DCC) 동작은 딜레이 업데이트 이전에 미리 하고, 클락 간의 위상 차 검출과 보정은 replica 딜레이를 이용한 오실레이터를 이용하여 이루어진다. 이렇게 계산된 위상 차는 10bit 카운터를 이용해 디지털 비트로 나타내어지고, 이 값들은 미리 준비되어 있는 딜레이 라인에 코스/파인 부분으로 나뉘어 적용된다. 최소 단위가 1/8 CUD(Coarse Unit Delay) 이므로, 최소 분해능은 8bit interpolator를 사용했던 기존의 디지털 DLL들과 비슷할 것으로 예상된다.

측정 결과를 보면 1.5V 전압에서 2.2Gb/s까지 동작하고 locking time은 최대 150 사이클 이내이다. 비교 논문 대비 지터는 좀 큰 편이지만, 면적은 기존 피드백 구조 대비 1/10, 전력 소모는 약 1/16 뿐이다. CMOS 공정이 스케일 다운 되면서, 또한 비용 측면에서 디램 공정에서도 메탈 레이어의 개수를 줄여나가는 상황에서, peripheral 영역 또한 면적의 압박에서 자유로울 수 없다. 그리고 다양한 분야에 디램이 사용되므로, 파워 다운 모드나 슬립 모드에의 출입이 빈번한 모바일 애플리케이션 같은 경우, 평상시 전력 소모도 작고, locking time도 빠른 오픈 루프 구조의 디지털 DLL은 성능만 보장해 준다면 매력적인 후보가 아니지 않나 생각된다.

결론

2011년 11월에 대한민국 제주도에서 열린 A-SSCC는 이제야 7번째를 맞이하였고, 성황리에 그 일정을 모두 마쳤다. 2005년도에 처음 첫 발을 내딛을 때부터 지켜본 바로는 짧은 시간 안에 괄목할만한 성장을 이루어냈다고 개인적으로 평가해본다. 명실공히 아시아 최고의 반도체 회로 관련 학회이고, 이번에도 16편의 논문이 JSSC에 초청될 예정이므로, IEEE SSCS 내에서도 인정받는 분위기이다.

아무래도 이번 A-SSCC의 주제가 "Integrated Circuits for Sustainable Future"이다 보니, 기존까지는 없었던 메디컬 분야나 바이오 분야의 세션이 생겨나고, 관련 논문들도 많이 발표되었다. 그러다 보니, 어느 정도 포화 상태에 이른 아날로그/디지털 회로 설계 테크닉들이 새로운 응용분야에서 어떻게 또 접목되고 발전될 것인지 기대가 된다. 개인적인 생각에 향후 몇 년 간의 화두도 역시 메디컬, 바이오 공학일 것이라 예상된다. A-SSCC 뿐 아니라 최근 몇 년의 여러 반도체 회로 학회들의 발표 논문 경향만 보더라도 쉽게 예측할 수 있다. 그런데, 세션 별 논문들의 출처를 살펴보면 미래의 먹거리에 해당하는 이러한 부분들은 대만 쪽에서 많이 제출되는 것을 볼 수 있다. 우리나라도 좀 더 멀리 내다보며 앞으로 다가올 미래를 준비하는 연구를 많이 하길 기대해본다.


 
회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지