とりあえず |
|
| コメントを下さっている方々、すみません 基本的に「言いっぱなしの自己満足」なので 返答が無いかもしれませんがそれはご了承下さい あとコメントに関して書き込めるのはぶっとびブログユーザーのみです
7月3日追記 コメントの荒らしが酷い為一時停止
| |
|
12月31日(木)23:59 | トラックバック(44) | コメント(0) | 日記 | 管理
|
K10.5ではないのか? その2 |
|
| 前回の続き とは言っても3ヶ月経過している
AMDがFPUユニットをエミュレート出来るかどうか ここには多大な問題がある しかしそれを解決する最も簡単な方法がある その答えはIntelが1989年に作ったi486DXにある i486DXはALUユニットとFPUユニットを 別々に搭載している つまり追い出されたFPUユニットをGPUに搭載するのである 考えられる事としてはFusionをデスクトップ用の 全てのコアで搭載されてx87やSSEはGPU側で行う こうする事によってCPU側は整数演算重視 GPUは浮動小数点重視となり それぞれのコアを特化させる事によって CPUは高クロック、GPUは高IPCを実現出来る
その証拠となるべき話がある K10.5と呼ばれるコアは L2がコア毎で倍になっていると言われている ここでミソなのは『L2がコア毎で倍』という点 つまり現状のK10とは違う設計が成されている事になり 可能性として最も高いのは共用L2 これは有り得ない話ではない 何故なら現行RADEONのL2はコアと直接繋がっていない 何処に繋がっているかというとメモリコントローラーなのである RV770と呼ばれるRADEON4870は 64bitのメモリコントローラーを4つ搭載し 各メモコンに256KBずつ装備している この方式を取ると物理的には256KB×4になっているのだが コア側から見ると1MBあるように見えるのである
Rev.CのPhenom X4は L2が512KB×4、L3が6MBとなり 65nmの時より4MB増量される事になるが もしL2を共用しているのであれば L2が1MB×4、L3は非搭載なので 65nmの時よりコアの拡張分だけ大きくなっているだけで 約2億トランジスタ削減できる事になり 周波数も限界である1.4倍まで向上できる これでNehalemに対抗する事が出来るようになり Intelが長年越える事が出来ずに居た 4GHzを越える事だって可能になる
続く
| |
|
9月3日(水)22:00 | トラックバック(0) | コメント(0) | パソコン関連:AMD | 管理
|
K10.5ではないのか? |
|
| Bulldozerからかどうかは分からないが AMDの次世代CPUは現行のK10とは 全く違うものになるらしい ただ個人的な予想として大雑把に言えば K10からFPUユニットを除外するだけで 大して変わらないと推測する 問題はFPUユニットを除外すると 浮動小数点演算が出来なくなる事 これに関してはAMD64に答えがある
本来AMD64はx86命令を64bit化すると同時に x87 FPU、MMX、3DNow!を使わず 何らかの形でエミュレートする事が目的 だからAMD64の必須命令にSSE、SSE2が含まれている 従ってアーキテクチャが変わるという事は FPUユニットを何らかの形で 効率よくエミュレートする事に成功したか 無くしても大した性能差は出ないと踏んだのだろう そしてもし完全になくなるのであれば 今までFPUユニットが必須だったx86系CPUでは 史上初となるプロセッサである
さて、問題は除外して開いた部分に何を詰めるか? 予想ではALU+SIMD演算用のレジスタしかない AMD製CPUは元々ALUよりFPUの方が大きいから ALUを2倍にする事が可能であり 今までのALUは3つで常時3命令/サイクルを実現している それが倍になるという事は常時6命令/サイクルとなる そしてIntelのNehalem系CPUは 現在、最大6命令/サイクルを実現すると言われている 『常時』と『最大』 どちらが優れているのかは言わなくても分かるだろう
ただこれには問題がある それは6命令入れる事になるのだからパイプラインを深くして 出来るだけ次の命令を取り込む様にしなければならない 予想では20段前後となり それはPentium4のNorthwoodコアと 同程度だと思われる そして何故このアプローチを取るかというと これ以上クロックを向上するとコア内部に空きが生じ 演算効率が低下する為であり そうしないとハイパースレッティングを搭載する必要が出てくる
これらを統合して簡潔に言えば IntelのNetburst系CPUを基礎として 整数演算とSIMD演算能力を強化した 初代K7に近い高クロック主義プロセッサとなる ・・・と思うのだがどうだろう?
| |
|
5月2日(金)21:12 | トラックバック(0) | コメント(0) | パソコン関連:AMD | 管理
|
何故8コアを作らないのか? その5 |
|
| 最後の分割
最近の情報では45nmは全て SocketAM3用となるらしい そうなるとますます省電力と拡張が重視であり 周波数の向上は有り得なくなる
8コアにはもう一つ欠陥がある それはハイパートランスポートの周波数である 現行のHT3.0は最大2.6GHz SocketAM2ではコアの3/4で動いているが AM3になるとコアと等速で動く事になる それはDDR3の関係でありDDR3 1333MHzの デュアルチャネルを確保する為である しかしコアが2.6GHzでも帯域幅では勝てない
つまり今までは CPUコア>メモコン>メモリ が成り立っていたのに CPUコア>メモリ>メモコン になってしまう K10でメモコンを64bit×2にし Phenomでシングルチャネルとデュアルチャネルを 切り替えられる様にしたのも CPUコア>メモコン>メモリ の構図を守る為である
ハイパートランスポートの規格は二年に一度更新される 今年の年末にHT3.1か4.0になるだろうが その規格のCPUが登場するのは半年ぐらい待つ必要がある そしてそのハイパートランスポートの規格が 45nmプロセスCPUの最大周波数を決める事になる 個人的な予想としては3.2GHzを最高周波数とした HT3.1となると踏んでいる これなら少なくともDDR4 3200MHzの シングルチャネルには耐えられる ただここから先はメモリもシリアル化するので読めない
最後に訴えたい事は SocketAM3のデュアルCPU対応 x86系以外のCPUの代理販売(もしくは制作販売) チップセット(ノース、サウスブリッジ)の統合 兎角K8では速い、安い、旨いで売ったのだから K10はそれを越える面白いシステムを作って欲しい
| |
|
4月28日(月)21:43 | トラックバック(0) | コメント(0) | パソコン関連:AMD | 管理
|
何故8コアを作らないのか? その4 |
|
| 再三の分割
前回何故謎の半導体に『プライム』と名付けたかというと Opteronの語源はOptimusである (読み方はオプティマス。意味は「最適な」である) つまり『オプティマス プライム』 オプティマス プライムと言えば日本人には馴染みは薄いが 某ロボットシリーズの総司令官の名前でもある
最近アプリケーションの対応はともかくとして サーバー~デスクトップ用ではマルチコアが重視されつつある こうなるとCPU内部で如何に情報を共有するかが問題となり 共用キャッシュは全てのコアと共用しない限り意味を成さない Nehalem系もそれを重視してL2を各コア別にした ただその容量は256KBであり現状でAMDは L2の基本容量が初めてインテルより上回る事になる (L1は多分Am486の時から既に上回っている)
現在、僕が考えるロードマップ予想は 大まかな区切りで45nm自体は省電力に重視し 2.6GHzを越える事はないと推測する 仮に越えるとすればそれはPhenom FXと Black Editionのみで 高クロック主義の人にはこれで済ませると思われる
細かく言うとRev.Cは基本的にシュリンクのみで Opteronは3次キャッシュ増量+MCMによる8コア PhenomとAthlonの一部は3次キャッシュ無し Rev.Dは少し変わり PhenomとAthlonの一部は2次キャッシュを倍増 メモリコントローラをDDR3対応にし SocketAM3へ移行する 問題はOpteron OpteronはRev.DのPhenomを MCM構成したのちDDR3+3次キャッシュ12MBの メモリコントローラを統合する こうすれば2次キャッシュを倍増しても3次キャッシュを 倍増する必要が無くRev.Cと1CPU辺り同容量で済む
そしてRev.Eであるが AMDはこれを32nmで行う可能性がある つまり今までプロセスを3段階に分けていたのを 2段階にするという事 それは多分省電力、拡張、高クロック化と分割していては いつまで経ってもIntelには追いつかないからだろう だから65nmは高クロック化、設計刷新のみで終わらせ 45nmは省電力、拡張 32nmで高クロック化、設計刷新 22nmで省電力、拡張 15nmで・・・と続けていく予定なのだろう
| |
|
4月24日(木)22:03 | トラックバック(0) | コメント(0) | パソコン関連:AMD | 管理
|
何故8コアを作らないのか? その3 |
|
| 更に長くなったので分割
そして最近AMDは専用のコアとして 3次キャッシュ無しのPhenomを作っているらしい 3次キャッシュが無ければトランジスタ数は約3.5億 コスト的にはかなり有効な手段である が、しかし敢えて言おう。コストの問題じゃない 完全勝利の為の布石なのである
ShanghaiはMCM構成である そして3次キャッシュは6MB 問題は何故6MBなのかである 3次キャッシュには2次キャッシュのコピーが入っている これはメインメモリへのアクセスを減らす為なのは 誰もが知っている事 しかしMCM構成を取った場合に もう一方のコアに何が入っているか分からないと 困るというデメリットがある 従って6MBの内訳は 2MBは自分のコアの2次キャッシュの予備データ 2MBはもう一方のコアの2次キャッシュ予備データ あとの2MBはDDR3対応になった時の レイテンシの隠蔽の為だと思われる
そう考えると最も効率の良い方法は全てのコアで 3次キャッシュを統合すれば良い そこで登場するのが3次キャッシュ無しのPhenom 3次キャッシュ無しとは言っても実際の所 3次キャッシュへのバスは存在している可能性は高く スイッチでオフにしているだけだと推測できる
僕だったらこんな半導体を作る 12MB程度のキャッシュがあり ハイパートランスポートが8本(内部用、外部用4本ずつ) DDR3対応のメモリコントローラ2個で作られ 細長い長方形になっている一見変な半導体 名前は『プライム』とでも付けておこう これをCPUの中央に配置 そこに3次キャッシュ無しのPhenomを4個持ってきて 12MBのキャッシュ、ハイパートランスポート1本と接続する
これで普通に4個合体させると約28億になっていた16コア 謎の半導体が足されているが3次キャッシュが半減しているので 計算上では約20億程度に! しかも16コアで共用しているので効率は飛躍的にアップ! ・・・恐ろしい Nehalem12コア分で16コアCPU・・・恐ろしい
| |
|
3月20日(木)01:31 | トラックバック(0) | コメント(0) | パソコン関連:AMD | 管理
|
何故8コアを作らないのか? その2 |
|
| 長くなったので分割
次世代のItaniumであるTukwilaは 65nmで作られる予定であり コア数は4(HTT搭載で8スレッド) トランジスタ数20.5億 目標は2GHzで170Wとなっている ではShanghaiの16コアと言うと 計算通りに進めばトランジスタ数は約28億 1.9GHzでTDP130W つまり仮にTukwilaが45nmに移行して トランジスタ数を倍増させても 構造上MCM構成になるので周波数は向上しないし 周波数を向上させようとしても1.4倍にしかならず スレッド数を増やした所で物理コアの性能には勝てない そして何よりx86命令が扱えない 要するにItaniumを完全玉砕できるのである
それとは別に先日、IntelがNehalemなどの 次世代CPUの詳細をより詳しく公表した その中でNehalem系はキャッシュ量やコストを考えて 6コアがベストだと言っている 何故そうなのか? 答えは至って簡単 ハイパースレッティング(HT)を搭載しているからである 元々Pentium4でHTが搭載された理由は 高クロック化によりコア内部に空きが生じる為 その空きを埋める為に搭載された その事を念頭に置いた上で同じTDP枠で 8コア品と6コア品を作った場合 8コア品は6コア品より周波数を下げる必要がある しかもNehalem系はPentium4とは違い Core2系と同じ高IPCのCPU つまり同クロックのPentium4に比べて コア内部の空きは少ないはずである 周波数が低い上に空きが少ないならHTの意味はなく もしかしたら8コア+HT無駄と6コア+HT有効とでは 性能差で1.1~1.2倍程度しか無いのか もしかしたら逆転している可能性もある これならNehalemにもOpteronは 勝てる可能性がある
| |
|
3月20日(木)00:57 | トラックバック(0) | コメント(0) | パソコン関連:AMD | 管理
|
何故8コアを作らないのか? その1 |
|
| AMDのK10アーキテクチャ採用のOpteron Barcelonaである もうすぐエラッタ修正版であるB3が登場するらしい
その話はさておき次期ステッピング(Cステップ)は 45nmプロセスのShanghaiである このCPUで製造されるは8コアの製品は ネイティブマルチコアではなく 4コア×2のMCM構成を取ると言われている ではどうやってそれを実現するのか? それは至って簡単な話で 片方のコアのメモリコントローラを無効にし コア二つをCPU上で直接繋ぐのだろう 問題は 『同じK10であるBarcelonaでは出来ないのか?』 という事である 簡単に言えばOpteron2ウェイ版を 1個のCPU上で構成するだけなのだから ハッキリ言って出来る筈である むしろK8でも出来た筈である
では何故作らないのか? 答えはただ一つ。ダイサイズのコストである 理論上では現在発売されている Opteron2347HE(1.9GHz)は55W MCM構成の場合、TDPは単純に倍なので110W これでも現行のXeonのTDPより下であり 絶対性能で考えれば Xeon 3.4GHz×4と Opteron 1.9GHz×8なら Opteronが圧勝する しかしダイサイズは566平方mmと桁違いの化け物になる
AMDは現在フルスピードで45nmに移行しようとしている それはMCM構成の関係が一番強いと思われる 45nmに突入すればダイサイズは約半分になり実用に耐えうる しかも1.9GHzならTDPも低減している可能性もあり もしかしたら16コアなんて物も登場するかも知れない (4個合体してもTDPは単純に四倍だし) もし仮に45nmで16コアを作るとなれば Intelからすれば驚異である 何故ならAMDは16コア製品をIntel最大の収入源である Itaniumにぶつけるからである
| |
|
3月18日(火)20:06 | トラックバック(0) | コメント(0) | パソコン関連:AMD | 管理
|
勝ち目はあるのか? その2 |
|
| 前回より2ヶ月過ぎているが続き AMDは現在、L3の修正版を B3ステッピングとして出す予定 そのあとこの次に来るステッピングは 本来なら65nmのCステッピングなのだが AMDはCステッピングを45nmプロセスで生産する 何故AMDは45nmプロセスに急ぐのか? それはIntelに対抗する為に 消費電力の低減とコストの削減である事は 色々な所で言われており自身もそう思っていた しかし最近それだけではないと思い始めてきた
45nmプロセスはAMDにとって 分岐点になるのでは無いかと思われる 先ず、今までAMDのCPUは単一のウェハから 全てのプロセッサを生み出していた つまりOpteronとして無理だったら Athlon系にしてAthlon系としても無理だったら Sempronにする この方式でCPUを作っていくとしても 製造に関しての根本的な問題は解決していない 根本的な問題とは立ち上がりからの歩留まりの向上 これがスムーズに進まない限り Opteronすら発売できない事になる それを技術的な方法以外で改善する為に 45nmプロセスでは分岐するのである
先ず65nmプロセスをそのままシュリンクしただけの CPUを発売する それだけなら以前と同じなのだが違うのは Opteronにする場合は 4コア×2のMCM構成で売る代わりに 周波数は向上しないのである サーバー用では周波数よりも 命令同時発行数の方を重視するので コア数を増やした方が効率がよい それに対しPhenomはMCM構成は取らず 4コアのまま周波数を向上する これはデスクトップ用でマルチコアは不必要という判断の下 周波数の向上を優先するのである
つまりサーバー用とデスクトップ用の周波数をずらすのである どのプロセスでも最初は高い周波数の物が取れないので 今までのAMDはその時点で原価割れに近づいている ローエンドを切り替えるのに使っていた しかしそれが薄利多売になっている最大の原因である この状況を改善する為、周波数の低いしか取れないなら コア同士をMCM構成にして売り 高い周波数で取れるようになったら 単一のコアとして売るのである これならばある一定の歩留まりラインを超えてから 発売するスタンスを取る必要が無く 歩留まりの低い状態からでも製品が投入できるようになる こうすれば作り始めから製品として売りさばく事が出来るので 歩留まりをあまり気にする必要が無くなる 多分、その為のモジュラー設計であり サーバー~デスクトップ用は一枚のウェアを こういった形で分割するようになる そしてこの中でエラーのあるコアをピックアップして AthlonやSempronを取るのである
AMDの兄貴がこの間の演説で言った事に 45nmにはまだ発表していない隠し球があるという 個人的な予想では45nmの製品が本格的に発売される前に 1.8GHz以上で4コア×2のMCM構成を取った PhenomFXの発売ではないかと思うのだが もしかしたら4コア×4のMCM構成も有り得る (G3MXで最大16枚のメモリに対応する予定なら コアが16コあっても不思議ではない それに本来なら4リンクあるハイパートランスポートだが SocketFでは3リンクしか使っていないので 4コア×2×2の多重MCM構成も有り得る) もし16コアを実現したとしてもダイサイズは Nehalem8コアの約1.5倍 シングルコアの性能では負けるが総合性能なら ハイパースレッティングより物理コア搭載の方が 優れているのは当たり前なので勝てる (仮にNehalem最高周波数と言われる3.2GHz×8と Shanghai最低周波数となる1.8GHz×16なら ほぼ互角であり2.4GHz以上になればコスト的にも上回る) これが完成したらIntelは 45nmだけでなく32nmも危うくなる
| |
|
2月9日(土)17:42 | トラックバック(0) | コメント(0) | パソコン関連:AMD | 管理
|
勝ち目はあるのか? |
|
| Phenomシリーズが発売されて二週間ほど過ぎている ただ最高周波数は2.6GHz止まりであり Intel製に対し不利な状況からスタートすることになる しかし打つ手はある
それはDDR2の価格が下がり続けている事 1GBは既に底値に突入し2GBも下がってきている だが32bitOSを使っている人達は 2GB×2枚でのデュアルチャンネルは4GBと認識されない そして来年の初めにはVista SP1が発売される 殆どのユーザーはSP1を待っていたので来年は買う人が増えると思われ メーカー製の小型の物でもメモリのスロットは大抵2スロット DDR2はスロット辺り2GBが最大で2枚積むと32bitOSからは認識されず 選択肢としては64bitOSも増えると思われ 自作、メーカー製共に64bitOSへの移行が本格的に始まる思われる
こうなってくるとCore2系は周波数並みの性能しか出せず不利になり 廉価版であるPentium DCやCeleronも戦えなくなる となるとローエンドではPentium DCやCeleromより高クロックな Athlon X2やSempronが売れる事になる Phenomもラインナップさえ揃えば十分戦えるようになり この流れはNehalemがメインストリームに降りてくる再来年の夏頃まで続くだろう
そしてDDR2の低価格化によりDDR3へ移行しようとしている Intel製プラットホームの妨げになる事である 元々FSBが1600MHzを超えない以上 デュアルチャンネルならDDR2 800MHzで十分であり 割高且つ高レイテンシのDDR3へ移行する理由は殆ど無い
そして最大の欠点はIntel側にある 45nmプロセスに突入し新製品が登場してきているが Nehalemがメモリコントローラを搭載している以上 現行の製品より消費電力が増す事は決定事項である為 同じ消費電力でもクロックは低く競ってせざる終えなくなる 従って現行CPUのクロックを上げすぎるとNehalemは売れず あまり上げないでいると性能差が縮まるので売れなくなる
この間をうまく潜って行ければAMDの勝機は確実にある
| |
|
12月6日(木)23:28 | トラックバック(0) | コメント(0) | パソコン関連:AMD | 管理
|