ハードウェア障害 – GPUの稼働率100%の状態を長時間維持していても大丈夫なのか?

cuda gpu hardware-failure

私は現在、NVIDIA GeForce GTX 1050 TiというGPUでCUDAを使った数値計算を行っています。これらの操作は、完了するまでに数ヶ月かかることが多く、その間、私はPCを年中無休でオンにしたままにしています

これは安全なのでしょうか?グラフィックスカードが過熱して(最悪の場合)家の中で火災が発生する可能性がありますか?


PCが正しく換気されていて、空気の流れを妨げるものがないことに注意してください

  51  Klangen  2019-05-06


ベストアンサー

簡単な答えです。これは、よく設計されたハードウェア上で安全であるべきです

長い答えです。GPU(およびそのソフトウェア環境: ドライバ、OS、デーモン)は過熱から保護するように設計されています-GPUはまずファンをより高いRPMにする必要がありますが、それでも安全な温度を維持できない場合、GPUはワークロードをスロットルします(通常、クロック周波数を下げることによって)。これは、GPUにダメージを与えず、PC(または部屋)にダメージを与えない熱プロファイルを保証します

警告: 性能のために安全性を犠牲にするようにファームウェアが特別に設計されている安価な模造品のグラフィックカードが存在します。1050には存在しないと思いますが、100%の確信はありません。また、同じことをするかもしれない「最適化された」ベンダーのドライバよりも、彼らのウェブサイトからダウンロードしたNvidiaのドライバを好むべきです

59  Eugen Rieck  2019-05-06


家の火事の可能性は極めて低いですが、カードの寿命が縮まる可能性があります

GPUチップを長期的に過熱しても、おそらく火事にはならないだろう。チップが劣化して動作不良を起こしたり、完全に死んだりすることもありますが、シリコンチップはそれほど燃えやすいものではありません。通常、電解コンデンサが故障して爆発すると悪いことが起こりますが、カードが多くのカリカリをしているからといって、これらのコンデンサが過熱することはありませんし、そのような故障の結果として発生する高温の破片を封じ込めるための金属製のPCケースがあることを期待しています

しかし、コンシューマーグレードの部品は、一般的に24時間365日の長期的な負荷のために設計されていません。したがって、カードがそのような負荷にさらされていない場合よりも早く死ぬ可能性が高いです。どのくらい早く死ぬのかは、特定のモデルの統計がないと何とも言えません。HPCコミュニティの中には、特別なHPCコンピュートパーツの代わりにハイエンドのゲーミングGPUを使うことを提唱している人もいます。コモディティパーツは1年くらいで死んでしまうが、代替品の何倍も安いので交換し続けた方が安く済む

11  TooTea  2019-05-06


はい、カードは一定の負荷がかかるとすぐに消耗してしまいます。小さなジオメトリでは、エレクトロマイグレーションがデバイスの故障の重要な原因であり、デバイスは通常、特定のターゲット寿命を念頭に置いて設計されます。これは典型的な動作(例えば5年間の連続動作)には寛大かもしれませんが、その間のすべての時間で100%の最大動作点を想定していないかもしれません。オーバークロックを開始するとすぐに、その目標値は大幅に減少することが予想されます。同様に、80%の負荷でしか動作しない場合は、この故障メカニズムのために寿命が2倍になるかもしれません)

もちろん、部品の高温動作や熱サイクルに関連した故障は他にもありますが、これは現代の電子機器(設計が悪い場合は1980年代の電子機器でさえも)が「消耗」しやすいことを指摘するためのものです

7  Sean Houlihane  2019-05-07


冷却システムが問題なく動作し、ハードウェアが最新の設計であっても、チップ上の温度監視と温度制御/停止/シャットダウンを含むものであれば、全く問題ありません。クーラーが動作し続けている限り、過熱することはありませんし、それが失敗した場合、チップは受動的に放熱できる以上の熱を出さなくなるまでスロットルを戻します(これは、完全にサスペンドしなければならないことを意味し、ハング/クラッシュのように見えるかもしれません)

最悪の場合、スロットリングが蓄積された熱負荷を補償するのに十分な速さと硬さで作動しなければ、チップの一部が溶けたり燃え尽きたりして、基板がデッドボードになってしまいますが、その時点でスロットリング回路は完全な緊急シャットダウンに突入しているはずで、パワーレール上の(一時的または永久的な)ヒューズをトリップさせて、ダイ全体の入力電圧がランダムにダンプされて実際に火災が発生するのを防ぐこともできます

有り難いことに、PCプラットフォームは、10~15年前にこの種の熱保護システムのほとんどの問題を解決していました。一世代後のチップでは、オーバークロックされたハイエンドプロセッサが、重いベンチマークの最中にヒートシンクとファンを引き裂いても、ヒートスプレッダ表面の最大定格温度をかろうじて超えていることが簡単に証明されました…コンピュータは這うように遅くなったり、(ソフトウェアにとっては致命的な)クラッシュに見舞われたりしましたが、チップは生き残り、リスクは発生しませんでした。うまくいけば、それなりのGPUメーカーが10年半も遅れていないことを願いたいものです

しかし、だからと言って、チップ上のトランジスタにとって、この手の処理が完全に「安全」というわけではありません。GPUを使った重い「数字のクランチ」(ビットコイン?タンパク質の折りたたみ?)は、文字通りシリコンを消耗させる悪名高い方法です。高電圧と電流、毎秒何十億回もの連続的なスイッチング、そして持続的な高温の組み合わせは、チップとコンデンサのようなサポートパーツの両方とも、コンポーネントにかなりのストレスを与えます。その後、ディレーティング(最大クロック速度の制限など)を緩和して、昨年のゲームのような要求の少ない目的に採用されれば、もう少し長く動作することができますが、最大速度でエラーを出し始めると、時間を借りている状態になってしまいます

だから、炎上はしないが、あの雇用形態では、3歳の誕生日を過ぎてもカードが信頼できるとは信じていない

4  tahrey  2019-05-07


ご指摘の通り、換気は良好ですので、このリスク要因の心配はありません

GPUの話をすると、1日8~16時間の通常のオフィスワークよりも強く摩耗するので、24時間365日100%で使用した場合、5年以上10年以上使用できる可能性は低いです。しかし、GPU自体の冷却システムの設計が悪かったり(PC全体ではなく)、全体的な設計が悪かったり、ソフトウェアやファームウェアのバグがあったり、生産品質が悪かったり、生産不良の深刻度や不良率が異なる生産不良(1回限りの不良から大規模なものまで)があったりすることも考慮しなければなりません。これらの要因は、加熱を悪化させたり、システム障害を引き起こしたり、寿命が短くなったり、ショートしたり、火災を引き起こしたり、電気ショックを受けたりする可能性があります。ある要因はモデルおよび修正によって決まります、いくつかはソフトウェア/ファームウェアの更新と次第に修理されています、いくつかは 1 つの単一の項目から別のものに変わります。適切なリビジョン(通常は可能な限り最新のもの)で信頼性の高い評判の良いモデルを選ぶのがベターです。また、余分な電気/電子信号のノイズを発生させることで、他のコンポーネントに悪影響を与えたり、ひどく干渉したりすることがあります。また、サーマルペーストは徐々にその品質を失い、冷却を悪化させる可能性があることも忘れてはいけません

PCは複雑なシステムであり、その正常な動作は複数のコンポーネントの状態に依存しているため、グラフィックスカードだけが考慮すべき唯一のコンポーネントではないことを言及しなければなりません。フロッピードライブや装飾的なライトでさえも、小さな部品の一つ一つがPCを故障させたり、GPUについて言及した問題に近い問題を引き起こす可能性があります。例えば、オン/オフボタンが悪いと、シャットダウンや再起動の原因になるかもしれません。そして今、重要なコンポーネントについてより深く知っています

  • CPU:あなたの使用ケースでは、それは通常の日常的な使用時よりもハードに使用される可能性が高く、それはあなたがそれをオーバークロックする必要は絶対にない可能性が高いです。最近のCPUは、スロットリングや緊急シャットダウンなどのすべての防御機構を備えており、かなり耐久性があると考えられています。ただ、クーラーとサーマルペーストを忘れてはいけないし、それがシステムの最弱点になる可能性は非常に低い
  • マザーボード:CPUとほぼ同じですが、PCI-Eの重い使用法とディスク、ネットワーク、周辺機器の多分重い使用法がありますが、より良い実績のあるモデルを選択します
  • RAM:壊れる可能性は極めて低いので、このリスクは心配するに値しません。ただ、良いものを使ってください
  • ディスク: ディスクの使用に依存するタスク(データマイニング、データ処理、ディスク上のデータを使ったニューラルネットワークの学習など)では、HDDは信頼性の弱点になる可能性があります – サーバーやデータセンターでは、1~3年でディスクを交換するのが一般的で、5年以上「生きる」ことはほとんどありません。RAID 1とバックアップシステムを使用して、24時間365日の使用で信頼性を高めることができます(RAID 0はパフォーマンスのために信頼性を犠牲にします。また、RAID !=バックアップなので、必要に応じてバックアップを怠らないようにしてください。)SSD を使用している場合、ディスクの書き込みが多い操作は、テラバイトの書き込み制限を消耗させ、ディスクを使い物にならなくする可能性があります。SSD を使用した RAID 1 は、1 台のディスクの突然の故障からシステムを守ることができますが、TBW レートの助けにはなりません。HDD または SSD – あなたのニーズ、予算、選択に依存します。適切なリビジョン(通常は可能な限り最新のもの)で信頼性が実証されているモデルを選ぶことをお勧めします
  • 電源ブロック: 重くグラフィックカードによって使用され、したがって、より集中的に着用されている – ので、より良い適切なリビジョン(通常、最新の可能な)と電源と実績のある信頼性の評判とモデルを選択し、少なくとも1.5倍以上のシステム全体の消費量よりも、またはメインの電力消費者(GPUとCPUとして)よりも、少なくとも2倍から2.5倍以上の電力。悪い220V ACケーブルのため、良い220V ACケーブルを使用することを確認してください、短絡を引き起こす可能性が高いので、電気ストラックまたは燃焼(ちょうど煙と自己破壊を作ることができますまたは実際の火災を設定することができます)!
  • 換気装置:取るに足らないように見えるかもしれませんが、彼らはそのようなユースケースでは重要であり、その故障は24/7/365システムのための大きな問題です。一般的に、あなたができるだけ多くをインストールしますが、また、サイズを考慮してください – いくつかのケースでは小さいものは、より大きな量でインストールすることができますが、大きなものは静かで、より効果的ですので、1つの単一の換気装置の故障は、システムのためのより少ない痛みになります – 選択はあなたのものです
  • エキゾチックな冷却システム:水冷は高熱のオーバークロックシステムではコンパクトで効果的と考えられていますが、水が漏れるとPCの部品に深刻なダメージを与える可能性があります。凍結窒素システムは非常に効果的ですが、必要ないと思われますが、よりかさばるし、高価です

プロのエンタープライズ24/7/365システムとコンポーネントは、そのために設計されており、CPUやBIOSでさえも、すべてのコンポーネントにリザーブがあり、コンポーネントやモジュールのホット交換を特徴としていますが、彼らでさえ100%のアップタイムを特徴としていません(近いですが、同等ではありません)、プロのNvidiaカードは、CUDA(特にニューラルネットワーク)のために高速ですが、私はそれがあなたのユースケースではないと思います

システムを組み立てることは、コンポーネント自体よりも、それほど重要ではありません。任意の単一のアクションを忘れてはいけない、何か間違ったことをしてはいけない、愚かなようなPCを作ってはいけないし、すべてがうまくいかなければなりません

強制的にシャットダウンしたり、PCを再起動したり、プロセスを終了させたりするソフトウェアがないことを確認してください。あなたがWin10のユーザーであれば、あなたは完全に更新を無効にする方法はないと思うかもしれませんが、そのための回避策やウェブ上のソフトウェアの部分があります(警告:それはEULAに違反する可能性があります)

周辺機器もまた、PCの部品のように問題を引き起こす可能性があります。例えば、悪いマウスや摩耗したマウスは、ボタンを押していないのにボタンを押したことを登録してしまうことがあります

重要な外部環境について

  • 電気のこと。電気をオフにすると、仕事の結果を失うことができるので、あなたの家の電気は非常に信頼性が高く、安定していることを願っています。短時間の電気の問題では、UPSはあなたを助けることができますが、より長い時間の問題では、それはあなたにシステムを冬眠させるか、または正しくあなたの進歩を保存するための時間だけを与えることができます
  • ネットワーク: タスクがインターネットやネットワーク接続に依存している場合は、ワイヤ/モデム/ルーターに問題がないかどうかを確認してください

まとめ。すべてが良い(文字通り、唯一の死が保証されています)ととにかくあなたはリスク(彼らは決してゼロに等しいことはありません)を受け入れる必要がありますが、コンポーネントの良い選択を持って、適切な組み立てと欠陥のあるコンポーネントを購入する際に不運を持っていないことは、あなたが年と年のためにそれを行うつもりで、5、10およびより多くの年の信頼性を期待している場合を除き、その後、質問の著者が最初に想定したより低いリスクでそのようにPCを使用することができます

2  bpalij  2019-05-08


GPUを100%利用している状態を長時間維持していても大丈夫なのでしょうか?

意図した目的で使うよりは安全ですよ、たまにゲームをしているようなものです

電子機器の)最も摩耗が大きいのは、温度変化による機械的ストレスです。コンポーネントは異なる速度で加熱され、それらの熱膨張係数が異なるため、すべてのヒートアップ、クールダウンサイクルは、カードを引き裂こうとする力に起因し、しばしば蓄積し、最終的に故障につながることができるマイクロ損傷をもたらします。心配しないでください、それは何十年もかかることになっています。(2006年の悪名高いnVidiaのノートパソコン用GPUとは異なり、間違ったハンダを使用していたので、故障は部品の寿命内に顕著になるようにすぐに発生しました)

計算を開始して一定のレートで維持すると、カードが温まってからそこに留まるので、熱サイクルが発生せず、実際にはカードへのストレスが少なくなります

摩耗が増加する唯一の部品はファンで、通常は簡単に交換できます

実際の利用率100%の計画に関しては、100%は非効率的です。カードをアンダークロックして電圧を下げれば、フロップは減りますが、消費電力はさらに減ります。ワットあたりのパフォーマンスが向上します。そして、さらに優れた寿命が得られます

0  Agent_L  2019-05-08


タイトルとURLをコピーしました