世界中で話題沸騰の「DeepSeek」利用には注意も

中国のAIスタートアップ「DeepSeek」が話題になっています。

何が話題かといいますと、OpenAIがリリースしたChatGPT o1と同等？の性能を持ちつつも非常に安価な料金設定で利用することができること、また、性能の低いGPUを使用してChatGPT o1と同等？の性能をサービスとして提供していることで、シリコンバレーを中心とした世界中で今話題になっているとのことだそうです。

ということで、さっそくDeepSeekのホームページ（外部リンク）を訪れてみました。

DeepSeekの注目すべきポイント

DeepSeekのホームページにも記載されていますが、

DeepSeek-R1がオープンソースで公開されている
OpenAIのModel o1に匹敵する性能を持ち合わせている
OpenAIのo1モデルと比較して大幅に安い価格設定で利用できる

実際に使っていないので性能の面については、書いてある文字をそのまま受け取るしかありませんが、毎月の利用料金は非常に安く設定されており、価格面での優位性は非常に大きいというところでしょうか。

DeepSeekの開発コスト

大規模言語モデルを開発する際の開発コストは約560万ドルとされており、OpenAIが公表している投資金額と比べても各段に安い投資金額で開発したされています。

これまで大規模なAI投資になってきたGAFAを中心とするAI開発がこれまで想定されてきた投資金額よりも大幅に安い金額で開発できる（低価格なAI半導体で開発が可能）と知れ渡ったことで、AI半導体大手のエヌビディアの株価が1月27日には約17％下落しました。また、エヌビディアに連鎖される形で米ブロードコムや英アームの株価も下落したとも報じられています。

日本国内では、新NISAなどを通じて米国株に投資をしてきた人々にとっては、このままNISAを続けても大丈夫なのかという不安が広がったようですが、さて、DeepSeekのインパクトが米国株の今後にどこまで影響していくのか、こちらもDeepSeek同様に注視していく必要がありそうです。

論文から見えるDeepSeekの注目すべき技術

さて、株価や市場におけるAIのシェア、サービス競争は今後見守ることとして、ここではDeepSeekのテクニカルな側面から少しだけみてきます。

DeepSeekはオープンソースとしてコードの公開と一緒に、「DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」外部リンク（日本語にすると「強化学習によるLLMの推論能力の促進」）というタイトルでDeepSeek-R1についての論文を公開しています。

論文の中身は主に３つ

基本モデル（DeepSeek-V3-Base）の強化学習
コールドスタートによる強化学習
蒸留: 小規模モデルに推論機能を強化

※蒸留とは、簡単に言うと、AI・機械学習の分野において、大規模で複雑なモデル（教師モデル）が学習した知識を、より軽量でシンプルなモデル（生徒モデル）に転移させる技術・プロセスのことです。

注目すべきポイント

公開されているDeepSeekの論文について注目すべき点は

これまでのモデル開発では、大量の教師付データを元に進められていたモデル開発ですが、

DeepSeek-R1では、SFT（supervised fine-tuning）データを使用せずにRL（large-scale reinforcement learning）をベースモデルに直接適用し開発した

ことでしょう。

今まで当たり前と考えられてきたことを覆す発想とチャレンジ精神は見習うべきものがあります。

その他にも、少しのCot（Chain of Thought）データセットを使用したSFT（教師付き微調整）によって、RLプロンプトに複数の言語が含まれるケースなどの言語問題を軽減されていったことや蒸留による強化など”論文の柱となっている３つ”の点については、勉強になることが多く、その詳細について注目すべきポイントではあるのですが、長くなってしまいますのでここでは割愛します。