ABEJAでデータサイエンティストをしている小林です。 今回は、もしかしたらいつか業務や機械学習コンペに役立つかもしれない情報、LightGBMで弱教師あり学習を行う方法についてお話します。 コードはこちらで公開しております。 目次 はじめに 弱教師あり学…
こんにちは!競馬愛が止まらず、昨年テックブログで競争馬に関する記事を公開してしまった、データサイエンティストの安倍(あんばい)と申します。社内では馬ニキと呼ばれています。 tech-blog.abeja.asia 世はまさに大LLM時代。このウェーブに少し乗り遅れ…
ABEJAでデータサイエンティストをしている大谷です。ちょうど1年ほど前にGPTを事前学習し、HuggingfaceにGPT NeoX Japaneseとして登録していたりしていた者です。 さて、ChatGPTの登場から、Copilot Chat、GPT4のAPIの解禁、code interpreterのリリースと続…
こちらは「ChatGPT の仕組みを理解する」の後編記事になります。 前編は以下の記事をご参照ください。 tech-blog.abeja.asia 前半記事では、自然言語の基礎的な部分から GPT-3.5 まで説明していきました。GPT-3.5 の次としては、ChatGPT の元になっている In…
こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。こ…
はじめに こんにちは、ティアキンで寄り道し過ぎて永遠にストーリークリア出来ない坂元です。データサイエンスチームに所属しています。LLMの一大ブームの中でLLMの記事を書かないのは若干憚られますが、高速に実験を回す用途で気軽に使える機械学習パイプラ…
はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文…
DSチームの構成 DSチームの特徴 オンラインコミュニケーションの課題 ABEJAのDSチームとしてのアプローチ DS Dayとは? その他チームビルディング施策 さいごに こんにちは。データサイエンス (DS) チームの真鍋と申します。 アドベントカレンダーでは限界野…
自己紹介 I/Oや通信的観点 分割されたクエリを取り除く 過剰なワイルドカード テーブルを避ける テーブルを日付別にシャーディングすることを避ける & テーブルの過度な分割を回避する JOIN を使用する前にデータを削減する コンピューティング的観点 結合パ…
はじめに こんにちは。プラットフォームグループでマネージャーをしております大田黒です。ABEJAには技術が大好きなが多く、面白い技術が発表されるとエンジニア・ビジネスメンバー問わず飛びついていきます。最近、社内有志メンバー数人でStarlinkを試して…