ABEJA Tech Blog

中の人の興味のある情報を発信していきます

コンペで使える!?LightGBMで実装する3つの弱教師あり学習

ABEJAでデータサイエンティストをしている小林です。 今回は、もしかしたらいつか業務や機械学習コンペに役立つかもしれない情報、LightGBMで弱教師あり学習を行う方法についてお話します。 コードはこちらで公開しております。 目次 はじめに 弱教師あり学…

【LLM × レコメンド】パーソナライズLLMレコメンドシステムの実装と学びについて

こんにちは!競馬愛が止まらず、昨年テックブログで競争馬に関する記事を公開してしまった、データサイエンティストの安倍(あんばい)と申します。社内では馬ニキと呼ばれています。 tech-blog.abeja.asia 世はまさに大LLM時代。このウェーブに少し乗り遅れ…

大規模言語モデルはデータサイエンティストを駆逐するか

ABEJAでデータサイエンティストをしている大谷です。ちょうど1年ほど前にGPTを事前学習し、HuggingfaceにGPT NeoX Japaneseとして登録していたりしていた者です。 さて、ChatGPTの登場から、Copilot Chat、GPT4のAPIの解禁、code interpreterのリリースと続…

ChatGPT の仕組みを理解する(後編)

こちらは「ChatGPT の仕組みを理解する」の後編記事になります。 前編は以下の記事をご参照ください。 tech-blog.abeja.asia 前半記事では、自然言語の基礎的な部分から GPT-3.5 まで説明していきました。GPT-3.5 の次としては、ChatGPT の元になっている In…

ChatGPT の仕組みを理解する(前編)

こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。こ…

実験を高速化する機械学習パイプライン開発の挑戦

はじめに こんにちは、ティアキンで寄り道し過ぎて永遠にストーリークリア出来ない坂元です。データサイエンスチームに所属しています。LLMの一大ブームの中でLLMの記事を書かないのは若干憚られますが、高速に実験を回す用途で気軽に使える機械学習パイプラ…

外部データをRetrievalしてLLM活用する上での課題と対策案

はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文…

リモートでも働ける?Data Scienceチームのコミュニケーションを考える

DSチームの構成 DSチームの特徴 オンラインコミュニケーションの課題 ABEJAのDSチームとしてのアプローチ DS Dayとは? その他チームビルディング施策 さいごに こんにちは。データサイエンス (DS) チームの真鍋と申します。 アドベントカレンダーでは限界野…

慣れてきたらチャレンジしてみよう!BigQueryのパフォーマンス最適化

自己紹介 I/Oや通信的観点 分割されたクエリを取り除く 過剰なワイルドカード テーブルを避ける テーブルを日付別にシャーディングすることを避ける & テーブルの過度な分割を回避する JOIN を使用する前にデータを削減する コンピューティング的観点 結合パ…

Starlinkが会社に来たのでエンジニアのみんなで触ってみた

はじめに こんにちは。プラットフォームグループでマネージャーをしております大田黒です。ABEJAには技術が大好きなが多く、面白い技術が発表されるとエンジニア・ビジネスメンバー問わず飛びついていきます。最近、社内有志メンバー数人でStarlinkを試して…

暗号の歴史と現代暗号の基礎理論(RSA, 楕円曲線)-後半-

はじめに このブログに書かれていること 自己紹介 注意 Part3 現代の暗号 共通鍵暗号方式と鍵配送問題 鍵配送問題とは? 共通鍵暗号方式と公開鍵暗号方式の違いとメリット・デメリット RSA暗号 RSAで使われる鍵 処理手順 暗号化の手順 復号の手順 RSA暗号の…

暗号の歴史と現代暗号の基礎理論(RSA, 楕円曲線)-前半-

はじめに このブログに書かれていること 自己紹介 注意 Part1 古典暗号 2つの暗号方式 スキュタレー暗号 アルゴリズムと鍵 シーザー暗号 原理 頻度分析 アルベルティ暗号 ヴィジュネル暗号 如何にしてヴィジュネル暗号は破られたか Part2 近代暗号 エニグマ …

100行で作る2D空間ボイチャツール&入ったら誰も居ない悲しみの解決!

こんにちは、メリークリスマス。株式会社ABEJAのラボチームで日々もがいてる藤本(@peisuke)です。本記事はABEJAアドベントカレンダー2022の25日目の記事です。 仕事では機械学習をやっていますが、機械学習で何かの問題を解いているだけでは中々インパクト…

社内フリーアドレス席の予約状況を電子ペーパーで可視化する ~オフィスDXアプリ x M5Paper連携~

こんにちは。2022/09にABEJAに入社したシステムエンジニアの中島です。本記事はABEJAアドベントカレンダー2022の24日目の記事です! 本記事ではBizflexシステムを使用しながら自分が欲しいと思った機能をIoTデバイスのM5Paperで実装してみるという内容ですBi…

Data Scienceチームの成果を最大化するための取り組み(2022年版)

はじめに 新規施策・取り組み Technical Document 分析の工夫やDSの思考の蓄積・活用 ドキュメントのテンプレート化 ドキュメンテーションの習慣付け Reviewer System 中間レビューの廃止と代替施策の導入 レビュアーの役割 QA channel (Slack) 質問すること…

つよつよ自作PC作成日記 ~RTX4090で最強の推論環境を作る~

こんにちは。 2022/09にABEJAに入社したシステムエンジニアの中島です。 本記事はABEJAアドベントカレンダー2022の22日目の記事です! 目次 目次 初めに 動機 0日目 機材購入 1日目 構成 機材確認 マザーボードへのCPU取り付け ケースへのクーラー取り付け …

Googleの画像品質評価MUSIQの話

こんにちは。株式会社ABEJAでデータサイエンティストをしている大谷です。本記事はABEJAアドベントカレンダー2022の21日目の記事です。 去年はNormalizing Flowと呼ばれるマイナー(?)技術とそれを使ったSRFlowという超解像技術の紹介をしました。 qiita.com …

GA → Airbyte → Snowflake(Snowpark for Python) のELT(EL)パイプラインを作ってみた

この記事はABEJA Advent Calender20日目、及びSnowflake Advent Calender23日目の記事になります。 はじめに 各々の技術について大雑把に紹介 Snowflake Snowpark Airbyte 環境構築 Airbyte Google Analytics Google Search Console Snowflake Connection Sn…

Stable Diffusion の仕組みを理解する

この記事は、ABEJAアドベントカレンダー2022 の 19 日目の記事です。 こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井です。 世間では Diffusion Model 使った AI による画像生成が流行っているみたいですね。 自分は元々 Computer Visi…

競走馬骨格推定 ウマ娘から競馬にドハマリしたデータサイエンティストが競馬×AIの可能性を考える

本記事はABEJA Advent Calendar 2022 18日目の記事です。 こんにちは! 今年10月からデータサイエンティストとして働いている安倍(あんばい)と申します。 ウマ娘から競馬を知り、気がつけば週末は必ず競馬場にいる筆者が、競馬予想に留まらず、競馬xAIの可…

AI生成物と著作権とAI倫理

本記事はABEJAアドベントカレンダー2022の17日目の記事です!昨日に引き続き担当の古川です! 昨日の予告通り生成AIによるAI生成物の著作権と倫理の話です。 生成AIと言っても主に念頭に置いているのは画像生成AIです(議論の発端自体はmimicやMidjourneyで…

2022年AI倫理ニュースベスト10

本記事はABEJAアドベントカレンダー2022の16日目の記事です! 本日の担当は、法務・AI倫理関係を担当している古川です。12年ほど弁護士をしていまして、途中で機械学習をやってみたくなり数学から統計から機械学習の勉強をして(PRMLとかカステラ本とか読み…

非エンジニアがNotion+Wraptasをつかって、一ヵ月で採用サイトをつくった話

はじめまして!コーポレートデザイン統括部人事グループの本坊といいます。ABEJAアドベントカレンダー2022の15日目の記事を担当させていただきます。 ABEJAでは、エンジニアやデータサイエンティストだけでなく、ビジネス職含め、様々なポジションで仲間を募…

AzureADの条件付きアクセスポリシーをTerraformで作る 〜情シス業務の効率化トライ〜

はじめに なぜやるのか 環境準備 今回の実装想定 実装 参考 採用メッセージ はじめに こんにちは! 株式会社ABEJAで情シスをしている世古です。本記事はABEJAアドベントカレンダー2022の14日目の記事です! 今回は「AzureADの条件付きアクセスをポリシーをTe…

GPTでKey作品の名言から文章を生成してみた

目次 目次 はじめに そもそもGPTとは 日本語データセットで学習されたGPT 入力文章 GPTによる生成コード 出力結果 ChatGPTで生成 まとめ ABEJAについて はじめに 本記事はABEJAアドベントカレンダー2022の13日目の記事です。 こんにちは!カスタマーサクセス…

trufflehog x pre-commit & GitHub Actions で GitHubのセキュリティを強化したってばよ

こちらは ABEJA アドベントカレンダー 12日目の記事です。 こんにちは。CTO室の村主です。セキュリティ強化も自組織の役割であるため、ABEJAのセキュリティ対策に関する内容を共有したいと思います。 はじめに trufflehog(トリュフホッグ) クレデンシャル…

オフィスDXを支える技術2022年版(チャットツール連携編)

ABEJA Advent Calendar 2022 11日目の記事です。昨日は服部さんの夫婦で納得の土地探しをするためにLINE Bot作ったりデータサイエンスした話でした。 はじめに こんにちは、こんばんは、おはようございます、エンジニアの小笠原(@seiro-ogasawara)です。 去…

夫婦で納得の土地探しをするためにLINE Bot作ったりデータサイエンスした話

皆さんこんにちは! ABEJAでデータサイエンティストをしている服部といいます。 本記事はABEJA Advent Calendar2022の10日目の記事になります。 背景 引っ越しから2年.... データサイエンティストとしてのリベンジ 前回の反省を踏まえて.... 1. お得そうに見…

ChatGPTでフランクな翻訳、コード譜付きの作詞、アイディア発想法の応用を試してみたら想像以上に使えそうだった話

こんにちは。株式会社ABEJA でPM兼DS兼プリセールスと色々な仕事をさせてもらってます道辻です。本記事はABEJAアドベントカレンダー2022の9日目の記事です! 私にとって2022年はテキストから画像生成のstable diffusion、音声認識のWhisper等、遊びがいのあ…

文系大学院(人類学)にいくつもりが、いつのまにかAIベンチャーに転職してた【入社エントリ】

はじめまして!今年、ABEJAに入社しました高崎です!こちらは、ABEJAアドベントカレンダー2022の8日目の記事になります。 今回は、箸休め的に、ABEJAへの入社エントリ(ビジネス職)をお届けします! この記事で伝えたいこと いわゆる文系でもAIの世界で活躍…