自然言語処理のためのデータ拡張手法

近年、大規模言語モデル(LLM)は自然言語理解と生成において目覚ましい能力を示していますが、その性能は、膨大かつ高品質な学習データの存在に大きく依存します。現実には、十分な訓練データが不足したり、既存データの品質が低いと […]

Lightlyで実践 - 自己教師あり学習入門

近年、機械学習プロジェクトで扱うデータ量は増大し続けています。しかし、その膨大なデータすべてに手作業でアノテーション(教師ラベル付け)を行うのは、コストと時間の面で大きな課題です。この「アノテーションの壁」を乗り越える技 […]

アノテーション不要 - 機械学習エンジニアのための自己教師あり学習入門

近年、深層学習は様々な分野で目覚ましい進歩を遂げていますが、その成功の多くは大量のラベル付きデータに大きく依存しています。しかし、このデータの収集とアノテーション作業は非常に費用と時間がかかり、さらにアノテーションのバイ […]

機械学習における分布シフト(分布外データ)への対応

機械学習(ML)モデル、特に深層ニューラルネットワーク(DNN)は、コンピュータービジョンや自然言語処理といった多岐にわたる分野で、これまでにない成功を収めています。これらのモデルは通常、i.i.d.(独立同分布)という […]

Helixで実践する透明性と信頼性の高い機械学習

現代科学では膨大なデータが生まれ、機械学習(ML)の活用が不可欠な一方で、その分析結果の「透明性」と「信頼性」が重要課題となっています。特に、データサイエンスの専門知識がなくても、分析プロセスを理解し、結果を効果的に活用 […]

TruthTorchLMによるLLMのハルシネーション検出

大規模言語モデル(LLM)の目覚ましい進化は生活やビジネスに革新をもたらす一方で、事実に基づかない情報を生成するハルシネーションが問題となっています。特に医療や金融といった高リスクな分野では、LLM出力の信頼性と正確性が […]

コンテキスト・エンジニアリングの現状と未来

近年、大規模言語モデル(LLM)の進化は目覚ましく、その性能は提供される「コンテキスト(文脈情報)」によって根本的に左右されます。これまで、LLMの能力向上においては「プロンプト・エンジニアリング」と呼ばれる、より良い指 […]

UnslothではじめるLLMのFine-tuning

大規模言語モデル(LLM)を特定のタスクやドメインに特化させる「ファインチューニング」。その可能性に多くの開発者が惹きつけられる一方で、「膨大な計算コストがかかる」「高性能なGPUがなければ手も足も出ない」といった高いハ […]

LLMのハルシネーションはなぜ避けられないのか?

近年、ChatGPTやLlamaといった大規模言語モデル(LLM)は目覚ましい発展を遂げ、自然言語処理を中心として研究、産業、社会に大きな影響を与えています。しかし、その一方で、「ハルシネーション」(幻覚)と呼ばれる、も […]

機械学習における敵対的攻撃とは何か?

AI、特に深層学習モデルが社会に急速に浸透し、画像認識から自動運転まで、その能力は目覚ましい進化を遂げています。しかし、その成果の裏で、モデルが抱える深刻な脆弱性については、まだ広く知られていません。実は、現在のAIモデ […]