Türkçe küfürlü içerikleri bulan bir yapay zeka kütüphanesi / An ML library for profanity detection in Turkish sentences

Last update: Feb 18, 2022

Overview

"Kötü söz sahibine aittir."

-Anonim

Nedir?

sinkaf uygunsuz yorumların bulunmasını sağlayan bir python kütüphanesidir.

Farkı nedir?

Diğer algoritmalardan en büyük farkı, önceden belirlenmiş bir kelime listesinden cümlerlerdeki sözcükleri tek tek kontrol etmek yerine, makine öğrenmesi metodları kullanarak cümlenin genel anlamına bakabilmesidir. Aynı zamanda sinkaf baya bi hızlı!

Nasıl çalışıyor?

Arka planda modelimizi eğitmek için A corpus of Turkish offensive language verisetini kullanıyoruz. Bu veriseti 36,000+ twitter yorumunun hakaret içerip içermediğini gösteren, Türkçe ile makine öğrenmesi denemeleri yapmak isteyenler için fevkaledenin fevkinde bir kaynak! Kendilerine teşekkür ediyoruz. Velhasıl...

Nasıl yüklerim?

pip3 install sinkaf

Gerekli paketler

joblib
transformers
numpy
scikit_learn

Nasıl kullanırım?

from sinkaf import Sinkaf
  
snf = Sinkaf()

snf.tahmin(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([False,  True])

snf.tahminlik(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([0.09811712, 0.86237484])

Alternatif model

BERT kullanılarak vektörize edilmiş veri üzerinde eğitilmiş modeller:

bert_pre: Küfürlü cümlelerin saptanmasında düşük duyarlılık yüksek kesinlik
bert_rec: Küfürlü cümlelerin saptanmasında yüksek duyarlılık az kesinlik

snf = Sinkaf(model = "bert_pre")

snf.tahmin(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([False,  True])

snf.tahminlik(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([0.26865139 0.85412345])

İyi çalışıyor mu?

Fena değil gibi ama tabi daha iyi kesinlikle olabilir.

Detaylar için:

sinkaf, Açık Hack 2021^*'e katılmak amacıyla Kara Göz ekibi tarafından geliştirilmiştir.

^{* sunum linki}

Türkçe küfürlü içerikleri bulan bir yapay zeka kütüphanesi / An ML library for profanity detection in Turkish sentences

Related tags

Overview

Nedir?

Farkı nedir?

Nasıl çalışıyor?

Nasıl yüklerim?

Gerekli paketler

Nasıl kullanırım?

Alternatif model

İyi çalışıyor mu?

Owner

KaraGoz

🐍💯pySBD (Python Sentence Boundary Disambiguation) is a rule-based sentence boundary detection that works out-of-the-box.

2021海华AI挑战赛·中文阅读理解·技术组·第三名

A python script that will use hydra to get user and password to login to ssh, ftp, and telnet

HF's ML for Audio study group

Using context-free grammar formalism to parse English sentences to determine their structure to help computer to better understand the meaning of the sentence.

Code to use Augmented Shapiro Wilks Stopping, as well as code for the paper "Statistically Signifigant Stopping of Neural Network Training"

ETM - R package for Topic Modelling in Embedding Spaces

VampiresVsWerewolves - Our Implementation of a MiniMax algorithm with alpha beta pruning in the context of an in-class competition

Sample data associated with the Aurora-BP study

TaCL: Improve BERT Pre-training with Token-aware Contrastive Learning

PORORO: Platform Of neuRal mOdels for natuRal language prOcessing

Deep Learning for Natural Language Processing - Lectures 2021

AI and Machine Learning workflows on Anthos Bare Metal.

An implementation of model parallel GPT-3-like models on GPUs, based on the DeepSpeed library. Designed to be able to train models in the hundreds of billions of parameters or larger.

Word2Wave: a framework for generating short audio samples from a text prompt using WaveGAN and COALA.

BERN2: an advanced neural biomedical namedentity recognition and normalization tool

Natural Language Processing with transformers

A unified tokenization tool for Images, Chinese and English.

Azure Text-to-speech service for Home Assistant

Technique for Order of Preference by Similarity to Ideal Solution (TOPSIS)