Sosyal medya platformları, düşünce paylaşımının merkezi hâline gelirken, hakaret ve küfür içerikli söylemlerin yayılmasıyla birlikte otomatik hakaret tespiti giderek daha önemli bir araştırma alanı hâline gelmiştir. Bu bağlamda Facebook, Instagram, X ve Reddit'ten toplanan yorumlar üzerinden, derin öğrenme modelleriyle çok sınıflı ve ikili sınıflandırma çalışmalar yürütülmüştür. CNN, LSTM ve BERTurk modelleri kullanılmış; ayrıca GPT-4o tabanlı büyük dil modeli ile sıfır, bir ve üç örnekli etiketleme senaryoları gerçekleştirilmiştir. Birleşik veri ikili sınıflandırmasında BERTurk %90, LSTM %87, CNN %87 F1 skoruna ulaşmıştır. Birleşik veri çok sınıflı sınıflandırmada ise BERTurk %87 ile en yüksek başarıyı sağlamıştır. GPT-4o, en iyi sonucu ortalama %69 F1 skoru ile tek örnekli çalışmada göstermiştir. Çalışma, Türkçe sosyal medya verilerinde hakaret tespiti alanında dört farklı platformu bir arada ele alan ve derin öğrenme ile büyük dil modeli temelli analizleri yapan ilk kapsamlı araştırmalardan biri olarak literatüre özgün katkılar sağlamaktadır. Ayrıca çalışma, dört farklı platformdan derlenen ilk kapsamlı Türkçe hakaret veri setini sunmaktadır. Elde edilen bulgular, tüm platformların bir arada olduğu bir modelin çoğu durumda platforma özgü modellere benzer hatta daha yüksek başarı göstererek, platformlar arası genellemenin mümkün olduğunu göstermektedir.
As social media platforms have become centers for sharing thoughts, the spread of abusive and profane expressions has made automatic insult detection an increasingly important area of research. In this context, multi-class and binary classification studies were conducted using deep learning models on comments collected from Facebook, Instagram, X, and Reddit. CNN, LSTM, and BERTurk models were employed, and zero-shot, one-shot, and three-shot labelling scenarios were implemented using the GPT-4o-based large language model. In binary classification with the combined dataset, BERTurk achieved an F1 score of 90%, while LSTM and CNN both reached 87%. In multi-class classification with the combined dataset, BERTurk again yielded the highest performance with an F1 score of 87%. GPT-4o produced its best result in the one-shot scenario with an average F1 score of 69%. This study provides an original contribution to the literature as one of the first comprehensive analyses examining four different platforms together and applying both deep learning and large language model-based approaches for insult detection in Turkish social media data. Furthermore, it presents the first extensive Turkish insult dataset compiled from four platforms. The findings show that a model trained on all platforms together often achieves similar or higher performance compared to platform-specific models, indicating that cross-platform generalisation is possible.