apache spark - how to convert LibSVM file with multi classes into an RDD[labelPoint] -
org.apache.spill.mllib.util.MLUtils पैकेज से निम्न विधि का उपयोग करके, LIBSVM प्रारूप में बाइनरी लेबल वाले डेटा लोड करता है आरडीडी [लेबलपेपॉइंट] में, कई विशेषताओं के साथ स्वचालित रूप से और डिफ़ॉल्ट विभाजन की संख्या निर्धारित की जाती है।
def loadLibSVMFile (sc: SparkContext, पथ: स्ट्रिंग): RDD [LabeledPoint] मेरी समस्या बहु वर्ग लेबल के साथ डेटा लोड करने के साथ है? जब multiclass लेबल डेटा पर इस पद्धति का उपयोग करते हुए ... यह द्विपदीय लेबल डेटा में परिवर्तित हो रहा है .. क्या कोई RDD [LabeledPoint] में LibSVM प्रारूप में मल्टीकाल्ज़ डेटा लोड करने का एक तरीका है ... ??
निम्न विवरण के साथ एक ही पैकेज में एक और तरीका है
लोड्स को लिबिसवीएम प्रारूप में डेटा को आरडीडी [लेबलपेपॉइंट] में लेबल किया गया है, जिसमें विभाजन की डिफ़ॉल्ट संख्या है।
Def loadLibSVMFile (sc: SparkContext, पथ: स्ट्रिंग, numFeatures: Int): RDD [LabeledPoint] लेकिन जब मैं इसका उपयोग करने की कोशिश कर रहा हूं, तो "दिखा पाया एक त्रुटि है" Int, बूलियन की आवश्यकता है "
स्पार्क का कौन सा संस्करण आप उपयोग कर रहे हैं? मैं सिर्फ इस फ़ाइल का इस्तेमाल किया
स्पार्क 1.1 और निम्न कोड:
val lbldRDD = MLUtils.loadLibSVMFile (sc, svmFile) lbldRDD.map (_ लेबल) .collect () .toSet.map (println) मुझे आउटपुट दिखाई देता है:
5.0 1.0 6.0 2.0 7.0 3.0
जो मुझे सही लगता है < / P>
Comments
Post a Comment