Sunday, May 29, 2016

تحميل البيانات التاريخية جوجل خلال اليوم مع بيثون






+

تحميل البيانات التاريخية جوجل خلال اليوم مع بيثون 19 ديسمبر 2011 حتى الآن، في مشاركاتي السابقة، لقد تم تنزيل أسعار الأسهم اليومية من المواقع المعروفة ياهو وجوجل. كلا الموقعين تقدم من السهل جدا الوصول إلى البيانات التاريخية اليومية مجانا. كما تقدم كلا الموقعين الرسوم البيانية لطيفة من أسعار الأسهم. ولكن البعض منكم قد لاحظت ان غوغل الخرائط الأسعار اليومية فحسب، ولكنها أيضا رسم الأسعار لحظيا وصولا الى اثنين من قرار دقيقة. ومع ذلك، لا توجد وصلات المنشورة للحصول على البيانات الخام المستخدمة في بناء المخططات. المشكله. يتيح القيام بالتحقيق قليلا ونرى ما يمكننا معرفة. لأولئك منكم باستخدام متصفح كروم ممتازة، فقد بنيت في الأداة المساعدة لدراسة كافة جوانب صفحة ويب (أو الموقع). ويسمى أدوات المطور. ويمكن أن تبدأ النقر على أيقونة وجع في الزاوية اليمنى العليا، واختيار أدوات، ثم أدوات المطور (أو ببساطة السيطرة تحول + I +). هذه الأداة المساعدة لديه كمية هائلة من الوظائف، ولكن نحن مهتمون أساسا في أي حركة مرور الشبكة يولد صفحة. هكذا يترك تبدأ سحب ما يصل إلى صفحة ملخص جوجل المالية لAAPL. ثم تبدأ أدوات المطورين وانقر فوق علامة التبويب الشبكة. أخيرا، على الرسم البياني لAAPL، انقر على الرابط فترة 2min. في الجزء السفلي من الصفحة سوف تكون قائمة بجميع طلبات الشبكة التي تم إنشاؤها عن طريق النقر على الرابط 2min. ستقضي، هناك واحدة تسمى getprices. التي تبدو واعدة! الآن انقر على هذا الارتباط ثم 8220؛ response8221. التبويب على طول الجزء العلوي لرؤية ما كانت استجابة الملقم على الطلب. هنا هو ما بدا متصفحي مثل: البيانات ونحن مهتمون في نظرات مثل هذا: نحن الآن الحصول على مكان ما! يبدو بالتأكيد مثل بيانات الأسعار وحجم، جنبا إلى جنب مع نوع من الطابع الزمني وقائمة إزاحة. هنا هو ما بدا رابط مثل: إذا كان لنا أن نسخ الرابط لوضعه مباشرة في شريط عنوان الموقع من المتصفح لدينا، يمكننا الحصول على مجموعة بيانات كاملة. يبدو أن لديها بعض البيانات رأس تلتها قائمة الأسعار. تظهر التواريخ وتتكون من قيمة زمنية دورية تليها سلسلة من التعويضات. لذلك هناك شيئان لمعرفة. أولا نحن بحاجة إلى فك سلسلة رابط مثلما فعلنا للبيانات اليومية، ومن ثم نحتاج إلى فك رموز البيانات الطابع الزمني في النتائج التي تم إرجاعها. يتيح معالجة سلسلة رابط أولا. ونحن سوف نفعل ذلك تماما مثل غيرها من محاولتين سابقتين. نحن في نهاية المطاف مع: عنوان الموقع هو قاعدة جوجل / تمويل / getprices ف هو رمز (AAPL) x هو تبادل (NASD) أنا هو الفاصل في ثواني (120 = ثانية = 2 دقيقة) جلسات وطلبت الدورة (ext_hours) ص هي الفترة الزمنية (5D = 5 أيام) و هي الحقول المطلوبة (د، ج، والخامس، س، ح، ل) مدافع. (cpct) السيارات. (1) الخبر من المحتمل أن يكون الطابع الزمني (1324323553 905) مرة أخرى، وقضيت بعض الوقت في اللعب حولها مع معلمات الاستعلام وجدت أنك يمكن أن تفلت من س فقط، ط، ص، وو. A رابط مبسطة (للحصول على 10 يوما من البيانات AAPL 5 دقائق) يبدو مثل هذا: المضي قدما وانقر على الرابط لمحاولة ذلك. الآن يمكننا تحميل البيانات اللحظية لفترة محددة العودة في الوقت المناسب. قد يكون هناك طريقة للحصول عليه بين أي تاريخين، لكني أحسب أن طعاما بها حتى الآن. إذا كان أي شخص يعرف، وأنا متأكد من أن تكون مهتمة في معرفة كيفية القيام بذلك. المشكلة التالية هي معرفة كيفية التعامل مع تنسيقات التاريخ غريبة. في البيانات التي تم إرجاعها من المثال أعلاه، وحصلت على 8220؛ a13231818008221. في حقل تاريخ الأول وتتحرك، وكان آخر 8220؛ a8221؛ المعروض كان عدد مسبوقة 8220؛ a13240458008221 ؛. تلك تبدو مريبة مثل يونكس الوقت الطوابع لي. كل لغات البرمجة الرئيسية تدعمهم وأنهم ببساطة عدد الثواني منذ 1/1/1970. مرة أخرى، وذلك باستخدام صديقي جوجل، وجدت على الانترنت يونكس تحويل الطابع الزمني وتوصيله في الأرقام المذكورة أعلاه (دون 8220؛ a8221؛). حصلت على: 8220، الثلاثاء، 6 ديسمبر 2011 14:30:00 GMT8221. و8220؛ الجمعة، 16 ديسمبر 2011 14:30:00 GMT8221. للمرة الثانية. بنغو! هم يونكس الوقت الطوابع. وتظهر البيانات أن تكون مدرجة مع أقدم أولا. لذلك، للحصول على موعد لكل طابع الوقت، ونحن بحاجة فقط لتحويل أي 8220؛ a8221؛ مسبوقة مرات إلى الوقت يونكس، ثم في كل مرة ينجح، ونضيف إلى الإزاحة مضروبا في عدد الثواني الفاصلة إلى آخر سجلت الوقت يونكس حتى نحصل على الجديد 8220؛ a8221؛ الوقت محدد مسبقا. هذا يبدو أكثر تعقيدا مما هو عليه حقا. منذ أنا مهتم فقط في القيم DOHLC، وانا ذاهب الى تجاهل الحقول رأس مجموعة البيانات لدينا. ومنذ هذا المنصب هو الحصول طويلة جدا، وسأقدم الطبقة بيثون كتبت لتحليل البيانات: يجب أن تكون جميلة النفس التفسيرية. والفرق الرئيسي بين هذه الفئة وغيرها هو أن يأخذ فترة (بالثواني)، ومراجعة الماضي (بالأيام) بدلا من وقت بداية / نهاية. I تجاهل خمسة حقول رأس الأولى، ثم تحقق من وجود حقول التاريخ مسبوقة مع 8220؛ a8221 ؛. I تتبع الإزاحة وحساب التاريخ الصحيح مع الخط: هناك واحد آخر الجزء صعبة: لاحظ أنه يتم سرد البيانات OHLC في شكل غير قياسي. في الواقع يتم إرجاعها كما CHLO، بغض النظر عن ما هو النظام الذي سرد ​​المجالات F. وتجدر الإشارة إلى أنه يبدو أن هناك ليست سوى 10-20 أيام أحدث البيانات المتاحة خلال اليوم في أي وقت من الأوقات. شراء مهلا، ماذا تريد من أجل لا شيء! في وقت لاحق، وسوف نحاول أن نجد بعض الأمور المثيرة للاهتمام أن تفعل مع هذه البيانات وهذه القيود. وأخيرا، مثال الكامل: google_intraday. py



No comments:

Post a Comment